Introduktion
Aspose.Words FOSS er et open-source Python-bibliotek til at arbejde med Word-dokumenter. Det læser DOCX, DOC, RTF, TXT og Markdown-filer, og kan eksportere dem til PDF, Markdown eller almindelig tekst — alt uden at kræve Microsoft Word eller nogen native afhængigheder.
Biblioteket er udgivet under MIT-licensen og er tilgængeligt på PyPI. Installer det med:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS kræver Python 3.10 eller nyere og afhænger af tre ren‑Python‑pakker (olefile, fpdf2, pydantic), som installeres automatisk af pip.
Nøglefunktioner
Dokumentindlæsning og konvertering
Klassen Document er det primære indgangspunkt. Indlæs en fil i et hvilket som helst understøttet inputformat, og kald save() for at konvertere den til et andet outputformat.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF-eksport
Eksporter Word-dokumenter til PDF ved hjælp af SaveFormat.PDF for standardindstillinger eller PdfSaveOptions for finjusteret kontrol.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown-eksport med gemmeindstillinger
Brug MarkdownSaveOptions og PdfSaveOptions til finjusteret kontrol over outputformatering.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Tekstudtrækning
Udtræk ren tekst fra ethvert understøttet dokumentformat ved hjælp af Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Dokumentstruktur Parsing
Specialiserede parserprogrammer udtrækker strukturerede data fra DOCX-interne. NumberingParser læser definitioner for listenummerering og StyleParser parser stilnavne til strukturerede objekter.
Understøttelse af input i flere formater
Indlæs dokumenter fra fem inputformater — DOCX, DOC, RTF, TXT og Markdown — ved hjælp af den samme Document-konstruktør. LoadFormat-enumet giver konstanter til eksplicit formatvalg (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Hurtig start
Installer pakken og konverter en DOCX-fil til alle tre outputformater:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Understøttede formater
| Format | Extension | Læs | Skriv |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source & Licensering
Aspose.Words FOSS for Python er udgivet under MIT License. Du kan bruge den frit i personlige, interne og kommercielle projekter uden licensgebyrer. Den fulde kildekode er tilgængelig på GitHub hos Aspose Words FOSS organization.