Introduksjon
Aspose.Words FOSS er et åpen kildekode Python‑bibliotek for å jobbe med Word‑dokumenter. Det leser DOCX, DOC, RTF, TXT og Markdown‑filer, og kan eksportere dem til PDF, Markdown eller ren tekst — alt uten å kreve Microsoft Word eller noen native avhengigheter.
Biblioteket er utgitt under MIT‑lisensen og er tilgjengelig på PyPI. Installer det med:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS krever Python 3.10 eller nyere og er avhengig av tre ren‑Python‑pakker (olefile, fpdf2, pydantic), som installeres automatisk av pip.
Nøkkelfunksjoner
Dokumentlasting og konvertering
Klassen Document er hovedinngangspunktet. Last inn en fil i et støttet inndataformat og kall save() for å konvertere den til et annet utdataformat.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF‑eksport
Eksporter Word-dokumenter til PDF ved å bruke SaveFormat.PDF for standardinnstillinger eller PdfSaveOptions for finjustert kontroll.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown-eksport med lagringsalternativer
Bruk MarkdownSaveOptions og PdfSaveOptions for finjustert kontroll over utdataformatering.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Tekstuttrekk
Ekstraher ren tekst fra ethvert støttet dokumentformat ved hjelp av Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsing av dokumentstruktur
Spesialiserte parsere ekstraherer strukturert data fra DOCX‑interne. NumberingParser leser listenummereringsdefinisjoner og StyleParser parser stilnavn til strukturerte objekter.
Støtte for flere formater av inndata
Last inn dokumenter fra fem inndataformater — DOCX, DOC, RTF, TXT og Markdown — ved å bruke den samme Document‑konstruktøren. LoadFormat‑enumet gir konstanter for eksplisitt formatvalg (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Rask start
Installer pakken og konverter en DOCX‑fil til alle tre utdataformatene:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Støttede formater
| Format | Utvidelse | Les | Skriv |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source og lisensiering
Aspose.Words FOSS for Python er utgitt under MIT License. Du kan bruke den fritt i personlige, interne og kommersielle prosjekter uten lisensavgifter. Den fullstendige kildekoden er tilgjengelig på GitHub i Aspose Words FOSS organization.