Introductie
Aspose.Words FOSS is een open-source Python‑bibliotheek voor het werken met Word‑documenten. Het leest DOCX, DOC, RTF, TXT en Markdown‑bestanden, en kan ze exporteren naar PDF, Markdown of platte tekst — allemaal zonder Microsoft Word of enige native afhankelijkheden te vereisen.
De bibliotheek is uitgebracht onder de MIT-licentie en is beschikbaar op PyPI. Installeer het met:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS vereist Python 3.10 of hoger en is afhankelijk van drie pure-Python pakketten (olefile, fpdf2, pydantic), die automatisch door pip worden geïnstalleerd.
Belangrijkste kenmerken
Document laden en converteren
De Document klasse is het primaire toegangspunt. Laad een bestand in elk ondersteund invoerformaat en roep save() aan om het naar een ander uitvoerformaat te converteren.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF-export
Exporteer Word‑documenten naar PDF met SaveFormat.PDF voor standaardinstellingen of PdfSaveOptions voor fijnmazige controle.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown-export met opslaanopties
Gebruik MarkdownSaveOptions en PdfSaveOptions voor fijnmazige controle over de uitvoeropmaak.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Tekstextractie
Haal platte tekst op uit elk ondersteund documentformaat met Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsing van documentstructuur
Gespecialiseerde parsers halen gestructureerde gegevens uit DOCX-interne gegevens. NumberingParser leest lijstnummeringsdefinities en StyleParser parseert stijlnamen naar gestructureerde objecten.
Ondersteuning voor invoer in meerdere formaten
Laad documenten van vijf invoerformaten — DOCX, DOC, RTF, TXT en Markdown — met dezelfde Document constructor. De LoadFormat enum biedt constanten voor expliciete formaatselectie (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Snelstart
Installeer het pakket en converteer een DOCX‑bestand naar alle drie de uitvoerformaten:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Ondersteunde formaten
| Formaat | Extensie | Lezen | Schrijven |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open source & licenties
Aspose.Words FOSS for Python wordt uitgebracht onder de MIT License. Je kunt het vrij gebruiken in persoonlijke, interne en commerciële projecten zonder licentiekosten. De volledige broncode is beschikbaar op GitHub bij de Aspose Words FOSS-organisatie.