Einleitung
Aspose.Words FOSS ist eine Open‑Source‑Python‑Bibliothek zur Arbeit mit Word‑Dokumenten. Sie liest DOCX-, DOC-, RTF-, TXT‑ und Markdown‑Dateien und kann sie in PDF, Markdown oder reinen Text exportieren — alles ohne Microsoft Word oder native Abhängigkeiten zu benötigen.
Die Bibliothek ist unter der MIT-Lizenz veröffentlicht und auf PyPI verfügbar. Installieren Sie sie mit:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS erfordert Python 3.10 oder höher und hängt von drei reinen Python‑Paketen ab (olefile, fpdf2, pydantic), die automatisch von pip installiert werden.
Hauptmerkmale
Dokumentenladen und -konvertierung
Die Document-Klasse ist der primäre Einstiegspunkt. Laden Sie eine Datei in einem beliebigen unterstützten Eingabeformat und rufen Sie save() auf, um sie in ein anderes Ausgabeformat zu konvertieren.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF-Export
Exportieren Sie Word‑Dokumente nach PDF mit SaveFormat.PDF für Standardeinstellungen oder PdfSaveOptions für eine feinkörnige Steuerung.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown-Export mit Speicheroptionen
Verwenden Sie MarkdownSaveOptions und PdfSaveOptions für eine feinkörnige Kontrolle der Ausgabeformatierung.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Textextraktion
Extrahieren Sie Klartext aus jedem unterstützten Dokumentformat mit Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsing der Dokumentenstruktur
Spezialisierte Parser extrahieren strukturierte Daten aus den DOCX-Interna. NumberingParser liest Listennummerierungsdefinitionen und StyleParser parst Stilnamen in strukturierte Objekte.
Mehrformatige Eingabeunterstützung
Laden Sie Dokumente aus fünf Eingabeformaten — DOCX, DOC, RTF, TXT und Markdown — mit demselben Document‑Konstruktor. Das LoadFormat‑Enum stellt Konstanten für die explizite Formatwahl bereit (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Schnellstart
Installieren Sie das Paket und konvertieren Sie eine DOCX-Datei in alle drei Ausgabeformate:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Unterstützte Formate
| Format | Erweiterung | Lesen | Schreiben |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source & Lizenzierung
Aspose.Words FOSS for Python wird unter der MIT-Lizenz veröffentlicht. Sie können es frei in privaten, internen und kommerziellen Projekten ohne Lizenzgebühren nutzen. Der vollständige Quellcode ist auf GitHub in der Aspose Words FOSS-Organisation verfügbar.