Einleitung

Aspose.Words FOSS ist eine Open‑Source‑Python‑Bibliothek zur Arbeit mit Word‑Dokumenten. Sie liest DOCX-, DOC-, RTF-, TXT‑ und Markdown‑Dateien und kann sie in PDF, Markdown oder reinen Text exportieren — alles ohne Microsoft Word oder native Abhängigkeiten zu benötigen.

Die Bibliothek ist unter der MIT-Lizenz veröffentlicht und auf PyPI verfügbar. Installieren Sie sie mit:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS erfordert Python 3.10 oder höher und hängt von drei reinen Python‑Paketen ab (olefile, fpdf2, pydantic), die automatisch von pip installiert werden.


Hauptmerkmale

Dokumentenladen und -konvertierung

Die Document-Klasse ist der primäre Einstiegspunkt. Laden Sie eine Datei in einem beliebigen unterstützten Eingabeformat und rufen Sie save() auf, um sie in ein anderes Ausgabeformat zu konvertieren.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF-Export

Exportieren Sie Word‑Dokumente nach PDF mit SaveFormat.PDF für Standardeinstellungen oder PdfSaveOptions für eine feinkörnige Steuerung.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Markdown-Export mit Speicheroptionen

Verwenden Sie MarkdownSaveOptions und PdfSaveOptions für eine feinkörnige Kontrolle der Ausgabeformatierung.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Textextraktion

Extrahieren Sie Klartext aus jedem unterstützten Dokumentformat mit Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Parsing der Dokumentenstruktur

Spezialisierte Parser extrahieren strukturierte Daten aus den DOCX-Interna. NumberingParser liest Listennummerierungsdefinitionen und StyleParser parst Stilnamen in strukturierte Objekte.

Mehrformatige Eingabeunterstützung

Laden Sie Dokumente aus fünf Eingabeformaten — DOCX, DOC, RTF, TXT und Markdown — mit demselben Document‑Konstruktor. Das LoadFormat‑Enum stellt Konstanten für die explizite Formatwahl bereit (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Schnellstart

Installieren Sie das Paket und konvertieren Sie eine DOCX-Datei in alle drei Ausgabeformate:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Unterstützte Formate

FormatErweiterungLesenSchreiben
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Open Source & Lizenzierung

Aspose.Words FOSS for Python wird unter der MIT-Lizenz veröffentlicht. Sie können es frei in privaten, internen und kommerziellen Projekten ohne Lizenzgebühren nutzen. Der vollständige Quellcode ist auf GitHub in der Aspose Words FOSS-Organisation verfügbar.


Erste Schritte