Úvod
Aspose.Words FOSS je open-source knihovna v Pythonu pro práci s dokumenty Word. Čte soubory DOCX, DOC, RTF, TXT a Markdown a může je exportovat do PDF, Markdown nebo prostého textu — vše bez nutnosti Microsoft Word nebo jakýchkoli nativních závislostí.
Knihovna je vydána pod licencí MIT a je k dispozici na PyPI. Nainstalujte ji pomocí:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS vyžaduje Python 3.10 nebo novější a závisí na třech čistě Pythonových balíčcích (olefile, fpdf2, pydantic), instalovaných automaticky pomocí pip.
Klíčové vlastnosti
Načítání dokumentu a konverze
Třída Document je hlavním vstupním bodem. Načtěte soubor v libovolném podporovaném vstupním formátu a zavolejte save() pro převod do jiného výstupního formátu.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Export PDF
Exportujte dokumenty Word do PDF pomocí SaveFormat.PDF pro výchozí nastavení nebo PdfSaveOptions pro podrobné řízení.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Export do Markdown s možnostmi uložení
Použijte MarkdownSaveOptions a PdfSaveOptions pro jemnou kontrolu formátování výstupu.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Extrahování textu
Extrahujte prostý text z libovolného podporovaného formátu dokumentu pomocí Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsování struktury dokumentu
Specializované parsery extrahují strukturovaná data z interních částí DOCX. NumberingParser čte definice číslování seznamů a StyleParser parsuje názvy stylů do strukturovaných objektů.
Podpora vstupu ve více formátech
Načtěte dokumenty z pěti vstupních formátů — DOCX, DOC, RTF, TXT a Markdown — pomocí stejného Document konstruktoru. Výčtový typ LoadFormat poskytuje konstanty pro explicitní výběr formátu (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Rychlý start
Nainstalujte balíček a převeďte soubor DOCX do všech tří výstupních formátů:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Podporované formáty
| Formát | Přípona | Číst | Zapisovat |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source a licencování
Aspose.Words FOSS for Python je vydán pod licencí MIT. Můžete jej používat zdarma v osobních, interních i komerčních projektech bez licenčních poplatků. Kompletní zdrojový kód je k dispozici na GitHubu v organizaci Aspose Words FOSS.