Úvod
Aspose.Words FOSS je open-source knižnica Python na prácu s dokumentmi Word. Číta súbory DOCX, DOC, RTF, TXT a Markdown a dokáže ich exportovať do PDF, Markdown alebo obyčajného textu — všetko bez potreby Microsoft Word alebo akýchkoľvek natívnych závislostí.
Knižnica je vydaná pod licenciou MIT a je dostupná na PyPI. Nainštalujte ju pomocou:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS vyžaduje Python 3.10 alebo novší a závisí od troch čistých Python balíkov (olefile, fpdf2, pydantic), ktoré sa nainštalujú automaticky pomocou pip.
Kľúčové vlastnosti
Načítanie a konverzia dokumentov
Trieda Document je hlavný vstupný bod. Načítajte súbor v akomkoľvek podporovanom vstupnom formáte a zavolajte save() na konverziu do iného výstupného formátu.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Export PDF
Exportujte dokumenty Word do PDF pomocou SaveFormat.PDF pre predvolené nastavenia alebo PdfSaveOptions pre detailné ovládanie.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Export do Markdown s možnosťami ukladania
Použite MarkdownSaveOptions a PdfSaveOptions pre jemné riadenie formátovania výstupu.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Extrahovanie textu
Extrahujte čistý text z akéhokoľvek podporovaného formátu dokumentu pomocou Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Analyzovanie štruktúry dokumentu
Špecializované parsery extrahujú štruktúrované údaje z interných častí DOCX. NumberingParser číta definície číslovania zoznamov a StyleParser parsuje názvy štýlov do štruktúrovaných objektov.
Podpora vstupu viacerých formátov
Načítajte dokumenty z piatich vstupných formátov — DOCX, DOC, RTF, TXT a Markdown — pomocou rovnakého Document konštruktora. Enum LoadFormat poskytuje konštanty pre explicitný výber formátu (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Rýchly štart
Nainštalujte balík a skonvertujte súbor DOCX do všetkých troch výstupných formátov:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Podporované formáty
| Formát | Rozšírenie | Čítanie | Zápis |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source a licencovanie
Aspose.Words FOSS for Python je vydaný pod licenciou MIT License. Môžete ho používať voľne v osobných, interných a komerčných projektoch bez licenčných poplatkov. Kompletný zdrojový kód je dostupný na GitHub-e v organizácii Aspose Words FOSS.