Úvod

Aspose.Words FOSS je open-source knižnica Python na prácu s dokumentmi Word. Číta súbory DOCX, DOC, RTF, TXT a Markdown a dokáže ich exportovať do PDF, Markdown alebo obyčajného textu — všetko bez potreby Microsoft Word alebo akýchkoľvek natívnych závislostí.

Knižnica je vydaná pod licenciou MIT a je dostupná na PyPI. Nainštalujte ju pomocou:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS vyžaduje Python 3.10 alebo novší a závisí od troch čistých Python balíkov (olefile, fpdf2, pydantic), ktoré sa nainštalujú automaticky pomocou pip.


Kľúčové vlastnosti

Načítanie a konverzia dokumentov

Trieda Document je hlavný vstupný bod. Načítajte súbor v akomkoľvek podporovanom vstupnom formáte a zavolajte save() na konverziu do iného výstupného formátu.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Export PDF

Exportujte dokumenty Word do PDF pomocou SaveFormat.PDF pre predvolené nastavenia alebo PdfSaveOptions pre detailné ovládanie.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Export do Markdown s možnosťami ukladania

Použite MarkdownSaveOptions a PdfSaveOptions pre jemné riadenie formátovania výstupu.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Extrahovanie textu

Extrahujte čistý text z akéhokoľvek podporovaného formátu dokumentu pomocou Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Analyzovanie štruktúry dokumentu

Špecializované parsery extrahujú štruktúrované údaje z interných častí DOCX. NumberingParser číta definície číslovania zoznamov a StyleParser parsuje názvy štýlov do štruktúrovaných objektov.

Podpora vstupu viacerých formátov

Načítajte dokumenty z piatich vstupných formátov — DOCX, DOC, RTF, TXT a Markdown — pomocou rovnakého Document konštruktora. Enum LoadFormat poskytuje konštanty pre explicitný výber formátu (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Rýchly štart

Nainštalujte balík a skonvertujte súbor DOCX do všetkých troch výstupných formátov:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Podporované formáty

FormátRozšírenieČítanieZápis
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Open Source a licencovanie

Aspose.Words FOSS for Python je vydaný pod licenciou MIT License. Môžete ho používať voľne v osobných, interných a komerčných projektoch bez licenčných poplatkov. Kompletný zdrojový kód je dostupný na GitHub-e v organizácii Aspose Words FOSS.


Začíname