Úvod

Aspose.Words FOSS je open-source knihovna v Pythonu pro práci s dokumenty Word. Čte soubory DOCX, DOC, RTF, TXT a Markdown a může je exportovat do PDF, Markdown nebo prostého textu — vše bez nutnosti Microsoft Word nebo jakýchkoli nativních závislostí.

Knihovna je vydána pod licencí MIT a je k dispozici na PyPI. Nainstalujte ji pomocí:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS vyžaduje Python 3.10 nebo novější a závisí na třech čistě Pythonových balíčcích (olefile, fpdf2, pydantic), instalovaných automaticky pomocí pip.


Klíčové vlastnosti

Načítání dokumentu a konverze

Třída Document je hlavním vstupním bodem. Načtěte soubor v libovolném podporovaném vstupním formátu a zavolejte save() pro převod do jiného výstupního formátu.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Export PDF

Exportujte dokumenty Word do PDF pomocí SaveFormat.PDF pro výchozí nastavení nebo PdfSaveOptions pro podrobné řízení.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Export do Markdown s možnostmi uložení

Použijte MarkdownSaveOptions a PdfSaveOptions pro jemnou kontrolu formátování výstupu.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Extrahování textu

Extrahujte prostý text z libovolného podporovaného formátu dokumentu pomocí Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Parsování struktury dokumentu

Specializované parsery extrahují strukturovaná data z interních částí DOCX. NumberingParser čte definice číslování seznamů a StyleParser parsuje názvy stylů do strukturovaných objektů.

Podpora vstupu ve více formátech

Načtěte dokumenty z pěti vstupních formátů — DOCX, DOC, RTF, TXT a Markdown — pomocí stejného Document konstruktoru. Výčtový typ LoadFormat poskytuje konstanty pro explicitní výběr formátu (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Rychlý start

Nainstalujte balíček a převeďte soubor DOCX do všech tří výstupních formátů:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Podporované formáty

FormátPříponaČístZapisovat
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Open Source a licencování

Aspose.Words FOSS for Python je vydán pod licencí MIT. Můžete jej používat zdarma v osobních, interních i komerčních projektech bez licenčních poplatků. Kompletní zdrojový kód je k dispozici na GitHubu v organizaci Aspose Words FOSS.


Začínáme