Uvod
Aspose.Words FOSS je open-source Python biblioteka za rad s Word dokumentima. Čita DOCX, DOC, RTF, TXT i Markdown datoteke te ih može izvesti u PDF, Markdown ili običan tekst — sve bez potrebe za Microsoft Wordom ili bilo kojim nativnim ovisnostima.
Biblioteka je objavljena pod MIT licencom i dostupna je na PyPI. Instalirajte je pomoću:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS zahtijeva Python 3.10 ili noviji i ovisi o tri pure-Python paketa (olefile, fpdf2, pydantic), koji se automatski instaliraju putem pip-a.
Ključne značajke
Učitavanje i konverzija dokumenata
Klasa Document je primarna ulazna točka. Učitajte datoteku u bilo kojem podržanom ulaznom formatu i pozovite save() da je pretvorite u drugi izlazni format.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF izvoz
Izvezite Word dokumente u PDF koristeći SaveFormat.PDF za zadane postavke ili PdfSaveOptions za detaljnu kontrolu.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown izvoz s opcijama spremanja
Koristite MarkdownSaveOptions i PdfSaveOptions za finu kontrolu nad formatiranjem izlaza.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Ekstrakcija teksta
Izvucite običan tekst iz bilo kojeg podržanog formata dokumenta koristeći Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsiranje strukture dokumenta
Specijalizirani parseri izvlače strukturirane podatke iz internih dijelova DOCX-a. NumberingParser čita definicije numeriranja popisa i StyleParser parsira nazive stilova u strukturirane objekte.
Podrška za unos u više formata
Učitajte dokumente iz pet ulaznih formata — DOCX, DOC, RTF, TXT i Markdown — koristeći isti Document konstruktor. LoadFormat nabrajanje pruža konstante za izričitu odabir formata (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Brzi početak
Instalirajte paket i pretvorite DOCX datoteku u sva tri izlazna formata:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Podržani formati
| Format | Ekstenzija | Čitanje | Pisanje |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source i licenciranje
Aspose.Words FOSS for Python objavljen je pod MIT licencom. Možete ga slobodno koristiti u osobnim, internim i komercijalnim projektima bez naknada za licencu. Cijeli izvorni kod dostupan je na GitHubu u organizaciji Aspose Words FOSS.