Увод
Aspose.Words FOSS je open‑source Python biblioteka za rad sa Word dokumentima. Čita DOCX, DOC, RTF, TXT i Markdown fajlove, i može ih izvesti u PDF, Markdown ili običan tekst — sve bez potrebe za Microsoft Word‑om ili bilo kojim nativnim zavisnostima.
Biblioteka je objavljena pod MIT licencom i dostupna je na PyPI. Instalirajte je pomoću:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS zahteva Python 3.10 ili noviji i zavisi od tri čisto‑Python paketa (olefile, fpdf2, pydantic), koji se automatski instaliraju putem pip‑a.
Ključne karakteristike
Učitavanje i konverzija dokumenata
Klasa Document je primarna tačka ulaza. Učitajte fajl u bilo kom podržanom ulaznom formatu i pozovite save() da ga konvertujete u drugi izlazni format.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF izvoz
Izvezite Word dokumente u PDF koristeći SaveFormat.PDF za podrazumevana podešavanja ili PdfSaveOptions za detaljnu kontrolu.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown izvoz sa opcijama čuvanja
Koristite MarkdownSaveOptions i PdfSaveOptions za finu kontrolu nad formatiranjem izlaza.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Извлачење текста
Izvucite običan tekst iz bilo kojeg podržanog formata dokumenta koristeći Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsiranje strukture dokumenta
Specijalizovani parseri izvlače strukturirane podatke iz internog sadržaja DOCX‑a. NumberingParser čita definicije numeracije lista, a StyleParser parsira nazive stilova u strukturirane objekte.
Подршка за унос у више формата
Učitajte dokumente iz pet ulaznih formata — DOCX, DOC, RTF, TXT i Markdown — koristeći isti Document konstruktor. LoadFormat enumeracija pruža konstante za eksplicitni izbor formata (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Brzi početak
Instalirajte paket i konvertujte DOCX fajl u sva tri izlazna formata:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Podržani formati
| Format | Ekstenzija | Čitanje | Pisanje |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source i licenciranje
Aspose.Words FOSS for Python je objavljen pod MIT licencom. Možete ga slobodno koristiti u ličnim, internim i komercijalnim projektima bez naknada za licencu. Potpuni izvorni kod je dostupan na GitHub‑u u organizaciji Aspose Words FOSS.