Увод

Aspose.Words FOSS je open‑source Python biblioteka za rad sa Word dokumentima. Čita DOCX, DOC, RTF, TXT i Markdown fajlove, i može ih izvesti u PDF, Markdown ili običan tekst — sve bez potrebe za Microsoft Word‑om ili bilo kojim nativnim zavisnostima.

Biblioteka je objavljena pod MIT licencom i dostupna je na PyPI. Instalirajte je pomoću:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS zahteva Python 3.10 ili noviji i zavisi od tri čisto‑Python paketa (olefile, fpdf2, pydantic), koji se automatski instaliraju putem pip‑a.


Ključne karakteristike

Učitavanje i konverzija dokumenata

Klasa Document je primarna tačka ulaza. Učitajte fajl u bilo kom podržanom ulaznom formatu i pozovite save() da ga konvertujete u drugi izlazni format.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF izvoz

Izvezite Word dokumente u PDF koristeći SaveFormat.PDF za podrazumevana podešavanja ili PdfSaveOptions za detaljnu kontrolu.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Markdown izvoz sa opcijama čuvanja

Koristite MarkdownSaveOptions i PdfSaveOptions za finu kontrolu nad formatiranjem izlaza.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Извлачење текста

Izvucite običan tekst iz bilo kojeg podržanog formata dokumenta koristeći Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Parsiranje strukture dokumenta

Specijalizovani parseri izvlače strukturirane podatke iz internog sadržaja DOCX‑a. NumberingParser čita definicije numeracije lista, a StyleParser parsira nazive stilova u strukturirane objekte.

Подршка за унос у више формата

Učitajte dokumente iz pet ulaznih formata — DOCX, DOC, RTF, TXT i Markdown — koristeći isti Document konstruktor. LoadFormat enumeracija pruža konstante za eksplicitni izbor formata (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Brzi početak

Instalirajte paket i konvertujte DOCX fajl u sva tri izlazna formata:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Podržani formati

FormatEkstenzijaČitanjePisanje
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Open Source i licenciranje

Aspose.Words FOSS for Python je objavljen pod MIT licencom. Možete ga slobodno koristiti u ličnim, internim i komercijalnim projektima bez naknada za licencu. Potpuni izvorni kod je dostupan na GitHub‑u u organizaciji Aspose Words FOSS.


Početak