Uvod

Aspose.Words FOSS je open-source Python biblioteka za rad s Word dokumentima. Čita DOCX, DOC, RTF, TXT i Markdown datoteke te ih može izvesti u PDF, Markdown ili običan tekst — sve bez potrebe za Microsoft Wordom ili bilo kojim nativnim ovisnostima.

Biblioteka je objavljena pod MIT licencom i dostupna je na PyPI. Instalirajte je pomoću:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS zahtijeva Python 3.10 ili noviji i ovisi o tri pure-Python paketa (olefile, fpdf2, pydantic), koji se automatski instaliraju putem pip-a.


Ključne značajke

Učitavanje i konverzija dokumenata

Klasa Document je primarna ulazna točka. Učitajte datoteku u bilo kojem podržanom ulaznom formatu i pozovite save() da je pretvorite u drugi izlazni format.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF izvoz

Izvezite Word dokumente u PDF koristeći SaveFormat.PDF za zadane postavke ili PdfSaveOptions za detaljnu kontrolu.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Markdown izvoz s opcijama spremanja

Koristite MarkdownSaveOptions i PdfSaveOptions za finu kontrolu nad formatiranjem izlaza.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Ekstrakcija teksta

Izvucite običan tekst iz bilo kojeg podržanog formata dokumenta koristeći Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Parsiranje strukture dokumenta

Specijalizirani parseri izvlače strukturirane podatke iz internih dijelova DOCX-a. NumberingParser čita definicije numeriranja popisa i StyleParser parsira nazive stilova u strukturirane objekte.

Podrška za unos u više formata

Učitajte dokumente iz pet ulaznih formata — DOCX, DOC, RTF, TXT i Markdown — koristeći isti Document konstruktor. LoadFormat nabrajanje pruža konstante za izričitu odabir formata (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Brzi početak

Instalirajte paket i pretvorite DOCX datoteku u sva tri izlazna formata:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Podržani formati

FormatEkstenzijaČitanjePisanje
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Open Source i licenciranje

Aspose.Words FOSS for Python objavljen je pod MIT licencom. Možete ga slobodno koristiti u osobnim, internim i komercijalnim projektima bez naknada za licencu. Cijeli izvorni kod dostupan je na GitHubu u organizaciji Aspose Words FOSS.


Početak