Ievads

Aspose.Words FOSS ir atvērtā koda Python bibliotēka darbam ar Word dokumentiem. Tā lasa DOCX, DOC, RTF, TXT un Markdown failus, un var eksportēt tos uz PDF, Markdown vai vienkāršu tekstu — viss bez Microsoft Word vai jebkādām vietējām atkarībām.

Bibliotēka ir izlaista zem MIT licences un ir pieejama PyPI. Instalējiet to, izmantojot:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS pieprasa Python 3.10 vai jaunāku un ir atkarīgs no trim tīriem Python pakotnēm (olefile, fpdf2, pydantic), kas tiek instalētas automātiski, izmantojot pip.


Galvenās funkcijas

Dokumenta ielāde un konvertēšana

Klase Document ir galvenais ieejas punkts. Ielādējiet failu jebkurā atbalstītā ievades formātā un izsauciet save(), lai konvertētu to uz citu izvades formātu.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF Eksports

Eksportējiet Word dokumentus uz PDF, izmantojot SaveFormat.PDF noklusējuma iestatījumiem vai PdfSaveOptions smalkākai vadībai.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Markdown eksportēšana ar saglabāšanas opcijām

Izmantojiet MarkdownSaveOptions un PdfSaveOptions, lai precīzi kontrolētu izvades formatēšanu.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Teksta izguve

Izgūstiet parastu tekstu no jebkura atbalstīta dokumenta formāta, izmantojot Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Dokumenta struktūras parsēšana

Specializēti parsētāji izvelk strukturētus datus no DOCX iekšējām struktūrām. NumberingParser lasa saraksta numurēšanas definīcijas un StyleParser parsē stilu nosaukumus strukturētos objektos.

Daudzformātu ievades atbalsts

Ielādējiet dokumentus no piecām ievades formātiem — DOCX, DOC, RTF, TXT un Markdown —, izmantojot to pašu Document konstruktoru. LoadFormat uzskaitījums nodrošina konstantas skaidrai formāta izvēlei (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Ātrais sākums

Instalējiet pakotni un konvertējiet DOCX failu uz visiem trim izvades formātiem:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Atbalstītie formāti

FormātsPaplašinājumsLasītRakstīt
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Atvērtā pirmkods un licencēšana

Aspose.Words FOSS for Python ir izlaists zem MIT licences. To varat brīvi izmantot personīgajos, iekšējos un komerciālos projektos bez licences maksas. Pilns pirmkods ir pieejams GitHub vietnē Aspose Words FOSS organizācijā.


Sākšana