Įvadas

Aspose.Words FOSS yra atviro kodo Python biblioteka darbui su Word dokumentais. Ji skaito DOCX, DOC, RTF, TXT ir Markdown failus ir gali juos eksportuoti į PDF, Markdown arba paprastą tekstą — viskas be Microsoft Word ar bet kokių natūralių priklausomybių.

Biblioteka išleista pagal MIT licenciją ir yra prieinama PyPI. Įdiekite ją naudodami:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS reikalauja Python 3.10 arba naujesnės versijos ir priklauso nuo trijų grynų Python paketų (olefile, fpdf2, pydantic), įdiegiama automatiškai per pip.


Pagrindinės funkcijos

Dokumento įkėlimas ir konvertavimas

Document klasė yra pagrindinis įėjimo taškas. Įkelkite failą bet kuriuo palaikomu įvesties formatu ir iškvieskite save(), kad konvertuotumėte jį į kitą išvesties formatą.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF eksportas

Eksportuokite Word dokumentus į PDF naudodami SaveFormat.PDF numatytiems nustatymams arba PdfSaveOptions smulkiam valdymui.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Markdown eksportas su išsaugojimo parinktimis

Naudokite MarkdownSaveOptions ir PdfSaveOptions, kad turėtumėte smulkią kontrolę išvesties formatavime.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Teksto išgavimas

Išskirkite grynąjį tekstą iš bet kurio palaikomo dokumento formato naudodami Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Dokumento struktūros analizė

Specializuoti analizatoriai išgauna struktūruotus duomenis iš DOCX vidinių struktūrų. NumberingParser skaito sąrašo numeravimo apibrėžimus ir StyleParser analizuoja stilių pavadinimus į struktūruotus objektus.

Daugelio formatų įvesties palaikymas

Įkelkite dokumentus iš penkių įvesties formatų — DOCX, DOC, RTF, TXT ir Markdown — naudodami tą patį Document konstruktorių. LoadFormat enum suteikia konstantas aiškiam formato pasirinkimui (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Greitas pradžia

Įdiekite paketą ir konvertuokite DOCX failą į visus tris išvesties formatus:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Palaikomi formatai

FormatasPlėtinysSkaitytiRašyti
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Atviro kodo ir licencijavimas

Aspose.Words FOSS for Python išleidžiama pagal MIT License. Galite ją laisvai naudoti asmeniniuose, vidiniuose ir komerciniuose projektuose be licencijos mokesčių. Pilnas šaltinio kodas yra prieinamas GitHub adresu Aspose Words FOSS organizacijoje.


Pradžia