Įvadas
Aspose.Words FOSS yra atviro kodo Python biblioteka darbui su Word dokumentais. Ji skaito DOCX, DOC, RTF, TXT ir Markdown failus ir gali juos eksportuoti į PDF, Markdown arba paprastą tekstą — viskas be Microsoft Word ar bet kokių natūralių priklausomybių.
Biblioteka išleista pagal MIT licenciją ir yra prieinama PyPI. Įdiekite ją naudodami:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS reikalauja Python 3.10 arba naujesnės versijos ir priklauso nuo trijų grynų Python paketų (olefile, fpdf2, pydantic), įdiegiama automatiškai per pip.
Pagrindinės funkcijos
Dokumento įkėlimas ir konvertavimas
Document klasė yra pagrindinis įėjimo taškas. Įkelkite failą bet kuriuo palaikomu įvesties formatu ir iškvieskite save(), kad konvertuotumėte jį į kitą išvesties formatą.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF eksportas
Eksportuokite Word dokumentus į PDF naudodami SaveFormat.PDF numatytiems nustatymams arba PdfSaveOptions smulkiam valdymui.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown eksportas su išsaugojimo parinktimis
Naudokite MarkdownSaveOptions ir PdfSaveOptions, kad turėtumėte smulkią kontrolę išvesties formatavime.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Teksto išgavimas
Išskirkite grynąjį tekstą iš bet kurio palaikomo dokumento formato naudodami Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Dokumento struktūros analizė
Specializuoti analizatoriai išgauna struktūruotus duomenis iš DOCX vidinių struktūrų. NumberingParser skaito sąrašo numeravimo apibrėžimus ir StyleParser analizuoja stilių pavadinimus į struktūruotus objektus.
Daugelio formatų įvesties palaikymas
Įkelkite dokumentus iš penkių įvesties formatų — DOCX, DOC, RTF, TXT ir Markdown — naudodami tą patį Document konstruktorių. LoadFormat enum suteikia konstantas aiškiam formato pasirinkimui (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Greitas pradžia
Įdiekite paketą ir konvertuokite DOCX failą į visus tris išvesties formatus:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Palaikomi formatai
| Formatas | Plėtinys | Skaityti | Rašyti |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Atviro kodo ir licencijavimas
Aspose.Words FOSS for Python išleidžiama pagal MIT License. Galite ją laisvai naudoti asmeniniuose, vidiniuose ir komerciniuose projektuose be licencijos mokesčių. Pilnas šaltinio kodas yra prieinamas GitHub adresu Aspose Words FOSS organizacijoje.