Introducere
Aspose.Words FOSS este o bibliotecă Python open-source pentru lucrul cu documente Word. Citește fișiere DOCX, DOC, RTF, TXT și Markdown și poate să le exporte în PDF, Markdown sau text simplu — totul fără a necesita Microsoft Word sau alte dependențe native.
Biblioteca este lansată sub Licența MIT și este disponibilă pe PyPI. Instalați‑o cu:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS necesită Python 3.10 sau o versiune ulterioară și depinde de trei pachete pure-Python (olefile, fpdf2, pydantic), instalate automat de pip.
Caracteristici principale
Încărcarea și conversia documentelor
Clasa Document este punctul principal de intrare. Încarcă un fișier în orice format de intrare acceptat și apelează save() pentru a-l converti într-un alt format de ieșire.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Export PDF
Exportați documente Word în PDF utilizând SaveFormat.PDF pentru setările implicite sau PdfSaveOptions pentru control detaliat.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Export Markdown cu opțiuni de salvare
Utilizați MarkdownSaveOptions și PdfSaveOptions pentru control fin al formatării ieșirii.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Extracție de text
Extrage text simplu din orice format de document acceptat utilizând Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Analiza structurii documentului
Parserele specializate extrag date structurate din interiorul DOCX. NumberingParser citește definițiile de numerotare a listelor și StyleParser analizează numele stilurilor în obiecte structurate.
Suport pentru intrare în mai multe formate
Încărcați documente din cinci formate de intrare — DOCX, DOC, RTF, TXT și Markdown — utilizând același Document constructor. Enumul LoadFormat oferă constante pentru selecția explicită a formatului (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Start rapid
Instalați pachetul și convertiți un fișier DOCX în toate cele trei formate de ieșire:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Formate acceptate
| Format | Extensie | Citire | Scriere |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source și Licențiere
Aspose.Words FOSS pentru Python este lansat sub Licența MIT. O puteți folosi liber în proiecte personale, interne și comerciale fără taxe de licență. Codul sursă complet este disponibil pe GitHub la organizația Aspose Words FOSS.