Introducció
Aspose.Words FOSS és una biblioteca Python de codi obert per treballar amb documents Word. Llegeix fitxers DOCX, DOC, RTF, TXT i Markdown, i pot exportar‑los a PDF, Markdown o text pla — tot sense requerir Microsoft Word ni cap dependència nativa.
La biblioteca es publica sota la llicència MIT i està disponible a PyPI. Instal·la-la amb:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS requereix Python 3.10 o posterior i depèn de tres paquets purament Python (olefile, fpdf2, pydantic), instal·lats automàticament per pip.
Característiques clau
Càrrega i conversió de documents
La classe Document és el punt d’entrada principal. Carregueu un fitxer en qualsevol format d’entrada compatible i crideu save() per convertir-lo a un format de sortida diferent.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Exportació PDF
Exporta documents Word a PDF utilitzant SaveFormat.PDF per a la configuració per defecte o PdfSaveOptions per a un control detallat.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Exportació Markdown amb opcions de desament
Utilitzeu MarkdownSaveOptions i PdfSaveOptions per a un control detallat del format de sortida.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Extracció de text
Extreu text pla de qualsevol format de document compatible utilitzant Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Anàlisi de l’estructura del document
Els analitzadors especialitzats extreuen dades estructurades dels internals del DOCX. NumberingParser llegeix les definicions de numeració de llistes i StyleParser analitza els noms d’estil en objectes estructurats.
Suport d’entrada multiformat
Carregueu documents des de cinc formats d’entrada — DOCX, DOC, RTF, TXT i Markdown — utilitzant el mateix constructor Document. L’enumeració LoadFormat proporciona constants per a la selecció explícita del format (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Inici ràpid
Instal·la el paquet i converteix un fitxer DOCX a tots tres formats de sortida:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Formats compatibles
| Format | Extensió | Lectura | Escriptura |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Codi obert i llicències
Aspose.Words FOSS for Python es publica sota la MIT License. Podeu utilitzar-lo lliurement en projectes personals, interns i comercials sense tarifes de llicència. El codi font complet està disponible a GitHub a l’organització Aspose Words FOSS.