Introduzione
Aspose.Words FOSS è una libreria Python open-source per lavorare con documenti Word. Legge file DOCX, DOC, RTF, TXT e Markdown e può esportarli in PDF, Markdown o testo semplice — tutto senza richiedere Microsoft Word o alcuna dipendenza nativa.
La libreria è rilasciata sotto licenza MIT ed è disponibile su PyPI. Installala con:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS richiede Python 3.10 o versioni successive e dipende da tre pacchetti pure-Python (olefile, fpdf2, pydantic), installati automaticamente da pip.
Caratteristiche principali
Caricamento e conversione dei documenti
La classe Document è il punto di ingresso principale. Carica un file in qualsiasi formato di input supportato e chiama save() per convertirlo in un formato di output diverso.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Esportazione PDF
Esporta documenti Word in PDF usando SaveFormat.PDF per le impostazioni predefinite o PdfSaveOptions per un controllo dettagliato.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Esportazione Markdown con Opzioni di Salvataggio
Usa MarkdownSaveOptions e PdfSaveOptions per un controllo dettagliato sulla formattazione dell’output.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Estrazione del testo
Estrai il testo semplice da qualsiasi formato di documento supportato usando Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Parsing della Struttura del Documento
I parser specializzati estraggono dati strutturati dagli internals di DOCX. NumberingParser legge le definizioni di numerazione delle liste e StyleParser analizza i nomi degli stili in oggetti strutturati.
Supporto per Input Multi-Formato
Carica documenti da cinque formati di input — DOCX, DOC, RTF, TXT e Markdown — usando lo stesso Document costruttore. L’enumerazione LoadFormat fornisce costanti per la selezione esplicita del formato (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Avvio rapido
Installa il pacchetto e converti un file DOCX in tutti e tre i formati di output:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Formati supportati
| Formato | Estensione | Lettura | Scrittura |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source e Licenze
Aspose.Words FOSS per Python è rilasciato sotto la licenza MIT. Puoi usarlo liberamente in progetti personali, interni e commerciali senza costi di licenza. Il codice sorgente completo è disponibile su GitHub nell’organizzazione Aspose Words FOSS.