Introduction
Aspose.Words FOSS est une bibliothèque Python open-source pour travailler avec des documents Word. Elle lit les fichiers DOCX, DOC, RTF, TXT et Markdown, et peut les exporter vers PDF, Markdown ou texte brut — le tout sans nécessiter Microsoft Word ni aucune dépendance native.
La bibliothèque est publiée sous licence MIT et est disponible sur PyPI. Installez‑la avec :
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS nécessite Python 3.10 ou une version ultérieure et dépend de trois packages pure-Python (olefile, fpdf2, pydantic), installés automatiquement par pip.
Fonctionnalités clés
Chargement et conversion de documents
La classe Document est le point d’entrée principal. Chargez un fichier dans n’importe quel format d’entrée pris en charge et appelez save() pour le convertir dans un autre format de sortie.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Export PDF
Exportez les documents Word au format PDF en utilisant SaveFormat.PDF pour les paramètres par défaut ou PdfSaveOptions pour un contrôle granulaire.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Exportation Markdown avec options d’enregistrement
Utilisez MarkdownSaveOptions et PdfSaveOptions pour un contrôle granulaire de la mise en forme de la sortie.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Extraction de texte
Extrayez le texte brut de tout format de document pris en charge en utilisant Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Analyse de la structure du document
Des analyseurs spécialisés extraient des données structurées des internes du DOCX. NumberingParser lit les définitions de numérotation des listes et StyleParser analyse les noms de styles en objets structurés.
Prise en charge d’entrée multi‑format
Chargez des documents à partir de cinq formats d’entrée — DOCX, DOC, RTF, TXT et Markdown — en utilisant le même constructeur Document. L’énumération LoadFormat fournit des constantes pour la sélection explicite du format (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Démarrage rapide
Installez le package et convertissez un fichier DOCX en les trois formats de sortie :
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Formats pris en charge
| Format | Extension | Lecture | Écriture |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Open Source et licences
Aspose.Words FOSS for Python est publié sous la licence MIT. Vous pouvez l’utiliser librement dans des projets personnels, internes et commerciaux sans frais de licence. Le code source complet est disponible sur GitHub à l’organisation Aspose Words FOSS.