Introduction

Aspose.Words FOSS est une bibliothèque Python open-source pour travailler avec des documents Word. Elle lit les fichiers DOCX, DOC, RTF, TXT et Markdown, et peut les exporter vers PDF, Markdown ou texte brut — le tout sans nécessiter Microsoft Word ni aucune dépendance native.

La bibliothèque est publiée sous licence MIT et est disponible sur PyPI. Installez‑la avec :

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS nécessite Python 3.10 ou une version ultérieure et dépend de trois packages pure-Python (olefile, fpdf2, pydantic), installés automatiquement par pip.


Fonctionnalités clés

Chargement et conversion de documents

La classe Document est le point d’entrée principal. Chargez un fichier dans n’importe quel format d’entrée pris en charge et appelez save() pour le convertir dans un autre format de sortie.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Export PDF

Exportez les documents Word au format PDF en utilisant SaveFormat.PDF pour les paramètres par défaut ou PdfSaveOptions pour un contrôle granulaire.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Exportation Markdown avec options d’enregistrement

Utilisez MarkdownSaveOptions et PdfSaveOptions pour un contrôle granulaire de la mise en forme de la sortie.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Extraction de texte

Extrayez le texte brut de tout format de document pris en charge en utilisant Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Analyse de la structure du document

Des analyseurs spécialisés extraient des données structurées des internes du DOCX. NumberingParser lit les définitions de numérotation des listes et StyleParser analyse les noms de styles en objets structurés.

Prise en charge d’entrée multi‑format

Chargez des documents à partir de cinq formats d’entrée — DOCX, DOC, RTF, TXT et Markdown — en utilisant le même constructeur Document. L’énumération LoadFormat fournit des constantes pour la sélection explicite du format (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Démarrage rapide

Installez le package et convertissez un fichier DOCX en les trois formats de sortie :

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Formats pris en charge

FormatExtensionLectureÉcriture
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Open Source et licences

Aspose.Words FOSS for Python est publié sous la licence MIT. Vous pouvez l’utiliser librement dans des projets personnels, internes et commerciaux sans frais de licence. Le code source complet est disponible sur GitHub à l’organisation Aspose Words FOSS.


Premiers pas