Introducció

Aspose.Words FOSS és una biblioteca Python de codi obert per treballar amb documents Word. Llegeix fitxers DOCX, DOC, RTF, TXT i Markdown, i pot exportar‑los a PDF, Markdown o text pla — tot sense requerir Microsoft Word ni cap dependència nativa.

La biblioteca es publica sota la llicència MIT i està disponible a PyPI. Instal·la-la amb:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS requereix Python 3.10 o posterior i depèn de tres paquets purament Python (olefile, fpdf2, pydantic), instal·lats automàticament per pip.


Característiques clau

Càrrega i conversió de documents

La classe Document és el punt d’entrada principal. Carregueu un fitxer en qualsevol format d’entrada compatible i crideu save() per convertir-lo a un format de sortida diferent.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Exportació PDF

Exporta documents Word a PDF utilitzant SaveFormat.PDF per a la configuració per defecte o PdfSaveOptions per a un control detallat.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Exportació Markdown amb opcions de desament

Utilitzeu MarkdownSaveOptions i PdfSaveOptions per a un control detallat del format de sortida.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Extracció de text

Extreu text pla de qualsevol format de document compatible utilitzant Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Anàlisi de l’estructura del document

Els analitzadors especialitzats extreuen dades estructurades dels internals del DOCX. NumberingParser llegeix les definicions de numeració de llistes i StyleParser analitza els noms d’estil en objectes estructurats.

Suport d’entrada multiformat

Carregueu documents des de cinc formats d’entrada — DOCX, DOC, RTF, TXT i Markdown — utilitzant el mateix constructor Document. L’enumeració LoadFormat proporciona constants per a la selecció explícita del format (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Inici ràpid

Instal·la el paquet i converteix un fitxer DOCX a tots tres formats de sortida:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Formats compatibles

FormatExtensióLecturaEscriptura
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Codi obert i llicències

Aspose.Words FOSS for Python es publica sota la MIT License. Podeu utilitzar-lo lliurement en projectes personals, interns i comercials sense tarifes de llicència. El codi font complet està disponible a GitHub a l’organització Aspose Words FOSS.


Començar