Introducción

Aspose.Words FOSS es una biblioteca Python de código abierto para trabajar con documentos Word. Lee archivos DOCX, DOC, RTF, TXT y Markdown, y puede exportarlos a PDF, Markdown o texto plano — todo sin requerir Microsoft Word ni dependencias nativas.

La biblioteca se publica bajo la Licencia MIT y está disponible en PyPI. Instálala con:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS requiere Python 3.10 o posterior y depende de tres paquetes pure-Python (olefile, fpdf2, pydantic), instalados automáticamente por pip.


Características clave

Carga y Conversión de Documentos

La clase Document es el punto de entrada principal. Cargue un archivo en cualquier formato de entrada compatible y llame a save() para convertirlo a un formato de salida diferente.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Exportación de PDF

Exportar documentos Word a PDF usando SaveFormat.PDF para la configuración predeterminada o PdfSaveOptions para un control granular.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Exportación de Markdown con Opciones de Guardado

Utilice MarkdownSaveOptions y PdfSaveOptions para un control granular sobre el formato de salida.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Extracción de texto

Extrae texto sin formato de cualquier formato de documento compatible usando Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Análisis de la estructura del documento

Los analizadores especializados extraen datos estructurados de los internos de DOCX. NumberingParser lee las definiciones de numeración de listas y StyleParser analiza los nombres de estilo en objetos estructurados.

Compatibilidad de Entrada Multiformato

Cargue documentos desde cinco formatos de entrada — DOCX, DOC, RTF, TXT y Markdown — usando el mismo constructor Document. El enum LoadFormat proporciona constantes para la selección explícita de formato (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Inicio rápido

Instale el paquete y convierta un archivo DOCX a los tres formatos de salida:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Formatos compatibles

FormatoExtensiónLecturaEscritura
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Código abierto y licencias

Aspose.Words FOSS for Python se publica bajo la Licencia MIT. Puedes usarlo libremente en proyectos personales, internos y comerciales sin tarifas de licencia. El código fuente completo está disponible en GitHub en la organización Aspose Words FOSS.


Primeros pasos