Introducción
Aspose.Words FOSS es una biblioteca Python de código abierto para trabajar con documentos Word. Lee archivos DOCX, DOC, RTF, TXT y Markdown, y puede exportarlos a PDF, Markdown o texto plano — todo sin requerir Microsoft Word ni dependencias nativas.
La biblioteca se publica bajo la Licencia MIT y está disponible en PyPI. Instálala con:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS requiere Python 3.10 o posterior y depende de tres paquetes pure-Python (olefile, fpdf2, pydantic), instalados automáticamente por pip.
Características clave
Carga y Conversión de Documentos
La clase Document es el punto de entrada principal. Cargue un archivo en cualquier formato de entrada compatible y llame a save() para convertirlo a un formato de salida diferente.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Exportación de PDF
Exportar documentos Word a PDF usando SaveFormat.PDF para la configuración predeterminada o PdfSaveOptions para un control granular.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Exportación de Markdown con Opciones de Guardado
Utilice MarkdownSaveOptions y PdfSaveOptions para un control granular sobre el formato de salida.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Extracción de texto
Extrae texto sin formato de cualquier formato de documento compatible usando Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Análisis de la estructura del documento
Los analizadores especializados extraen datos estructurados de los internos de DOCX. NumberingParser lee las definiciones de numeración de listas y StyleParser analiza los nombres de estilo en objetos estructurados.
Compatibilidad de Entrada Multiformato
Cargue documentos desde cinco formatos de entrada — DOCX, DOC, RTF, TXT y Markdown — usando el mismo constructor Document. El enum LoadFormat proporciona constantes para la selección explícita de formato (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Inicio rápido
Instale el paquete y convierta un archivo DOCX a los tres formatos de salida:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Formatos compatibles
| Formato | Extensión | Lectura | Escritura |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Código abierto y licencias
Aspose.Words FOSS for Python se publica bajo la Licencia MIT. Puedes usarlo libremente en proyectos personales, internos y comerciales sin tarifas de licencia. El código fuente completo está disponible en GitHub en la organización Aspose Words FOSS.