Introdução

Aspose.Words FOSS é uma biblioteca Python de código aberto para trabalhar com documentos Word. Ela lê arquivos DOCX, DOC, RTF, TXT e Markdown e pode exportá‑los para PDF, Markdown ou texto simples — tudo sem exigir Microsoft Word ou quaisquer dependências nativas.

A biblioteca é lançada sob a Licença MIT e está disponível no PyPI. Instale‑a com:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS requer Python 3.10 ou posterior e depende de três pacotes pure-Python (olefile, fpdf2, pydantic), instalados automaticamente pelo pip.


Recursos Principais

Carregamento e Conversão de Documentos

A classe Document é o ponto de entrada principal. Carregue um arquivo em qualquer formato de entrada suportado e chame save() para convertê-lo para um formato de saída diferente.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Exportação de PDF

Exporte documentos Word para PDF usando SaveFormat.PDF para configurações padrão ou PdfSaveOptions para controle granular.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Exportação de Markdown com Opções de Salvamento

Use MarkdownSaveOptions e PdfSaveOptions para controle granular da formatação de saída.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Extração de Texto

Extraia texto simples de qualquer formato de documento suportado usando Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Análise da Estrutura do Documento

Os analisadores especializados extraem dados estruturados dos internos do DOCX. NumberingParser lê definições de numeração de listas e StyleParser analisa nomes de estilos em objetos estruturados.

Suporte de Entrada Multi-Formato

Carregue documentos de cinco formatos de entrada — DOCX, DOC, RTF, TXT e Markdown — usando o mesmo Document construtor. O enum LoadFormat fornece constantes para seleção explícita de formato (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Início Rápido

Instale o pacote e converta um arquivo DOCX para os três formatos de saída:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Formatos suportados

FormatoExtensãoLerEscrever
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Código Aberto e Licenciamento

Aspose.Words FOSS for Python é lançado sob a MIT License. Você pode usá-lo livremente em projetos pessoais, internos e comerciais sem taxas de licença. O código-fonte completo está disponível no GitHub na organização Aspose Words FOSS.


Introdução