Introdução
Aspose.Words FOSS é uma biblioteca Python de código aberto para trabalhar com documentos Word. Ela lê arquivos DOCX, DOC, RTF, TXT e Markdown e pode exportá‑los para PDF, Markdown ou texto simples — tudo sem exigir Microsoft Word ou quaisquer dependências nativas.
A biblioteca é lançada sob a Licença MIT e está disponível no PyPI. Instale‑a com:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS requer Python 3.10 ou posterior e depende de três pacotes pure-Python (olefile, fpdf2, pydantic), instalados automaticamente pelo pip.
Recursos Principais
Carregamento e Conversão de Documentos
A classe Document é o ponto de entrada principal. Carregue um arquivo em qualquer formato de entrada suportado e chame save() para convertê-lo para um formato de saída diferente.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Exportação de PDF
Exporte documentos Word para PDF usando SaveFormat.PDF para configurações padrão ou PdfSaveOptions para controle granular.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Exportação de Markdown com Opções de Salvamento
Use MarkdownSaveOptions e PdfSaveOptions para controle granular da formatação de saída.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Extração de Texto
Extraia texto simples de qualquer formato de documento suportado usando Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Análise da Estrutura do Documento
Os analisadores especializados extraem dados estruturados dos internos do DOCX. NumberingParser lê definições de numeração de listas e StyleParser analisa nomes de estilos em objetos estruturados.
Suporte de Entrada Multi-Formato
Carregue documentos de cinco formatos de entrada — DOCX, DOC, RTF, TXT e Markdown — usando o mesmo Document construtor. O enum LoadFormat fornece constantes para seleção explícita de formato (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Início Rápido
Instale o pacote e converta um arquivo DOCX para os três formatos de saída:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Formatos suportados
| Formato | Extensão | Ler | Escrever |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Código Aberto e Licenciamento
Aspose.Words FOSS for Python é lançado sob a MIT License. Você pode usá-lo livremente em projetos pessoais, internos e comerciais sem taxas de licença. O código-fonte completo está disponível no GitHub na organização Aspose Words FOSS.