介绍
Aspose.Words FOSS 是一个开源的 Python 库,用于处理 Word 文档。它可以读取 DOCX、DOC、RTF、TXT 和 Markdown 文件,并且能够将它们导出为 PDF、Markdown 或纯文本——全部无需 Microsoft Word 或任何本地依赖。
该库在 MIT 许可证下发布,可在 PyPI 上获取。使用以下方式安装:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS 要求 Python 3.10 或更高版本,并依赖三个纯 Python 包(olefile、fpdf2、pydantic),这些包会由 pip 自动安装。
主要功能
文档加载和转换
Document 类是主要入口点。加载任意受支持的输入格式的文件,并调用 save() 将其转换为不同的输出格式。
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF 导出
使用 SaveFormat.PDF 将 Word 文档导出为 PDF(默认设置),或使用 PdfSaveOptions 进行细粒度控制。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
带保存选项的 Markdown 导出
使用 MarkdownSaveOptions 和 PdfSaveOptions 对输出格式进行细粒度控制。
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
文本提取
使用 Document.get_text() 从任何受支持的文档格式中提取纯文本。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
文档结构解析
专用解析器从 DOCX 内部提取结构化数据。NumberingParser 读取列表编号定义,StyleParser 将样式名称解析为结构化对象。
多格式输入支持
使用相同的 Document 构造函数从五种输入格式——DOCX、DOC、RTF、TXT 和 Markdown——加载文档。LoadFormat 枚举提供用于显式格式选择的常量(LoadFormat.DOCX、LoadFormat.DOC、LoadFormat.RTF、LoadFormat.TEXT、LoadFormat.MARKDOWN)。
快速入门
安装软件包并将 DOCX 文件转换为所有三种输出格式:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
支持的格式
| 格式 | 扩展名 | 读取 | 写入 |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
开源与许可
Aspose.Words FOSS for Python 在 MIT 许可证下发布。您可以在个人、内部和商业项目中免费使用,无需许可证费用。完整的源代码可在 GitHub 上的 Aspose Words FOSS 组织中获取。