介绍

Aspose.Words FOSS 是一个开源的 Python 库,用于处理 Word 文档。它可以读取 DOCX、DOC、RTF、TXT 和 Markdown 文件,并且能够将它们导出为 PDF、Markdown 或纯文本——全部无需 Microsoft Word 或任何本地依赖。

该库在 MIT 许可证下发布,可在 PyPI 上获取。使用以下方式安装:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS 要求 Python 3.10 或更高版本,并依赖三个纯 Python 包(olefilefpdf2pydantic),这些包会由 pip 自动安装。


主要功能

文档加载和转换

Document 类是主要入口点。加载任意受支持的输入格式的文件,并调用 save() 将其转换为不同的输出格式。

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF 导出

使用 SaveFormat.PDF 将 Word 文档导出为 PDF(默认设置),或使用 PdfSaveOptions 进行细粒度控制。

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

带保存选项的 Markdown 导出

使用 MarkdownSaveOptionsPdfSaveOptions 对输出格式进行细粒度控制。

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

文本提取

使用 Document.get_text() 从任何受支持的文档格式中提取纯文本。

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

文档结构解析

专用解析器从 DOCX 内部提取结构化数据。NumberingParser 读取列表编号定义,StyleParser 将样式名称解析为结构化对象。

多格式输入支持

使用相同的 Document 构造函数从五种输入格式——DOCX、DOC、RTF、TXT 和 Markdown——加载文档。LoadFormat 枚举提供用于显式格式选择的常量(LoadFormat.DOCXLoadFormat.DOCLoadFormat.RTFLoadFormat.TEXTLoadFormat.MARKDOWN)。


快速入门

安装软件包并将 DOCX 文件转换为所有三种输出格式:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

支持的格式

格式扩展名读取写入
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

开源与许可

Aspose.Words FOSS for Python 在 MIT 许可证下发布。您可以在个人、内部和商业项目中免费使用,无需许可证费用。完整的源代码可在 GitHub 上的 Aspose Words FOSS 组织中获取。


入门