介绍
Aspose.Words FOSS for Python 提供了一个直接的 API,用于在不同格式之间转换 Word 文档。Document 类加载五种输入格式的文件,save() 方法将其导出为 PDF、Markdown 或纯文本。
本文逐步介绍核心转换工作流,从单文件转换到跨所有支持格式的批量处理。
关键特性
单文档转换
加载任何受支持的输入文件,并使用两行代码将其转换为目标格式。Document 构造函数接受 DOCX、DOC、RTF、TXT 和 Markdown 文件。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
批量转换为多种格式
在同一已加载的文档上多次调用 save(),以在不重新加载输入文件的情况下生成所有受支持格式的输出。
import aspose.words_foss as aw
doc = aw.Document("report.docx")
doc.save("report.md", aw.SaveFormat.MARKDOWN)
doc.save("report.pdf", aw.SaveFormat.PDF)
doc.save("report.txt", aw.SaveFormat.TEXT)
使用 PdfSaveOptions 导出 PDF
使用 PdfSaveOptions 对 PDF 输出进行细粒度控制。对于默认设置,SaveFormat.PDF 已足够。
import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions
doc = aw.Document("input.docx")
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
使用 MarkdownSaveOptions 的 Markdown 导出
使用 MarkdownSaveOptions 以获得对 Markdown 输出格式的额外控制。
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
文本提取
使用 Document.get_text() 从任何已加载的文档中提取纯文本内容,而无需写入文件。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
print(f"Extracted {len(text)} characters")
快速入门
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("contract.docx")
# Convert to all output formats
doc.save("contract.md", aw.SaveFormat.MARKDOWN)
doc.save("contract.pdf", aw.SaveFormat.PDF)
doc.save("contract.txt", aw.SaveFormat.TEXT)
# Extract text for processing
text = doc.get_text()
print(f"Document contains {len(text)} characters")
支持的格式
| 格式 | 扩展名 | 读取 | 写入 |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
开源与许可
Aspose.Words FOSS for Python 在 MIT 许可证下发布。您可以在个人、内部和商业项目中免费使用,无需许可证费用。源代码可在 GitHub 上获取。