扫描的 PDF 文件通常包含图像,文本既不可选择也不可编辑。在各种场景中,您可能需要将扫描的 PDF 转换为 Word 文档。本文将指导您如何程序化地使用 C# 将扫描的 PDF 文件转换为 DOCX 或 DOC 格式的 Word 文档。
目录
扫描 PDF 到 Word DOCX 转换器 – C# API 安装
要处理扫描的 PDF 文件,您可以使用 Aspose.OCR for .NET API 执行光学字符识别 (OCR)。识别文本后,您可以使用 Aspose.Words for .NET API 创建 Word 文档。您可以通过从 新版本 下载 DLL 文件或使用以下 NuGet 安装命令来安装这些 API:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
使用 C# 程序化地将扫描的 PDF 转换为 Word 文档
要将扫描的 PDF 文件转换为 Word 文档,您需要进行光学文本识别。OCR 操作将扫描的 PDF 转换为文本,然后可以将其格式化为 DOC 或 DOCX 格式的 Word 文档。按照以下步骤将扫描的 PDF 转换为 Word 文档:
- 初始化 AsposeOcr 类的实例。
- 使用 DocumentRecognitionSettings 类识别 PDF 中的图像。
- 创建一个 StringBuilder 对象以保存识别的文本。
- 使用 Document 类初始化 Word 文档。
- 指定必要的字体和段落格式。
- 将输出 Word 文档保存为 DOCX 或 DOC 格式。
以下是一个代码片段,演示如何使用 C# 程序化地将扫描的 PDF 文件转换为 Word 文档:
获取免费评估许可证
您可以通过请求 免费临时许可证 来测试 API 的全部功能。
结论
在本文中,您学习了如何使用 C# 程序化地将扫描的 PDF 文件转换为 DOCX 或 DOC 格式的 Word 文档。此外,您可以通过访问 文档 探索其他各种与 OCR 相关的功能。如果您有任何问题,请随时在 论坛 上与我们联系。
另见
提示: 如果您需要将 PowerPoint 演示文稿转换为 Word 文档,请考虑使用 Aspose 演示文稿到 Word 文档 转换器。
通过利用 Aspose 插件,您可以有效管理扫描文件并增强您的 .NET 应用程序,价格仅为 99 美元。