扫描 PDF 到 Word OCR csharp

扫描的 PDF 文件通常包含图像,文本既不可选择也不可编辑。在各种场景中,您可能需要将扫描的 PDF 转换为 Word 文档。本文将指导您如何程序化地使用 C# 将扫描的 PDF 文件转换为 DOCXDOC 格式的 Word 文档

目录

扫描 PDF 到 Word DOCX 转换器 – C# API 安装

要处理扫描的 PDF 文件,您可以使用 Aspose.OCR for .NET API 执行光学字符识别 (OCR)。识别文本后,您可以使用 Aspose.Words for .NET API 创建 Word 文档。您可以通过从 新版本 下载 DLL 文件或使用以下 NuGet 安装命令来安装这些 API:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

使用 C# 程序化地将扫描的 PDF 转换为 Word 文档

要将扫描的 PDF 文件转换为 Word 文档,您需要进行光学文本识别。OCR 操作将扫描的 PDF 转换为文本,然后可以将其格式化为 DOC 或 DOCX 格式的 Word 文档。按照以下步骤将扫描的 PDF 转换为 Word 文档:

  1. 初始化 AsposeOcr 类的实例。
  2. 使用 DocumentRecognitionSettings 类识别 PDF 中的图像。
  3. 创建一个 StringBuilder 对象以保存识别的文本。
  4. 使用 Document 类初始化 Word 文档。
  5. 指定必要的字体和段落格式。
  6. 将输出 Word 文档保存为 DOCX 或 DOC 格式。

以下是一个代码片段,演示如何使用 C# 程序化地将扫描的 PDF 文件转换为 Word 文档:

获取免费评估许可证

您可以通过请求 免费临时许可证 来测试 API 的全部功能。

结论

在本文中,您学习了如何使用 C# 程序化地将扫描的 PDF 文件转换为 DOCX 或 DOC 格式的 Word 文档。此外,您可以通过访问 文档 探索其他各种与 OCR 相关的功能。如果您有任何问题,请随时在 论坛 上与我们联系。

另见

提示: 如果您需要将 PowerPoint 演示文稿转换为 Word 文档,请考虑使用 Aspose 演示文稿到 Word 文档 转换器。

通过利用 Aspose 插件,您可以有效管理扫描文件并增强您的 .NET 应用程序,价格仅为 99 美元。