从 PDF 中提取文本 C#

从 PDF 文件中提取文本是文档处理任务中的常见需求。本文提供了使用 Aspose.PDF 的文本提取器插件 进行有效和多功能文本提取的深入指南。无论您需要从整个文档、特定页面还是定义的区域中提取文本,Aspose.PDF 的插件都能使该过程无缝且高效。此指南涵盖了高性能 C# PDF 文本提取,确保您能够轻松处理不同 PDF 格式。


涵盖的功能:


突出 Aspose.PDF 的文本提取器插件

Aspose.PDF 的文本提取器插件适用于 .NET 是从 PDF 文档中提取文本的先进解决方案。它专为开发 .NET 应用程序的开发人员设计,提供三种操作模式:

  1. 纯模式:提取文本,同时保留原始格式和结构。
  2. 原始模式:提取不带格式的文本。
  3. 普通模式:提取文本并删除格式和特殊字符。

优势:

  • 支持多 PDF 的批处理,能够在 C# 中高效进行 PDF 文本提取。
  • 提供可定制的提取设置以满足特定需求。
  • 与 .NET 应用程序的直接集成确保无缝的工作流程。
  • 针对高速、准确的文本提取进行了优化,资源消耗最小。

C# PDF 文本提取库

Aspose.PDF for .NET 库是一个全面的 PDF 操作和文本提取工具。通过 NuGet 安装:

PM> Install-Package Aspose.PDF

您还可以下载 DLL 以直接将其包含在您的项目中。


从 C# 中的整个 PDF 中提取文本

要从 PDF 中提取所有文本,请按以下步骤操作:

  1. 使用 Document 类加载 PDF。
  2. 创建 TextAbsorber 对象。
  3. 将吸收器应用于所有页面。
  4. 将提取的文本保存到文件。

示例代码:


从 PDF 中的特定页面提取文本

要从单个页面提取文本:

  1. 加载 PDF。
  2. 创建 TextAbsorber
  3. 将吸收器应用于所需页面。
  4. 保存提取的文本。

示例代码:


从 PDF 中的特定区域提取文本

从页面特定区域中提取文本涉及定义矩形坐标。步骤包括:

  1. 加载 PDF。
  2. 配置 TextSearchOptions 以指定区域。
  3. TextAbsorber 应用于该区域。
  4. 保存提取的文本。

示例代码:


使用正则表达式搜索和提取文本

使用正则表达式提取与特定模式匹配的文本:

  1. 加载 PDF。
  2. 定义一个正则表达式模式。
  3. 使用 TextAbsorber 应用该模式。
  4. 提取匹配的文本片段。

示例代码:


在 C# 中提取表格数据为文本

要提取表格内容:

  1. 加载 PDF。
  2. 使用 TableAbsorber 导航表格结构。
  3. 逐单元格提取文本。

示例代码:


提取 PDF 中的突出显示文本

要提取突出显示的文本:

  1. 遍历注释。
  2. 过滤 TextMarkupAnnotation
  3. 检索并保存突出显示的片段。

示例代码:


使用低内存使用进行文本提取优化

i) 使用 Reset()FreeMemory()

  1. 在处理每一页后调用 absorber.Reset()
  2. 使用 page.FreeMemory() 释放页面占用的内存。

ii) 使用 MemorySaving 模式:

TextExtractionOptions.TextFormattingMode 设置为优化内存。

示例代码:


免费 C# PDF 文本提取库

获取 免费临时许可证,以获得对 Aspose.PDF for .NET 的无限制访问权限,并解锁其全部潜力,从而启用高性能 PDF 文本提取而无需外部库。


结论

Aspose.PDF 的文本提取器插件适用于 .NET 为文本提取任务提供了一种多功能且高效的解决方案。从整个文档到特定页面或区域,它以精确和高速简化了该过程。无论您在进行 .NET Core 还是 .NET 6 的 PDF 文本提取,今天就试试它,让您的 PDF 文本提取工作流程更简单。


相关文章: