如何在 C# 中从 PDF 中提取文本 | Aspose.PDF 的文本提取插件 | Aspose Blog | File Format Processing Plugins for C# .NET Core

从 PDF 文件中提取文本是文档处理任务中的常见需求。本文提供了有关如何使用 Aspose.PDF 的文本提取插件 在 C# 中进行高效且多功能文本提取的详细指南。无论您需要从整个文档、特定页面或定义区域中提取文本，Aspose.PDF 的插件都可实现高性能 PDF 文本提取，工作量极小。

涵盖的功能：

突出显示 Aspose.PDF 的文本提取插件

Aspose.PDF 的文本提取插件 是从 PDF 文档中提取文本的可靠解决方案。它专为处理 .NET 应用程序的开发人员而设计，支持 .NET Framework 和 .NET Core 的 PDF 文本提取。该插件提供三种操作模式：

纯模式：提取文本时保留原始格式和结构。
原始模式：提取文本而不保留格式。
纯文本模式：提取文本并去除格式和特殊字符。

优势：

支持多个 PDF 的批量处理。
提供可自定义的提取设置以满足特定需求。
与 .NET 应用程序的直接集成确保流畅的工作流程。
优化了高速度、准确的文本提取，最小化资源使用。

C# PDF 文本提取库

Aspose.PDF for .NET 库是为寻找高性能 C# PDF 文本提取的 .NET 开发人员提供的综合工具。通过 NuGet 安装：

PM> Install-Package Aspose.PDF

您也可以下载 DLL，将其直接集成到项目中，作为可靠的 C# PDF 文本提取解决方案。

在 C# 中从整个 PDF 中提取文本

要从 PDF 中提取所有文本，请按照以下步骤操作：

使用 Document 类加载 PDF。
创建 TextAbsorber 对象。
将吸收器应用于所有页面。
将提取的文本保存到文件中。

示例代码：

从 PDF 中提取特定页面的文本

要从单个页面提取文本：

加载 PDF。
创建 TextAbsorber。
将吸收器应用于所需页面。
保存提取的文本。

示例代码：

从 PDF 中提取特定区域的文本

从页面的特定区域提取文本涉及定义矩形坐标。步骤包括：

加载 PDF。
为定义的区域配置 TextSearchOptions。
将 TextAbsorber 应用于该区域。
保存提取的文本。

示例代码：

使用正则表达式搜索并提取文本

使用正则表达式提取匹配特定模式的文本：

加载 PDF。
定义正则表达式模式。
使用 TextAbsorber 应用该模式。
提取匹配的文本片段。

示例代码：

在 C# 中将表格数据提取为文本

要提取表格内容：

加载 PDF。
使用 TableAbsorber 导航表格结构。
逐个提取文本单元。

示例代码：

提取 PDF 中高亮的文本

要提取高亮的文本：

迭代注释。
过滤 [TextMarkupAnnotation][16]。
检索并保存高亮片段。

示例代码：

优化低内存使用的文本提取

i) 使用 Reset() 和 FreeMemory()：

每处理完一个页面后调用 absorber.Reset()。
使用 page.FreeMemory() 释放页面占用的内存。

ii) 使用 MemorySaving 模式：

设置 TextExtractionOptions.TextFormattingMode 以优化 PDF 文本提取期间的内存使用。

示例代码：

免费的 C# PDF 文本提取库

获取 [免费临时许可证][10]，可无限制访问 Aspose.PDF for .NET，并释放其高效 C# PDF 文本提取的全部潜力。

结论

Aspose.PDF 的文本提取插件为 .NET 提供了一种多功能且高效的可靠文本提取解决方案。从整个文档到特定页面或区域，它以精确和快速简化了该过程，成为众多 C# PDF 文本提取库中的佼佼者。今天就试用它，以简化您的 PDF 文本提取工作流程。

涵盖的功能：#

突出显示 Aspose.PDF 的文本提取插件#

优势：#

C# PDF 文本提取库#

在 C# 中从整个 PDF 中提取文本#

示例代码：#

从 PDF 中提取特定页面的文本#

示例代码：#

从 PDF 中提取特定区域的文本#

示例代码：#

使用正则表达式搜索并提取文本#

示例代码：#

在 C# 中将表格数据提取为文本#

示例代码：#

提取 PDF 中高亮的文本#

示例代码：#

优化低内存使用的文本提取#

i) 使用 Reset() 和 FreeMemory()：#

ii) 使用 MemorySaving 模式：#

示例代码：#

免费的 C# PDF 文本提取库#

结论#

相关文章：#

涵盖的功能：

突出显示 Aspose.PDF 的文本提取插件

优势：

C# PDF 文本提取库

在 C# 中从整个 PDF 中提取文本

示例代码：

从 PDF 中提取特定页面的文本

示例代码：

从 PDF 中提取特定区域的文本

示例代码：

使用正则表达式搜索并提取文本

示例代码：

在 C# 中将表格数据提取为文本

示例代码：

提取 PDF 中高亮的文本

示例代码：

优化低内存使用的文本提取

i) 使用 Reset() 和 FreeMemory()：

ii) 使用 MemorySaving 模式：

示例代码：

免费的 C# PDF 文本提取库

结论

相关文章：