C#でPDFからテキストを抽出

PDFファイルからテキストを抽出することは、文書処理タスクにおいて一般的な要件です。この記事では、C#での効率的かつ多目的なテキスト抽出のためにAspose.PDFのテキスト抽出プラグインを使用する方法について詳細なガイドを提供します。ドキュメント全体、特定のページ、または定義された領域からテキストを抽出する必要がある場合、Aspose.PDFのプラグインは最小限の労力で高性能なPDFテキスト抽出を促進します。


対応する機能:


Aspose.PDFのテキスト抽出プラグインの強調

.NET用のAspose.PDFのテキスト抽出プラグインは、PDF文書からテキストを抽出するための信頼できるソリューションです。このプラグインは、.NETアプリケーションで作業する開発者のために特別に設計されており、.NET Frameworkおよび.NET CoreのPDFテキスト抽出をサポートしています。プラグインは、次の3つの操作モードを提供します。

  1. ピュアモード: 元のフォーマットと構造を保持してテキストを抽出。
  2. 生モード: フォーマットなしでテキストを抽出。
  3. プレインモード: テキストを抽出し、フォーマットと特殊文字を削除。

利点:

  • 複数のPDFのバッチ処理をサポート。
  • 特定の要件に応じたカスタマイズ可能な抽出設定を提供。
  • .NETアプリケーションとの直接統合により、シームレスなワークフローを実現。
  • 高速で正確なテキスト抽出のために最適化され、最小限のリソース使用で済みます。

C# PDFテキスト抽出ライブラリ

Aspose.PDF for .NETライブラリは、高パフォーマンスのC# PDFテキスト抽出を求める.NET開発者にとっての包括的なツールです。NuGetを介してインストールできます:

PM> Install-Package Aspose.PDF

また、DLLをダウンロードし、プロジェクトに直接統合することで、信頼できるC# PDFテキスト抽出ソリューションを実現できます。


C#でPDF全体からテキストを抽出する

PDFから全テキストを抽出するために、次の手順に従います:

  1. Documentクラスを使用してPDFをロードします。
  2. TextAbsorberオブジェクトを作成します。
  3. すべてのページにアブソーバを適用します。
  4. 抽出したテキストをファイルに保存します。

コード例:


PDFの特定のページからテキストを抽出する

単一ページからテキストを抽出するために:

  1. PDFをロードします。
  2. TextAbsorberを作成します。
  3. 希望のページにアブソーバを適用します。
  4. 抽出したテキストを保存します。

コード例:


PDFの特定の領域からテキストを抽出する

ページの特定の領域からテキストを抽出するには、矩形の座標を定義する必要があります。手順は以下の通りです:

  1. PDFをロードします。
  2. 定義された領域のためにTextSearchOptionsを設定します。
  3. 領域にTextAbsorberを適用します。
  4. 抽出したテキストを保存します。

コード例:


Regexを使用してテキストを検索および抽出する

特定のパターンに一致するテキストを正規表現を使用して抽出します:

  1. PDFをロードします。
  2. 正規表現パターンを定義します。
  3. TextAbsorberを使用してパターンを適用します。
  4. 一致するテキストフラグメントを抽出します。

コード例:


C#でテーブルデータをテキストとして抽出する

テーブルの内容を抽出するには:

  1. PDFをロードします。
  2. TableAbsorberを使用してテーブル構造をナビゲートします。
  3. セルごとにテキストを抽出します。

コード例:


PDFのハイライトされたテキストを抽出する

ハイライトされたテキストを抽出するには:

  1. 注釈を繰り返します。
  2. [TextMarkupAnnotation][16]でフィルターします。
  3. ハイライトされた断片を取得して保存します。

コード例:


低メモリ使用でのテキスト抽出の最適化

i) **Reset()およびFreeMemory()**の使用:

  1. 各ページを処理した後、absorber.Reset()を呼び出します。
  2. page.FreeMemory()を使用してページによって保持されたメモリを解放します。

ii) _MemorySaving_モードの使用:

TextExtractionOptions.TextFormattingModeを設定して、PDFテキスト抽出中のメモリ使用を最適化します。

コード例:


無料C# PDFテキスト抽出ライブラリ

Aspose.PDF for .NETの無制限アクセスを得るための[無料の一時ライセンス][10]を取得し、効率的なC# PDFテキスト抽出のためのその全機能を解除してください。


結論

Aspose.PDFのテキスト抽出プラグインは、信頼性の高いテキスト抽出タスクのための多目的で効率的なソリューションを提供します。全ドキュメントから特定のページや領域まで、精度と速度でプロセスを簡素化し、利用可能な最高のC# PDFテキスト抽出ライブラリの一つにしています。今日、あなたのPDFテキスト抽出ワークフローを簡素化するために試してみてください。


関連記事: