C#を使用してPDFをOCR化し、PDFからテキストを抽出する

PDF文書はビジネスオペレーションにおいて普遍的であり、スキャンしたコンテンツを読み取るためのプログラムによるアクセスがしばしば必要です。スキャンしたPDFファイルからテキストを抽出することは複雑な場合があるため、効果的なツールが不可欠です。このチュートリアルでは、強力なAspose.OCR for .NET APIを使用して、C#でPDF文書をOCR化し、PDFからテキストを抽出する方法を探ります。このAPIは、無料評価のために利用可能なトップクラスのC# PDFテキスト抽出ライブラリです。

学べること

この記事では、以下のトピックをカバーします:

  1. Aspose.OCR for .NET APIの概要
  2. PDFをOCR化しテキストを抽出する手順
  3. PDFに対してOCRを実行し、テキストを保存する方法
  4. OCR PDFをWordに変換する
  5. OCR PDFをJSONに変換する

Aspose.OCR for .NET APIの概要

私たちは、堅牢な.NET Core PDF OCRソリューションであるAspose.OCR for .NET APIを利用します。このAPIは、スキャンした画像、スマートフォンの写真、スクリーンショットからテキストを認識するために設計されており、さまざまな文書形式で結果を返します。画像をテキストに変換するだけでなく、スキャンから検索可能なPDFを作成し、認識されたテキストのスペルミスを修正することもできるため、わずか99ドルで入手できる最も高速なC# PDF OCRソリューションの1つです。

APIには、OCR操作のための複数のメソッドを提供するAsposeOcrクラスがあります。特に、指定されたPDF文書からテキストを抽出するために使用されるRecognizePdf(string, DocumentRecognitionSettings)メソッドがあります。DocumentRecognitionSettingsクラスは認識プロセスのカスタマイズを可能にし、RecognitionResultクラスは認識の結果をカプセル化します。

APIのDLLをダウンロードするか、NuGetを介してインストールできます:

PM> Install-Package Aspose.OCR

PDFをOCR化しテキストを抽出する手順

PDF文書に対してOCRを実行し、認識されたテキストを抽出するには、以下の手順に従ってください:

  1. AsposeOcrクラスのインスタンスを作成します。
  2. DocumentRecognitionSettingsクラスのオブジェクトを初期化します。
  3. OCRの言語を指定します。
  4. RecognizePdf()メソッドを呼び出し、画像パスとDocumentRecognitionSettingsオブジェクトを渡してRecognitionResultを取得します。
  5. RecognitionResultリストをループして、識別されたテキストを表示します。

以下は、C#でPDF文書をOCR化し、認識されたテキストを抽出する方法を示す例です:

C#を使用してPDFをOCR化し、PDFからテキストを抽出する

C#を使用してPDFをOCR化し、PDFからテキストを抽出する

PDFに対してOCRを実行し、テキストを保存する方法

PDF文書に対してOCRを実行し、認識されたテキストを保存するには、以下の手順に従ってください:

  1. AsposeOcrクラスのインスタンスを作成します。
  2. DocumentRecognitionSettingsクラスのオブジェクトを初期化します。
  3. OCRの言語を指定します。
  4. RecognizePdf()メソッドを呼び出してRecognitionResultを取得します。
  5. 出力ファイルパス、SaveFormat、およびRecognitionResultオブジェクトを指定して**SaveMultipageDocument()**メソッドを使用してテキストを保存します。

以下は、C#でPDF文書をOCR化し、認識されたテキストを保存する方法を示す例です:

PDFに対してOCRを実行し、テキストを保存する

PDFに対してOCRを実行し、テキストを保存する

OCR PDFをWordに変換する

スキャンしたPDF文書をWordに変換するには、前述の手順と同じ手順に従いますが、最終ステップでSaveFormat.Docxを指定します。

以下は、C#でOCR PDFをOCR化し、認識されたテキストをWord文書として保存する方法を示す例です:

C#でOCR PDFをOCR化し、スキャンしたPDFをWordに変換する

C#でOCR PDFをOCR化し、スキャンしたPDFをWordに変換する

OCR PDFをJSONに変換する

PDF文書から認識されたテキストをJSONファイルに保存するには、前の手順に従い、最終ステップでSaveFormat.Jsonを指定するだけです。

以下は、C#でOCR PDFをOCR化し、認識されたテキストをJSONファイルとして保存する方法を示す例です:

無料評価ライセンスを取得する

Aspose.OCR for .NET APIを制限なしで評価するための無料の一時ライセンスを取得できます。

結論

このチュートリアルでは、PDF文書に対してOCRを実行し、C#でPDFからテキストを抽出する方法を学びました。また、認識されたテキストをTXTDOCX、およびJSONファイルとして保存する方法も探りました。Aspose.OCR for .NET APIの詳細については、そのドキュメントを確認してください。質問がある場合は、フォーラムでお気軽にお問い合わせください。

関連情報