スキャンしたPDFからWordへのOCR csharp

スキャンしたPDFファイルには、テキストが選択できず、編集できない画像が含まれていることがよくあります。さまざまなシナリオで、スキャンしたPDFをWordドキュメントに変換する必要があるかもしれません。この記事では、C#を使用してスキャンしたPDFファイルをDOCXまたはDOC形式のWordドキュメントにプログラムで変換する方法を説明します。

目次

スキャンしたPDFからWord DOCXコンバーター – C# APIのインストール

スキャンしたPDFファイルを操作するには、Aspose.OCR for .NET APIを使用して光学文字認識(OCR)を行います。テキストを認識した後、Aspose.Words for .NET APIを使用してWordドキュメントを作成できます。これらのAPIは、New ReleasesからDLLファイルをダウンロードするか、以下のNuGetインストールコマンドを使用してインストールできます:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

C#を使用してスキャンしたPDFをWordドキュメントにプログラムで変換する

スキャンしたPDFファイルをWordドキュメントに変換するには、テキストを光学的に認識する必要があります。OCR操作は、スキャンしたPDFをテキストに変換し、これをDOCまたはDOCX形式のWordドキュメントにフォーマットできます。スキャンしたPDFをWordドキュメントに変換する手順は次のとおりです:

  1. AsposeOcrクラスのインスタンスを初期化します。
  2. DocumentRecognitionSettingsクラスを使用してPDFから画像を認識します。
  3. 認識したテキストを保存するためにStringBuilderオブジェクトを作成します。
  4. Documentクラスを使用してWordドキュメントを初期化します。
  5. 必要なフォントと段落の書式設定を指定します。
  6. 出力WordドキュメントをDOCXまたはDOC形式で保存します。

以下は、C#を使用してスキャンしたPDFファイルをWordドキュメントにプログラムで変換する方法を示すコードスニペットです:

無料評価ライセンスを取得する

無料の一時ライセンスをリクエストすることで、APIを最大限にテストできます。

結論

この記事では、C#を使用してスキャンしたPDFファイルをDOCXまたはDOC形式のWordドキュメントにプログラムで変換する方法を学びました。さらに、ドキュメントを訪れることで、さまざまなOCR関連機能を探索できます。質問がある場合は、フォーラムでお気軽にお問い合わせください。

関連情報

ヒント: PowerPointプレゼンテーションをWordドキュメントに変換する必要がある場合は、AsposeのプレゼンテーションからWordドキュメントへのコンバーターを使用することを検討してください。

Asposeプラグインを利用することで、スキャンしたファイルを効果的に管理し、わずか99ドルで.NETアプリケーションを強化できます。