Отсканированный PDF в Word OCR csharp

Отсканированные PDF файлы часто содержат изображения, в которых текст нельзя ни выделить, ни отредактировать. В различных сценариях вам может понадобиться преобразовать отсканированный PDF в документ Word. Эта статья проведет вас через процесс преобразования отсканированных PDF файлов в документы Word в формате DOCX или DOC программно с использованием C#.

Содержание

Конвертер отсканированного PDF в Word DOCX – Установка C# API

Чтобы работать с отсканированными PDF файлами, вы можете выполнить оптическое распознавание символов (OCR) с помощью API Aspose.OCR для .NET. После распознавания текста вы можете создать документ Word с помощью API Aspose.Words для .NET. Вы можете установить эти API, скачав DLL файлы из Новых релизов или используя следующие команды установки NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Программное преобразование отсканированного PDF в документ Word с использованием C#

Чтобы преобразовать отсканированные PDF файлы в документы Word, вам нужно распознать текст оптически. Операции OCR преобразуют отсканированный PDF в текст, который затем можно отформатировать в документ Word в формате DOC или DOCX. Следуйте этим шагам, чтобы преобразовать отсканированный PDF в документ Word:

  1. Инициализируйте экземпляр класса AsposeOcr.
  2. Используйте класс DocumentRecognitionSettings для распознавания изображений из PDF.
  3. Создайте объект StringBuilder для сохранения распознанного текста.
  4. Инициализируйте документ Word с использованием класса Document.
  5. Укажите необходимое форматирование шрифта и абзаца.
  6. Сохраните выходной документ Word в формате DOCX или DOC.

Вот фрагмент кода, демонстрирующий, как программно преобразовать отсканированный PDF файл в документ Word с использованием C#:

Получить бесплатную лицензию на оценку

Вы можете протестировать API на полную мощность, запросив бесплатную временную лицензию.

Заключение

В этой статье вы узнали, как программно преобразовать отсканированный PDF файл в документ Word в формате DOCX или DOC, используя C#. Кроме того, вы можете изучить различные другие функции, связанные с OCR, посетив документацию. Если у вас есть вопросы, не стесняйтесь обращаться к нам на форуме.

См. также

Совет: Если вам когда-либо нужно будет преобразовать презентацию PowerPoint в документ Word, рассмотрите возможность использования конвертера Aspose Презентация в документ Word.

Используя плагин Aspose, вы можете эффективно управлять отсканированными файлами и улучшать свои .NET приложения всего за 99 долларов.