Отсканированные PDF файлы часто содержат изображения, в которых текст нельзя ни выделить, ни отредактировать. В различных сценариях вам может понадобиться преобразовать отсканированный PDF в документ Word. Эта статья проведет вас через процесс преобразования отсканированных PDF файлов в документы Word в формате DOCX или DOC программно с использованием C#.
Содержание
- Конвертер отсканированного PDF в Word DOCX – Установка C# API
- Программное преобразование отсканированного PDF в документ Word с использованием C#
- Получить бесплатную лицензию на оценку
- Заключение
- См. также
Конвертер отсканированного PDF в Word DOCX – Установка C# API
Чтобы работать с отсканированными PDF файлами, вы можете выполнить оптическое распознавание символов (OCR) с помощью API Aspose.OCR для .NET. После распознавания текста вы можете создать документ Word с помощью API Aspose.Words для .NET. Вы можете установить эти API, скачав DLL файлы из Новых релизов или используя следующие команды установки NuGet:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Программное преобразование отсканированного PDF в документ Word с использованием C#
Чтобы преобразовать отсканированные PDF файлы в документы Word, вам нужно распознать текст оптически. Операции OCR преобразуют отсканированный PDF в текст, который затем можно отформатировать в документ Word в формате DOC или DOCX. Следуйте этим шагам, чтобы преобразовать отсканированный PDF в документ Word:
- Инициализируйте экземпляр класса AsposeOcr.
- Используйте класс DocumentRecognitionSettings для распознавания изображений из PDF.
- Создайте объект StringBuilder для сохранения распознанного текста.
- Инициализируйте документ Word с использованием класса Document.
- Укажите необходимое форматирование шрифта и абзаца.
- Сохраните выходной документ Word в формате DOCX или DOC.
Вот фрагмент кода, демонстрирующий, как программно преобразовать отсканированный PDF файл в документ Word с использованием C#:
Получить бесплатную лицензию на оценку
Вы можете протестировать API на полную мощность, запросив бесплатную временную лицензию.
Заключение
В этой статье вы узнали, как программно преобразовать отсканированный PDF файл в документ Word в формате DOCX или DOC, используя C#. Кроме того, вы можете изучить различные другие функции, связанные с OCR, посетив документацию. Если у вас есть вопросы, не стесняйтесь обращаться к нам на форуме.
См. также
Совет: Если вам когда-либо нужно будет преобразовать презентацию PowerPoint в документ Word, рассмотрите возможность использования конвертера Aspose Презентация в документ Word.
Используя плагин Aspose, вы можете эффективно управлять отсканированными файлами и улучшать свои .NET приложения всего за 99 долларов.