Відсканований PDF у Word OCR csharp

Відскановані PDF файли часто містять зображення, де текст не є вибірковим або редагованим. У різних ситуаціях вам може знадобитися конвертувати відсканований PDF у документ Word. Ця стаття проведе вас через процес конвертування відсканованих PDF файлів у документи Word у форматі DOCX або DOC програмно, використовуючи C#.

Зміст

Конвертер відсканованого PDF у Word DOCX – Встановлення API C#

Щоб працювати з відсканованими PDF файлами, ви можете виконати оптичне розпізнавання символів (OCR) за допомогою Aspose.OCR для .NET API. Після розпізнавання тексту ви можете створити документ Word за допомогою Aspose.Words для .NET API. Ви можете встановити ці API, завантаживши DLL файли з Нових релізів або використовуючи такі команди встановлення NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Програмна конвертація відсканованого PDF у документ Word за допомогою C#

Щоб конвертувати відскановані PDF файли у документи Word, вам потрібно оптично розпізнати текст. Операції OCR конвертують відсканований PDF у текст, який потім може бути відформатований у документ Word у форматі DOC або DOCX. Дотримуйтесь цих кроків, щоб конвертувати відсканований PDF у документ Word:

  1. Ініціалізуйте екземпляр класу AsposeOcr.
  2. Використовуйте клас DocumentRecognitionSettings для розпізнавання зображень з PDF.
  3. Створіть об’єкт StringBuilder для збереження розпізнаного тексту.
  4. Ініціалізуйте документ Word, використовуючи клас Document.
  5. Визначте необхідне форматування шрифтів і абзаців.
  6. Збережіть вихідний документ Word у форматі DOCX або DOC.

Ось фрагмент коду, що демонструє, як програмно конвертувати відсканований PDF файл у документ Word, використовуючи C#:

Отримати безкоштовну ліцензію для оцінки

Ви можете протестувати API на їх повну потужність, запросивши безкоштовну тимчасову ліцензію.

Висновок

У цій статті ви дізналися, як програмно конвертувати відсканований PDF файл у документ Word у форматі DOCX або DOC, використовуючи C#. Крім того, ви можете дослідити різні інші функції, пов’язані з OCR, відвідавши документацію. Якщо у вас є питання, не соромтеся звертатися до нас на форумі.

Дивіться також

Порада: Якщо вам коли-небудь потрібно конвертувати презентацію PowerPoint у документ Word, розгляньте можливість використання конвертера Aspose Presentation to Word Document.

Використовуючи плагін Aspose, ви можете ефективно керувати відсканованими файлами та покращувати свої .NET додатки всього за $99.