OCR PDF та витяг тексту з PDF у C#

PDF-документи є повсюдними в бізнес-операціях, часто вимагаючи програмного доступу для читання відсканованого вмісту. Витягування тексту з відсканованих PDF-файлів може бути складним, тому ефективні інструменти є необхідними. У цьому посібнику ми розглянемо як виконати OCR PDF-документи та витягти текст з PDF у C# за допомогою потужного Aspose.OCR для .NET API, бібліотеки для витягування тексту з PDF у C#, доступної для безкоштовної оцінки.

Що ви дізнаєтеся

У цій статті ми розглянемо такі теми:

  1. Огляд Aspose.OCR для .NET API
  2. Кроки для виконання OCR PDF та витягування тексту
  3. Як виконати OCR на PDF та зберегти текст
  4. Конвертація OCR PDF в Word
  5. Конвертація OCR PDF в JSON

Огляд Aspose.OCR для .NET API

Ми будемо використовувати Aspose.OCR для .NET API, надійне рішення .NET Core PDF OCR. Цей API призначений для розпізнавання тексту з відсканованих зображень, фотографій зі смартфонів та скріншотів, повертаючи результати в різних форматах документів. Він не лише перетворює зображення в текст, але й може створювати пошукові PDF з відсканованих документів, виправляючи орфографічні помилки в розпізнаному тексті, що робить його одним з найшвидших рішень C# PDF OCR, доступних всього за $99.

API містить клас AsposeOcr, який надає кілька методів для операцій OCR. Зокрема, метод RecognizePdf(string, DocumentRecognitionSettings) використовується для витягування тексту з вказаного PDF-документа. Клас DocumentRecognitionSettings дозволяє налаштовувати процес розпізнавання, тоді як клас RecognitionResult інкапсулює результати розпізнавання.

Ви можете завантажити DLL API або встановити його через NuGet:

PM> Install-Package Aspose.OCR

Кроки для виконання OCR PDF та витягування тексту в C#

Дотримуйтесь цих кроків, щоб виконати OCR на PDF-документах та витягнути розпізнаний текст:

  1. Створіть екземпляр класу AsposeOcr.
  2. Ініціалізуйте об’єкт класу DocumentRecognitionSettings.
  3. Вкажіть мову для OCR.
  4. Отримайте RecognitionResult, викликавши метод RecognizePdf(), передавши шлях до зображення та об’єкт DocumentRecognitionSettings.
  5. Пройдіть через список RecognitionResult, щоб відобразити ідентифікований текст.

Ось приклад, що ілюструє як виконати OCR на PDF-документах та витягти розпізнаний текст у C#:

OCR PDF та витяг тексту з PDF у C#

OCR PDF та витяг тексту з PDF у C#

Як виконати OCR на PDF та зберегти текст у C#

Щоб виконати OCR на PDF-документах та зберегти розпізнаний текст, дотримуйтесь цих кроків:

  1. Створіть екземпляр класу AsposeOcr.
  2. Ініціалізуйте об’єкт класу DocumentRecognitionSettings.
  3. Вкажіть мову для OCR.
  4. Викличте метод RecognizePdf(), щоб отримати RecognitionResult.
  5. Збережіть текст, використовуючи метод SaveMultipageDocument(), який вимагає шлях до вихідного файлу, SaveFormat та об’єкт RecognitionResult.

Ось приклад, що демонструє як виконати OCR на PDF-документах та зберегти розпізнаний текст у C#:

Виконати OCR на PDF та зберегти текст у C#

Виконати OCR на PDF та зберегти текст у C#

Конвертація OCR PDF в Word у C#

Щоб конвертувати відскановані PDF-документи в Word, дотримуйтесь тих самих кроків, як зазначено раніше, але вкажіть SaveFormat.Docx на останньому кроці.

Ось приклад, що ілюструє як виконати OCR PDF та зберегти розпізнаний текст як документ Word у C#:

OCR PDF та конвертація відсканованого PDF в Word у C#

OCR PDF та конвертація відсканованого PDF в Word у C#

Конвертація OCR PDF в JSON у C#

Щоб зберегти розпізнаний текст з PDF-документів у JSON-файл, дотримуйтесь попередніх кроків з єдиною зміною - вкажіть SaveFormat.Json на останньому кроці.

Ось приклад, що демонструє як виконати OCR PDF та зберегти розпізнаний текст як JSON-файл у C#:

Отримайте безкоштовну ліцензію для оцінки

Ви можете отримати безкоштовну тимчасову ліцензію для оцінки Aspose.OCR для .NET API без будь-яких обмежень.

Висновок

У цьому посібнику ми дізналися, як виконати OCR на PDF-документах та витягти текст з PDF у C#. Ми також розглянули, як зберегти розпізнаний текст у файли TXT, DOCX та JSON. Для отримання додаткової інформації про Aspose.OCR для .NET API ознайомтеся з його документацією. Якщо у вас є запитання, не соромтеся звертатися до нас на нашому форумі.

Дивіться також