PDF-документи є повсюдними в бізнес-операціях, часто вимагаючи програмного доступу для читання відсканованого вмісту. Витягування тексту з відсканованих PDF-файлів може бути складним, тому ефективні інструменти є необхідними. У цьому посібнику ми розглянемо як виконати OCR PDF-документи та витягти текст з PDF у C# за допомогою потужного Aspose.OCR для .NET API, бібліотеки для витягування тексту з PDF у C#, доступної для безкоштовної оцінки.
Що ви дізнаєтеся
У цій статті ми розглянемо такі теми:
- Огляд Aspose.OCR для .NET API
- Кроки для виконання OCR PDF та витягування тексту
- Як виконати OCR на PDF та зберегти текст
- Конвертація OCR PDF в Word
- Конвертація OCR PDF в JSON
Огляд Aspose.OCR для .NET API
Ми будемо використовувати Aspose.OCR для .NET API, надійне рішення .NET Core PDF OCR. Цей API призначений для розпізнавання тексту з відсканованих зображень, фотографій зі смартфонів та скріншотів, повертаючи результати в різних форматах документів. Він не лише перетворює зображення в текст, але й може створювати пошукові PDF з відсканованих документів, виправляючи орфографічні помилки в розпізнаному тексті, що робить його одним з найшвидших рішень C# PDF OCR, доступних всього за $99.
API містить клас AsposeOcr, який надає кілька методів для операцій OCR. Зокрема, метод RecognizePdf(string, DocumentRecognitionSettings) використовується для витягування тексту з вказаного PDF-документа. Клас DocumentRecognitionSettings дозволяє налаштовувати процес розпізнавання, тоді як клас RecognitionResult інкапсулює результати розпізнавання.
Ви можете завантажити DLL API або встановити його через NuGet:
PM> Install-Package Aspose.OCR
Кроки для виконання OCR PDF та витягування тексту в C#
Дотримуйтесь цих кроків, щоб виконати OCR на PDF-документах та витягнути розпізнаний текст:
- Створіть екземпляр класу AsposeOcr.
- Ініціалізуйте об’єкт класу DocumentRecognitionSettings.
- Вкажіть мову для OCR.
- Отримайте RecognitionResult, викликавши метод RecognizePdf(), передавши шлях до зображення та об’єкт DocumentRecognitionSettings.
- Пройдіть через список RecognitionResult, щоб відобразити ідентифікований текст.
Ось приклад, що ілюструє як виконати OCR на PDF-документах та витягти розпізнаний текст у C#:
Як виконати OCR на PDF та зберегти текст у C#
Щоб виконати OCR на PDF-документах та зберегти розпізнаний текст, дотримуйтесь цих кроків:
- Створіть екземпляр класу AsposeOcr.
- Ініціалізуйте об’єкт класу DocumentRecognitionSettings.
- Вкажіть мову для OCR.
- Викличте метод RecognizePdf(), щоб отримати RecognitionResult.
- Збережіть текст, використовуючи метод SaveMultipageDocument(), який вимагає шлях до вихідного файлу, SaveFormat та об’єкт RecognitionResult.
Ось приклад, що демонструє як виконати OCR на PDF-документах та зберегти розпізнаний текст у C#:
Конвертація OCR PDF в Word у C#
Щоб конвертувати відскановані PDF-документи в Word, дотримуйтесь тих самих кроків, як зазначено раніше, але вкажіть SaveFormat.Docx на останньому кроці.
Ось приклад, що ілюструє як виконати OCR PDF та зберегти розпізнаний текст як документ Word у C#:
Конвертація OCR PDF в JSON у C#
Щоб зберегти розпізнаний текст з PDF-документів у JSON-файл, дотримуйтесь попередніх кроків з єдиною зміною - вкажіть SaveFormat.Json на останньому кроці.
Ось приклад, що демонструє як виконати OCR PDF та зберегти розпізнаний текст як JSON-файл у C#:
Отримайте безкоштовну ліцензію для оцінки
Ви можете отримати безкоштовну тимчасову ліцензію для оцінки Aspose.OCR для .NET API без будь-яких обмежень.
Висновок
У цьому посібнику ми дізналися, як виконати OCR на PDF-документах та витягти текст з PDF у C#. Ми також розглянули, як зберегти розпізнаний текст у файли TXT, DOCX та JSON. Для отримання додаткової інформації про Aspose.OCR для .NET API ознайомтеся з його документацією. Якщо у вас є запитання, не соромтеся звертатися до нас на нашому форумі.