Видобуток тексту з файлів PDF є поширеною вимогою в задачах обробки документів. Ця стаття надає детальний посібник щодо використання плагіна витягу тексту Aspose.PDF для ефективного та універсального витягу тексту. Якщо вам потрібно видобути текст з цілого документа, конкретних сторінок або визначених регіонів, плагін Aspose.PDF робить цей процес безшовним і дуже ефективним. Цей посібник охоплює високопродуктивний витяг тексту з PDF на C#, забезпечуючи легкість роботи з різними форматами PDF.
Описані можливості:
- Витяг тексту з цілого PDF
- Витяг тексту з конкретних сторінок
- Витяг тексту з конкретного регіону
- Пошук і витяг тексту за допомогою Regex
- Витяг даних таблиці як текст
- Витяг виділеного тексту
- Оптимізований витяг тексту з низьким використанням пам’яті
Відзначення плагіна витягу тексту Aspose.PDF
Плагін витягу тексту Aspose.PDF для .NET є просунутим рішенням для видобутку тексту з PDF-документів. Він призначений для розробників, які працюють із .NET-додатками, і надає три режими роботи:
- Чистий режим: Витягує текст, зберігаючи оригінальне форматування та структуру.
- Сирий режим: Витягує текст без форматування.
- Простий режим: Витягує текст і видаляє форматування та спеціальні символи.
Переваги:
- Підтримує пакетну обробку для кількох PDF-файлів, забезпечуючи ефективний витяг тексту з PDF на C#.
- Пропонує налаштовувані параметри витягування для конкретних вимог.
- Пряма інтеграція з .NET-додатками забезпечує безшовні робочі процеси.
- Оптимізовано для швидкості, точності витягування тексту з мінімальним використанням ресурсів.
Бібліотека C# для витягування тексту з PDF
Бібліотека Aspose.PDF для .NET є комплексним інструментом для маніпуляцій з PDF та витягу тексту. Встановіть її через NuGet:
PM> Install-Package Aspose.PDF
Ви також можете завантажити DLL, щоб безпосередньо включити її у свій проект.
Витяг тексту з цілого PDF у C#
Щоб витягти увесь текст з PDF, дотримуйтеся наступних кроків:
- Завантажте PDF за допомогою класу Document.
- Створіть об’єкт TextAbsorber.
- Застосуйте абсорбер до всіх сторінок.
- Збережіть витягнутий текст у файл.
Приклад коду:
Витяг тексту з конкретних сторінок у PDF
Щоб витягти текст з однієї сторінки:
- Завантажте PDF.
- Створіть TextAbsorber.
- Застосуйте абсорбер до потрібної сторінки.
- Збережіть витягнутий текст.
Приклад коду:
Витяг тексту з конкретних регіонів у PDF
Видобуток тексту з конкретних областей сторінки передбачає визначення прямокутних координат. Кроки включають:
- Завантажте PDF.
- Налаштуйте TextSearchOptions для регіону.
- Застосуйте TextAbsorber до регіону.
- Збережіть витягнутий текст.
Приклад коду:
Пошук і витяг тексту за допомогою Regex
Витягніть текст, що відповідає певному шаблону, за допомогою регулярних виразів:
- Завантажте PDF.
- Визначте шаблон regex.
- Застосуйте шаблон за допомогою TextAbsorber.
- Витягніть фрагменти тексту, що збігаються.
Приклад коду:
Витяг даних таблиці як текст у C#
Щоб витягти вміст таблиці:
- Завантажте PDF.
- Використовуйте TableAbsorber для навігації по структурам таблиць.
- Витягніть текст зістовпців.
Приклад коду:
Витяг виділеного тексту у PDF
Щоб витягти виділений текст:
- Перегляньте анотації.
- Відфільтруйте TextMarkupAnnotation.
- Отримайте та збережіть виділені фрагменти.
Приклад коду:
Оптимізація витягу тексту з низьким використанням пам’яті
i) Використання Reset() та FreeMemory():
- Викликайте
absorber.Reset()
після обробки кожної сторінки. - Звільняйте пам’ять, що займається сторінками, за допомогою
page.FreeMemory()
.
ii) Використання режиму MemorySaving:
Встановіть TextExtractionOptions.TextFormattingMode
для оптимізації пам’яті.
Приклад коду:
Безкоштовна бібліотека C# для витягування тексту з PDF
Отримайте безкоштовну тимчасову ліцензію для необмеженого доступу до Aspose.PDF для .NET і розблокуйте її повний потенціал, що дозволяє використовувати функції для високопродуктивного витягу тексту з PDF без зовнішніх бібліотек.
Висновок
Плагін витягу тексту Aspose.PDF для .NET пропонує універсальне та ефективне рішення для завдань витягу тексту. Від цілих документів до конкретних сторінок або регіонів, він спрощує процес з точністю та швидкістю. Незалежно від того, чи працюєте ви над витягуванням тексту з PDF у .NET Core або .NET 6, спробуйте його сьогодні, щоб спростити ваші робочі процеси витягу тексту з PDF.