Витягнути текст з PDF C#

Витягування тексту з PDF-файлів є поширеною вимогою в завданнях обробки документів. Ця стаття надає поглиблений посібник з використання плагіна для витягу тексту Aspose.PDF для ефективного та універсального витягу тексту в C#. Чи потрібно вам витягнути текст з усього документа, конкретних сторінок або визначених регіонів, плагін Aspose.PDF полегшує високопродуктивний витяг тексту з PDF за мінімальних зусиль.


Огляд можливостей:


Підкреслення плагіна для витягу тексту Aspose.PDF

Плагін для витягу тексту Aspose.PDF для .NET є надійним рішенням для витягу тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-додатками, підтримуючи як .NET Framework, так і .NET Core для витягу тексту з PDF. Плагін надає три режиму роботи:

  1. Чистий режим: Витягує текст, зберігаючи оригінальне форматування та структуру.
  2. Сирий режим: Витягує текст без форматування.
  3. Простий режим: Витягує текст, видаляючи форматування та спеціальні символи.

Переваги:

  • Підтримує пакетну обробку для кількох PDF.
  • Пропонує налаштовувані параметри витягу для задоволення специфічних вимог.
  • Пряма інтеграція з .NET-додатками забезпечує безперешкодні робочі процеси.
  • Оптимізовано для високошвидкісного, точного витягу тексту з мінімальним використанням ресурсів.

Бібліотека для витягу тексту з PDF у C#

Бібліотека Aspose.PDF для .NET є комплексним інструментом для розробників .NET, які шукають високопродуктивний витяг тексту з PDF у C#. Встановіть її через NuGet:

PM> Install-Package Aspose.PDF

Ви також можете завантажити DLL для прямої інтеграції у ваш проект як надійне рішення для витягу тексту з PDF у C#.


Витяг тексту з цілого PDF у C#

Щоб витягнути весь текст з PDF, виконайте ці кроки:

  1. Завантажте PDF за допомогою класу Document.
  2. Створіть об’єкт TextAbsorber.
  3. Застосуйте поглинач до всіх сторінок.
  4. Збережіть витягнутий текст у файл.

Приклад коду:


Витяг тексту з конкретних сторінок у PDF

Щоб витягнути текст з однієї сторінки:

  1. Завантажте PDF.
  2. Створіть TextAbsorber.
  3. Застосуйте поглинач до потрібної сторінки.
  4. Збережіть витягнутий текст.

Приклад коду:


Витяг тексту з конкретних регіонів у PDF

Витягнення тексту з конкретних областей сторінки включає визначення прямокутних координат. Кроки включають:

  1. Завантажте PDF.
  2. Налаштуйте TextSearchOptions для визначеного регіону.
  3. Застосуйте TextAbsorber до регіону.
  4. Збережіть витягнутий текст.

Приклад коду:


Пошук і витяг тексту за допомогою Regex

Витягніть текст, що відповідає певному шаблону, за допомогою регулярних виразів:

  1. Завантажте PDF.
  2. Визначте шаблон regex.
  3. Застосуйте шаблон за допомогою TextAbsorber.
  4. Витягніть відповідні фрагменти тексту.

Приклад коду:


Витяг даних таблиці як текст у C#

Щоб витягнути вміст таблиці:

  1. Завантажте PDF.
  2. Використовуйте TableAbsorber для навігації через структури таблиці.
  3. Витягніть текст з комірок по одному.

Приклад коду:


Витяг підкресленого тексту в PDF

Щоб витягнути підкреслений текст:

  1. Пройдіть через анотації.
  2. Відфільтруйте [TextMarkupAnnotation][16].
  3. Отримайте та збережіть підкреслені фрагменти.

Приклад коду:


Оптимізуйте витяг тексту з низьким використанням пам’яті

i) Використання Reset() і FreeMemory():

  1. Викликайте absorber.Reset() після обробки кожної сторінки.
  2. Вивільніть пам’ять, яку займають сторінки, за допомогою page.FreeMemory().

ii) Використання режиму MemorySaving:

Встановіть TextExtractionOptions.TextFormattingMode, щоб оптимізувати використання пам’яті під час витягу тексту з PDF.

Приклад коду:


Безкоштовна бібліотека для витягу тексту з PDF для C#

Отримайте [безкоштовну тимчасову ліцензію][10] для не обмеженого доступу до Aspose.PDF для .NET та розблокуйте його повний потенціал для ефективного витягу тексту з PDF у C#.


Висновок

Плагін для витягу тексту Aspose.PDF для .NET пропонує універсальне та ефективне рішення для надійних завдань витягу тексту. Від цілих документів до конкретних сторінок або регіонів, він спрощує процес із точністю та швидкістю, що робить його однією з найкращих бібліотек для витягу тексту з PDF у C#. Спробуйте його сьогодні, щоб спростити ваші робочі процеси з витягу тексту з PDF.


Суміжні статті: