Извлечение текста из PDF на C#

Извлечение текста из PDF-файлов является распространенной задачей при обработке документов. Эта статья предоставляет углубленный гид по использованию плагина текстового извлекателя Aspose.PDF для эффективного и универсального извлечения текста. Необходимость извлечения текста из всего документа, конкретных страниц или определенных регионов — плагин Aspose.PDF обеспечивает бесшовный и высокоэффективный процесс. Этот гид охватывает высокопроизводительное извлечение текста из PDF на C#, гарантируя, что вы сможете легко обрабатывать разные форматы PDF.


Охватываемые функции:


Подробные сведения о плагине текстового извлекателя Aspose.PDF

Плагин текстового извлекателя Aspose.PDF для .NET является продвинутым решением для извлечения текста из PDF-документов. Он разработан для разработчиков, работающих с приложениями на .NET, и предлагает три режима работы:

  1. Чистый режим: Извлекает текст, сохраняя оригинальное форматирование и структуру.
  2. Сырой режим: Извлекает текст без форматирования.
  3. Простой режим: Извлекает текст и удаляет форматирование и специальные символы.

Преимущества:

  • Поддерживает пакетную обработку для нескольких PDF-файлов, обеспечивая эффективное извлечение текста из PDF на C#.
  • Предлагает настраиваемые параметры извлечения для конкретных требований.
  • Прямая интеграция с приложениями .NET обеспечивает плавные рабочие процессы.
  • Оптимизирован для высокоскоростного и точного извлечения текста с минимальным использованием ресурсов.

Библиотека извлечения текста из PDF на C#

Библиотека Aspose.PDF для .NET является комплексным инструментом для манипуляции с PDF и извлечения текста. Установите ее через NuGet:

PM> Install-Package Aspose.PDF

Вы также можете скачать DLL, чтобы включить ее непосредственно в свой проект.


Извлечение текста из целого PDF на C#

Чтобы извлечь весь текст из PDF, выполните следующие шаги:

  1. Загрузите PDF с помощью класса Document.
  2. Создайте объект TextAbsorber.
  3. Примените поглотитель ко всем страницам.
  4. Сохраните извлеченный текст в файл.

Пример кода:


Извлечение текста с конкретных страниц в PDF

Чтобы извлечь текст с одной страницы:

  1. Загрузите PDF.
  2. Создайте TextAbsorber.
  3. Примените поглотитель к нужной странице.
  4. Сохраните извлеченный текст.

Пример кода:


Извлечение текста из определенных регионов в PDF

Извлечение текста из конкретных областей страницы включает определение прямоугольных координат. Шаги включают:

  1. Загрузите PDF.
  2. Настройте TextSearchOptions для региона.
  3. Примените TextAbsorber к региону.
  4. Сохраните извлеченный текст.

Пример кода:


Поиск и извлечение текста с использованием регулярных выражений

Извлеките текст, соответствующий определенному шаблону, используя регулярные выражения:

  1. Загрузите PDF.
  2. Определите шаблон regex.
  3. Примените шаблон с использованием TextAbsorber.
  4. Извлеките соответствующие текстовые фрагменты.

Пример кода:


Извлечение данных таблицы как текста на C#

Чтобы извлечь содержание таблицы:

  1. Загрузите PDF.
  2. Используйте TableAbsorber, чтобы перемещаться по структурам таблицы.
  3. Извлеките текст ячейка за ячейкой.

Пример кода:


Извлечение выделенного текста в PDF

Чтобы извлечь выделенный текст:

  1. Переберите аннотации.
  2. Фильтруйте TextMarkupAnnotation.
  3. Извлеките и сохраните выделенные фрагменты.

Пример кода:


Оптимизация извлечения текста с низким использованием памяти

i) Использование Reset() и FreeMemory():

  1. Вызывайте absorber.Reset() после обработки каждой страницы.
  2. Освобождайте память, занимаемую страницами, с помощью page.FreeMemory().

ii) Использование режима MemorySaving:

Установите TextExtractionOptions.TextFormattingMode для оптимизации памяти.

Пример кода:


Бесплатная библиотека извлечения текста из PDF на C#

Получите бесплатную временную лицензию для неограниченного доступа к Aspose.PDF для .NET и откройте ее полный потенциал, позволяя функции для высокопроизводительного извлечения текста из PDF без внешних библиотек.


Заключение

Плагин текстового извлекателя Aspose.PDF для .NET предлагает универсальное и эффективное решение для задач извлечения текста. От целых документов до конкретных страниц или регионов, он упрощает процесс с точностью и скоростью. Независимо от того, работаете ли вы над извлечением текста из PDF на .NET Core или .NET 6, попробуйте его сегодня, чтобы упростить ваши рабочие процессы извлечения текста из PDF.


Связанные статьи: