Как извлечь текст из PDF в C# | Плагин для извлечения текста Aspose.PDF | Aspose Blog | File Format Processing Plugins for C# .NET Core

Извлечение текста из PDF-файлов является распространенной необходимостью в задачах обработки документов. Эта статья предоставляет подробный гид по использованию плагина для извлечения текста Aspose.PDF для эффективного и универсального извлечения текста в C#. Независимо от того, нужно ли вам извлекать текст из всего документа, отдельных страниц или определенных регионов, плагин Aspose.PDF облегчает высокопроизводительное извлечение текста из PDF с минимальными усилиями.

Охватываемые функции:

Подчеркивание плагина для извлечения текста Aspose.PDF

Плагин для извлечения текста Aspose.PDF для .NET является надежным решением для извлечения текста из PDF-документов. Он специально разработан для разработчиков, работающих с приложениями .NET, поддерживая как извлечение текста из PDF в рамках .NET Framework, так и .NET Core. Плагин предлагает три режима работы:

Чистый режим: Извлекает текст, сохраняя оригинальное форматирование и структуру.
Сырой режим: Извлекает текст без форматирования.
Простой режим: Извлекает текст и удаляет форматирование и специальные символы.

Преимущества:

Поддерживает пакетную обработку для нескольких PDF.
Предлагает настраиваемые параметры извлечения для удовлетворения специфических требований.
Прямая интеграция с приложениями .NET обеспечивает бесшовные рабочие процессы.
Оптимизирован для высокоскоростного, точного извлечения текста с минимальным потреблением ресурсов.

Библиотека извлечения текста PDF на C#

Библиотека Aspose.PDF для .NET является всеобъемлющим инструментом для разработчиков .NET, ищущих высокопроизводительное извлечение текста из PDF в C#. Установите ее через NuGet:

PM> Install-Package Aspose.PDF

Вы также можете скачать DLL, чтобы интегрировать ее непосредственно в ваш проект как надежное решение для извлечения текста из PDF в C#.

Извлечение текста из целого PDF в C#

Чтобы извлечь весь текст из PDF, выполните следующие шаги:

Загрузите PDF с помощью класса Document.
Создайте объект TextAbsorber.
Примените абсорбер ко всем страницам.
Сохраните извлеченный текст в файл.

Пример кода:

Извлечение текста из отдельных страниц PDF

Чтобы извлечь текст с одной страницы:

Загрузите PDF.
Создайте TextAbsorber.
Примените абсорбер к нужной странице.
Сохраните извлеченный текст.

Пример кода:

Извлечение текста из конкретных регионов в PDF

Извлечение текста из конкретных областей страницы включает определение прямоугольных координат. Шаги включают:

Загрузите PDF.
Настройте TextSearchOptions для определенного региона.
Примените TextAbsorber к региону.
Сохраните извлеченный текст.

Пример кода:

Поиск и извлечение текста с использованием регулярных выражений

Извлеките текст, соответствующий определенному шаблону, используя регулярные выражения:

Загрузите PDF.
Определите шаблон regex.
Примените шаблон с помощью TextAbsorber.
Извлеките соответствующие фрагменты текста.

Пример кода:

Извлечение данных таблицы как текста в C#

Чтобы извлечь содержимое таблицы:

Загрузите PDF.
Используйте TableAbsorber, чтобы пройти через структуры таблиц.
Извлеките текст ячейка за ячейкой.

Пример кода:

Извлечение выделенного текста в PDF

Чтобы извлечь выделенный текст:

Переберите аннотации.
Отфильтруйте [TextMarkupAnnotation][16].
Извлеките и сохраните выделенные фрагменты.

Пример кода:

Оптимизация извлечения текста с низким потреблением памяти

i) Используя Reset() и FreeMemory():

Вызовите absorber.Reset() после обработки каждой страницы.
Освободите память, занимаемую страницами, с помощью page.FreeMemory().

ii) Используя MemorySaving режим:

Установите TextExtractionOptions.TextFormattingMode, чтобы оптимизировать использование памяти во время извлечения текста из PDF.

Пример кода:

Бесплатная библиотека извлечения текста из PDF на C#

Получите [бесплатную временную лицензию][10] для неограниченного доступа к Aspose.PDF для .NET и откройте его полный потенциал для эффективного извлечения текста из PDF в C#.

Заключение

Плагин для извлечения текста Aspose.PDF для .NET предлагает универсальное и эффективное решение для надежных задач извлечения текста. От целых документов до отдельных страниц или регионов, он упрощает процесс с точностью и скоростью, что делает его одной из лучших библиотек для извлечения текста из PDF в C#. Попробуйте сегодня, чтобы упростить свои рабочие процессы извлечения текста из PDF.

Охватываемые функции:#

Подчеркивание плагина для извлечения текста Aspose.PDF#

Преимущества:#

Библиотека извлечения текста PDF на C##

Извлечение текста из целого PDF в C##

Пример кода:#

Извлечение текста из отдельных страниц PDF#

Пример кода:#

Извлечение текста из конкретных регионов в PDF#

Пример кода:#

Поиск и извлечение текста с использованием регулярных выражений#

Пример кода:#

Извлечение данных таблицы как текста в C##

Пример кода:#

Извлечение выделенного текста в PDF#

Пример кода:#

Оптимизация извлечения текста с низким потреблением памяти#

i) Используя Reset() и FreeMemory():#

ii) Используя MemorySaving режим:#

Пример кода:#

Бесплатная библиотека извлечения текста из PDF на C##

Заключение#

Связанные статьи:#

Охватываемые функции:

Подчеркивание плагина для извлечения текста Aspose.PDF

Преимущества:

Библиотека извлечения текста PDF на C#

Извлечение текста из целого PDF в C#

Пример кода:

Извлечение текста из отдельных страниц PDF

Пример кода:

Извлечение текста из конкретных регионов в PDF

Пример кода:

Поиск и извлечение текста с использованием регулярных выражений

Пример кода:

Извлечение данных таблицы как текста в C#

Пример кода:

Извлечение выделенного текста в PDF

Пример кода:

Оптимизация извлечения текста с низким потреблением памяти

i) Используя Reset() и FreeMemory():

ii) Используя MemorySaving режим:

Пример кода:

Бесплатная библиотека извлечения текста из PDF на C#

Заключение

Связанные статьи: