Wyodrębnij tekst z PDF w C#

Wyodrębnianie tekstu z plików PDF to powszechna potrzeba w zadaniach przetwarzania dokumentów. Ten artykuł przedstawia szczegółowy przewodnik dotyczący korzystania z wtyczki do wyodrębniania tekstu Aspose.PDF w celu efektywnego i wszechstronnego wyodrębniania tekstu w C#. Niezależnie od tego, czy potrzebujesz wyodrębnić tekst z całego dokumentu, konkretnych stron czy zdefiniowanych obszarów, wtyczka Aspose.PDF umożliwia wysokowydajne wyodrębnianie tekstu PDF przy minimalnym wysiłku.


Omówione funkcje:


Podkreślenie wtyczki do wyodrębniania tekstu Aspose.PDF

Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET to niezawodne rozwiązanie do wyodrębniania tekstu z dokumentów PDF. Jest specjalnie zaprojektowana dla programistów pracujących z aplikacjami .NET, wspierając zarówno wyodrębnianie tekstu PDF w ramach .NET Framework, jak i .NET Core. Wtyczka oferuje trzy tryby operacyjne:

  1. Tryb czysty: Wyodrębnia tekst, zachowując oryginalne formatowanie i strukturę.
  2. Tryb surowy: Wyodrębnia tekst bez formatowania.
  3. Tryb prosty: Wyodrębnia tekst, usuwając formatowanie i znaki specjalne.

Zalety:

  • Obsługuje przetwarzanie wsadowe dla wielu plików PDF.
  • Oferuje konfigurowalne ustawienia ekstrakcji dostosowane do szczególnych wymagań.
  • Bezpośrednia integracja z aplikacjami .NET zapewnia płynne przepływy pracy.
  • Optymalizowane do szybkiego, dokładnego wyodrębniania tekstu przy minimalnym zużyciu zasobów.

Biblioteka do wyodrębniania tekstu z PDF w C#

Biblioteka Aspose.PDF dla .NET jest kompleksowym narzędziem dla programistów .NET poszukujących wysokowydajnego wyodrębniania tekstu z PDF w C#. Zainstaluj ją za pomocą NuGet:

PM> Install-Package Aspose.PDF

Możesz również pobrać plik DLL, aby bezpośrednio zintegrować go z projektem jako niezawodne rozwiązanie do wyodrębniania tekstu z PDF w C#.


Wyodrębnij tekst z całego PDF w C#

Aby wyodrębnić cały tekst z PDF, wykonaj te kroki:

  1. Załaduj PDF za pomocą klasy Document.
  2. Utwórz obiekt TextAbsorber.
  3. Zastosuj absorber do wszystkich stron.
  4. Zapisz wyodrębniony tekst do pliku.

Przykład kodu:


Wyodrębnij tekst z konkretnych stron PDF

Aby wyodrębnić tekst z pojedynczej strony:

  1. Załaduj PDF.
  2. Utwórz TextAbsorber.
  3. Zastosuj absorber do pożądanej strony.
  4. Zapisz wyodrębniony tekst.

Przykład kodu:


Wyodrębnij tekst z konkretnych regionów w PDF

Wyodrębnianie tekstu z konkretnych obszarów strony wymaga zdefiniowania prostokątnych współrzędnych. Kroki obejmują:

  1. Załaduj PDF.
  2. Skonfiguruj TextSearchOptions dla zdefiniowanego regionu.
  3. Zastosuj TextAbsorber do regionu.
  4. Zapisz wyodrębniony tekst.

Przykład kodu:


Wyszukaj i wyodrębnij tekst za pomocą wyrażeń regularnych

Wyodrębnij tekst pasujący do określonego wzoru za pomocą wyrażeń regularnych:

  1. Załaduj PDF.
  2. Zdefiniuj wzór regex.
  3. Zastosuj wzór za pomocą TextAbsorber.
  4. Wyodrębnij pasujące fragmenty tekstu.

Przykład kodu:


Wyodrębnij dane tabeli jako tekst w C#

Aby wyodrębnić zawartość tabeli:

  1. Załaduj PDF.
  2. Użyj TableAbsorber do nawigacji po strukturze tabeli.
  3. Wyodrębniaj tekst komórka po komórce.

Przykład kodu:


Wyodrębnij podświetlony tekst w PDF

Aby wyodrębnić podświetlony tekst:

  1. Przejdź przez adnotacje.
  2. Filtruj [TextMarkupAnnotation][16].
  3. Pobierz i zapisz podświetlone fragmenty.

Przykład kodu:


Optymalizuj wyodrębnianie tekstu przy niskim zużyciu pamięci

i) Używanie Reset() i FreeMemory():

  1. Wywołaj absorber.Reset() po przetworzeniu każdej strony.
  2. Zwolnij pamięć zajmowaną przez strony przy użyciu page.FreeMemory().

ii) Użycie trybu MemorySaving:

Ustaw TextExtractionOptions.TextFormattingMode, aby zoptymalizować zużycie pamięci podczas wyodrębniania tekstu PDF.

Przykład kodu:


Darmowa biblioteka do wyodrębniania tekstu z PDF w C#

Uzyskaj [darmową tymczasową licencję][10] na nieograniczony dostęp do Aspose.PDF dla .NET i odblokuj pełny potencjał wydajnego wyodrębniania tekstu z PDF w C#.


Podsumowanie

Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET oferuje wszechstronne i efektywne rozwiązanie do niezawodnych zadań wyodrębniania tekstu. Od całych dokumentów po konkretne strony lub regiony, upraszcza proces z precyzją i szybkością, czyniąc ją jedną z najlepszych bibliotek do wyodrębniania tekstu z PDF w C#. Wypróbuj ją już dziś, aby uprościć swoje przepływy pracy związane z wyodrębnianiem tekstu z PDF.


Powiązane artykuły: