Jak wyodrębnić tekst z PDF w C# | Wtyczka do wyodrębniania tekstu Aspose.PDF | Aspose Blog | File Format Processing Plugins for C# .NET Core

Wyodrębnianie tekstu z plików PDF to powszechna potrzeba w zadaniach przetwarzania dokumentów. Ten artykuł przedstawia szczegółowy przewodnik dotyczący korzystania z wtyczki do wyodrębniania tekstu Aspose.PDF w celu efektywnego i wszechstronnego wyodrębniania tekstu w C#. Niezależnie od tego, czy potrzebujesz wyodrębnić tekst z całego dokumentu, konkretnych stron czy zdefiniowanych obszarów, wtyczka Aspose.PDF umożliwia wysokowydajne wyodrębnianie tekstu PDF przy minimalnym wysiłku.

Omówione funkcje:

Podkreślenie wtyczki do wyodrębniania tekstu Aspose.PDF

Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET to niezawodne rozwiązanie do wyodrębniania tekstu z dokumentów PDF. Jest specjalnie zaprojektowana dla programistów pracujących z aplikacjami .NET, wspierając zarówno wyodrębnianie tekstu PDF w ramach .NET Framework, jak i .NET Core. Wtyczka oferuje trzy tryby operacyjne:

Tryb czysty: Wyodrębnia tekst, zachowując oryginalne formatowanie i strukturę.
Tryb surowy: Wyodrębnia tekst bez formatowania.
Tryb prosty: Wyodrębnia tekst, usuwając formatowanie i znaki specjalne.

Zalety:

Obsługuje przetwarzanie wsadowe dla wielu plików PDF.
Oferuje konfigurowalne ustawienia ekstrakcji dostosowane do szczególnych wymagań.
Bezpośrednia integracja z aplikacjami .NET zapewnia płynne przepływy pracy.
Optymalizowane do szybkiego, dokładnego wyodrębniania tekstu przy minimalnym zużyciu zasobów.

Biblioteka do wyodrębniania tekstu z PDF w C#

Biblioteka Aspose.PDF dla .NET jest kompleksowym narzędziem dla programistów .NET poszukujących wysokowydajnego wyodrębniania tekstu z PDF w C#. Zainstaluj ją za pomocą NuGet:

PM> Install-Package Aspose.PDF

Możesz również pobrać plik DLL, aby bezpośrednio zintegrować go z projektem jako niezawodne rozwiązanie do wyodrębniania tekstu z PDF w C#.

Wyodrębnij tekst z całego PDF w C#

Aby wyodrębnić cały tekst z PDF, wykonaj te kroki:

Załaduj PDF za pomocą klasy Document.
Utwórz obiekt TextAbsorber.
Zastosuj absorber do wszystkich stron.
Zapisz wyodrębniony tekst do pliku.

Przykład kodu:

Wyodrębnij tekst z konkretnych stron PDF

Aby wyodrębnić tekst z pojedynczej strony:

Załaduj PDF.
Utwórz TextAbsorber.
Zastosuj absorber do pożądanej strony.
Zapisz wyodrębniony tekst.

Przykład kodu:

Wyodrębnij tekst z konkretnych regionów w PDF

Wyodrębnianie tekstu z konkretnych obszarów strony wymaga zdefiniowania prostokątnych współrzędnych. Kroki obejmują:

Załaduj PDF.
Skonfiguruj TextSearchOptions dla zdefiniowanego regionu.
Zastosuj TextAbsorber do regionu.
Zapisz wyodrębniony tekst.

Przykład kodu:

Wyszukaj i wyodrębnij tekst za pomocą wyrażeń regularnych

Wyodrębnij tekst pasujący do określonego wzoru za pomocą wyrażeń regularnych:

Załaduj PDF.
Zdefiniuj wzór regex.
Zastosuj wzór za pomocą TextAbsorber.
Wyodrębnij pasujące fragmenty tekstu.

Przykład kodu:

Wyodrębnij dane tabeli jako tekst w C#

Aby wyodrębnić zawartość tabeli:

Załaduj PDF.
Użyj TableAbsorber do nawigacji po strukturze tabeli.
Wyodrębniaj tekst komórka po komórce.

Przykład kodu:

Wyodrębnij podświetlony tekst w PDF

Aby wyodrębnić podświetlony tekst:

Przejdź przez adnotacje.
Filtruj [TextMarkupAnnotation][16].
Pobierz i zapisz podświetlone fragmenty.

Przykład kodu:

Optymalizuj wyodrębnianie tekstu przy niskim zużyciu pamięci

i) Używanie Reset() i FreeMemory():

Wywołaj absorber.Reset() po przetworzeniu każdej strony.
Zwolnij pamięć zajmowaną przez strony przy użyciu page.FreeMemory().

ii) Użycie trybu MemorySaving:

Ustaw TextExtractionOptions.TextFormattingMode, aby zoptymalizować zużycie pamięci podczas wyodrębniania tekstu PDF.

Przykład kodu:

Darmowa biblioteka do wyodrębniania tekstu z PDF w C#

Uzyskaj [darmową tymczasową licencję][10] na nieograniczony dostęp do Aspose.PDF dla .NET i odblokuj pełny potencjał wydajnego wyodrębniania tekstu z PDF w C#.

Podsumowanie

Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET oferuje wszechstronne i efektywne rozwiązanie do niezawodnych zadań wyodrębniania tekstu. Od całych dokumentów po konkretne strony lub regiony, upraszcza proces z precyzją i szybkością, czyniąc ją jedną z najlepszych bibliotek do wyodrębniania tekstu z PDF w C#. Wypróbuj ją już dziś, aby uprościć swoje przepływy pracy związane z wyodrębnianiem tekstu z PDF.

Omówione funkcje:#

Podkreślenie wtyczki do wyodrębniania tekstu Aspose.PDF#

Zalety:#

Biblioteka do wyodrębniania tekstu z PDF w C##

Wyodrębnij tekst z całego PDF w C##

Przykład kodu:#

Wyodrębnij tekst z konkretnych stron PDF#

Przykład kodu:#

Wyodrębnij tekst z konkretnych regionów w PDF#

Przykład kodu:#

Wyszukaj i wyodrębnij tekst za pomocą wyrażeń regularnych#

Przykład kodu:#

Wyodrębnij dane tabeli jako tekst w C##

Przykład kodu:#

Wyodrębnij podświetlony tekst w PDF#

Przykład kodu:#

Optymalizuj wyodrębnianie tekstu przy niskim zużyciu pamięci#

i) Używanie Reset() i FreeMemory():#

ii) Użycie trybu MemorySaving:#

Przykład kodu:#

Darmowa biblioteka do wyodrębniania tekstu z PDF w C##

Podsumowanie#

Powiązane artykuły:#

Omówione funkcje:

Podkreślenie wtyczki do wyodrębniania tekstu Aspose.PDF

Zalety:

Biblioteka do wyodrębniania tekstu z PDF w C#

Wyodrębnij tekst z całego PDF w C#

Przykład kodu:

Wyodrębnij tekst z konkretnych stron PDF

Przykład kodu:

Wyodrębnij tekst z konkretnych regionów w PDF

Przykład kodu:

Wyszukaj i wyodrębnij tekst za pomocą wyrażeń regularnych

Przykład kodu:

Wyodrębnij dane tabeli jako tekst w C#

Przykład kodu:

Wyodrębnij podświetlony tekst w PDF

Przykład kodu:

Optymalizuj wyodrębnianie tekstu przy niskim zużyciu pamięci

i) Używanie Reset() i FreeMemory():

ii) Użycie trybu MemorySaving:

Przykład kodu:

Darmowa biblioteka do wyodrębniania tekstu z PDF w C#

Podsumowanie

Powiązane artykuły: