Wyodrębnianie tekstu z plików PDF to powszechna potrzeba w zadaniach przetwarzania dokumentów. Ten artykuł przedstawia szczegółowy przewodnik dotyczący korzystania z wtyczki do wyodrębniania tekstu Aspose.PDF w celu efektywnego i wszechstronnego wyodrębniania tekstu w C#. Niezależnie od tego, czy potrzebujesz wyodrębnić tekst z całego dokumentu, konkretnych stron czy zdefiniowanych obszarów, wtyczka Aspose.PDF umożliwia wysokowydajne wyodrębnianie tekstu PDF przy minimalnym wysiłku.
Omówione funkcje:
- Wyodrębnij tekst z całego PDF
- Wyodrębnij tekst z konkretnych stron
- Wyodrębnij tekst z konkretnego regionu
- Wyszukaj i wyodrębnij tekst za pomocą wyrażeń regularnych
- Wyodrębnij dane tabeli jako tekst
- Wyodrębnij podświetlony tekst
- Optymalizowane wyodrębnianie tekstu przy niskim zużyciu pamięci
Podkreślenie wtyczki do wyodrębniania tekstu Aspose.PDF
Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET to niezawodne rozwiązanie do wyodrębniania tekstu z dokumentów PDF. Jest specjalnie zaprojektowana dla programistów pracujących z aplikacjami .NET, wspierając zarówno wyodrębnianie tekstu PDF w ramach .NET Framework, jak i .NET Core. Wtyczka oferuje trzy tryby operacyjne:
- Tryb czysty: Wyodrębnia tekst, zachowując oryginalne formatowanie i strukturę.
- Tryb surowy: Wyodrębnia tekst bez formatowania.
- Tryb prosty: Wyodrębnia tekst, usuwając formatowanie i znaki specjalne.
Zalety:
- Obsługuje przetwarzanie wsadowe dla wielu plików PDF.
- Oferuje konfigurowalne ustawienia ekstrakcji dostosowane do szczególnych wymagań.
- Bezpośrednia integracja z aplikacjami .NET zapewnia płynne przepływy pracy.
- Optymalizowane do szybkiego, dokładnego wyodrębniania tekstu przy minimalnym zużyciu zasobów.
Biblioteka do wyodrębniania tekstu z PDF w C#
Biblioteka Aspose.PDF dla .NET jest kompleksowym narzędziem dla programistów .NET poszukujących wysokowydajnego wyodrębniania tekstu z PDF w C#. Zainstaluj ją za pomocą NuGet:
PM> Install-Package Aspose.PDF
Możesz również pobrać plik DLL, aby bezpośrednio zintegrować go z projektem jako niezawodne rozwiązanie do wyodrębniania tekstu z PDF w C#.
Wyodrębnij tekst z całego PDF w C#
Aby wyodrębnić cały tekst z PDF, wykonaj te kroki:
- Załaduj PDF za pomocą klasy Document.
- Utwórz obiekt TextAbsorber.
- Zastosuj absorber do wszystkich stron.
- Zapisz wyodrębniony tekst do pliku.
Przykład kodu:
Wyodrębnij tekst z konkretnych stron PDF
Aby wyodrębnić tekst z pojedynczej strony:
- Załaduj PDF.
- Utwórz TextAbsorber.
- Zastosuj absorber do pożądanej strony.
- Zapisz wyodrębniony tekst.
Przykład kodu:
Wyodrębnij tekst z konkretnych regionów w PDF
Wyodrębnianie tekstu z konkretnych obszarów strony wymaga zdefiniowania prostokątnych współrzędnych. Kroki obejmują:
- Załaduj PDF.
- Skonfiguruj TextSearchOptions dla zdefiniowanego regionu.
- Zastosuj TextAbsorber do regionu.
- Zapisz wyodrębniony tekst.
Przykład kodu:
Wyszukaj i wyodrębnij tekst za pomocą wyrażeń regularnych
Wyodrębnij tekst pasujący do określonego wzoru za pomocą wyrażeń regularnych:
- Załaduj PDF.
- Zdefiniuj wzór regex.
- Zastosuj wzór za pomocą TextAbsorber.
- Wyodrębnij pasujące fragmenty tekstu.
Przykład kodu:
Wyodrębnij dane tabeli jako tekst w C#
Aby wyodrębnić zawartość tabeli:
- Załaduj PDF.
- Użyj TableAbsorber do nawigacji po strukturze tabeli.
- Wyodrębniaj tekst komórka po komórce.
Przykład kodu:
Wyodrębnij podświetlony tekst w PDF
Aby wyodrębnić podświetlony tekst:
- Przejdź przez adnotacje.
- Filtruj [TextMarkupAnnotation][16].
- Pobierz i zapisz podświetlone fragmenty.
Przykład kodu:
Optymalizuj wyodrębnianie tekstu przy niskim zużyciu pamięci
i) Używanie Reset() i FreeMemory():
- Wywołaj
absorber.Reset()
po przetworzeniu każdej strony. - Zwolnij pamięć zajmowaną przez strony przy użyciu
page.FreeMemory()
.
ii) Użycie trybu MemorySaving:
Ustaw TextExtractionOptions.TextFormattingMode
, aby zoptymalizować zużycie pamięci podczas wyodrębniania tekstu PDF.
Przykład kodu:
Darmowa biblioteka do wyodrębniania tekstu z PDF w C#
Uzyskaj [darmową tymczasową licencję][10] na nieograniczony dostęp do Aspose.PDF dla .NET i odblokuj pełny potencjał wydajnego wyodrębniania tekstu z PDF w C#.
Podsumowanie
Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET oferuje wszechstronne i efektywne rozwiązanie do niezawodnych zadań wyodrębniania tekstu. Od całych dokumentów po konkretne strony lub regiony, upraszcza proces z precyzją i szybkością, czyniąc ją jedną z najlepszych bibliotek do wyodrębniania tekstu z PDF w C#. Wypróbuj ją już dziś, aby uprościć swoje przepływy pracy związane z wyodrębnianiem tekstu z PDF.