Wyodrębnij tekst z PDF C#

Wyodrębnianie tekstu z plików PDF jest powszechnym wymaganiem w zadaniach przetwarzania dokumentów. Ten artykuł dostarcza dogłębnego przewodnika po użyciu Wtyczki do wyodrębniania tekstu Aspose.PDF dla efektywnego i wszechstronnego wyodrębniania tekstu. Niezależnie od tego, czy potrzebujesz wyodrębnić tekst z całego dokumentu, konkretnych stron, czy zdefiniowanych obszarów, wtyczka Aspose.PDF sprawia, że proces jest bezproblemowy i niezwykle wydajny. Ten przewodnik obejmuje bardzo wydajne wyodrębnianie tekstu PDF w C#, zapewniając, że możesz z łatwością obsługiwać różne formaty PDF.


Omówione funkcje:


Podkreślenie wtyczki do wyodrębniania tekstu Aspose.PDF

Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET jest zaawansowanym rozwiązaniem do wyodrębniania tekstu z dokumentów PDF. Została zaprojektowana dla programistów pracujących z aplikacjami .NET, oferując trzy tryby działania:

  1. Tryb czysty: Wyodrębnia tekst, zachowując oryginalne formatowanie i strukturę.
  2. Tryb surowy: Wyodrębnia tekst bez formatowania.
  3. Tryb zwykły: Wyodrębnia tekst i usuwa formatowanie oraz znaki specjalne.

Korzyści:

  • Obsługuje przetwarzanie wsadowe wielu plików PDF, umożliwiając efektywne wyodrębnianie tekstu PDF w C#.
  • Oferuje konfigurowalne ustawienia wyodrębniania dla specyficznych potrzeb.
  • Bezpośrednia integracja z aplikacjami .NET zapewnia bezproblemowy przepływ pracy.
  • Zoptymalizowane do wysokiej prędkości, dokładnego wyodrębniania tekstu z minimalnym zużyciem zasobów.

Biblioteka do wyodrębniania tekstu PDF w C#

Biblioteka Aspose.PDF dla .NET jest kompleksowym narzędziem do manipulacji PDF i wyodrębniania tekstu. Zainstaluj ją za pomocą NuGet:

PM> Install-Package Aspose.PDF

Możesz także pobrać plik DLL, aby dołączyć go bezpośrednio do swojego projektu.


Wyodrębnij tekst z całego PDF w C#

Aby wyodrębnić cały tekst z pliku PDF, wykonaj następujące kroki:

  1. Załaduj PDF przy użyciu klasy Document.
  2. Utwórz obiekt TextAbsorber.
  3. Zastosuj absorber do wszystkich stron.
  4. Zapisz wyodrębniony tekst do pliku.

Przykład kodu:


Wyodrębnij tekst z wybranych stron w PDF

Aby wyodrębnić tekst z jednej strony:

  1. Załaduj PDF.
  2. Utwórz TextAbsorber.
  3. Zastosuj absorber do żądanej strony.
  4. Zapisz wyodrębniony tekst.

Przykład kodu:


Wyodrębnij tekst z konkretnego obszaru w PDF

Wyodrębnianie tekstu z określonych obszarów strony wiąże się z definiowaniem prostokątnych współrzędnych. Kroki obejmują:

  1. Załaduj PDF.
  2. Skonfiguruj TextSearchOptions dla obszaru.
  3. Zastosuj TextAbsorber do obszaru.
  4. Zapisz wyodrębniony tekst.

Przykład kodu:


Wyszukiwanie i wyodrębnianie tekstu za pomocą Regex

Wyodrębnij tekst pasujący do określonego wzorca za pomocą wyrażeń regularnych:

  1. Załaduj PDF.
  2. Zdefiniuj wzorzec regex.
  3. Zastosuj wzorzec za pomocą TextAbsorber.
  4. Wyodrębnij fragmenty tekstu pasujące do wzorca.

Przykład kodu:


Wyodrębnij dane tabeli jako tekst w C#

Aby wyodrębnić zawartość tabeli:

  1. Załaduj PDF.
  2. Użyj TableAbsorber, aby nawigować po strukturach tabel.
  3. Wyodrębniaj tekst komórka po komórce.

Przykład kodu:


Wyodrębnij wyróżniony tekst w PDF

Aby wyodrębnić wyróżniony tekst:

  1. Przejdź przez adnotacje.
  2. Filtruj TextMarkupAnnotation.
  3. Pobierz i zapisz wyróżnione fragmenty.

Przykład kodu:


Zoptymalizuj wyodrębnianie tekstu z niskim zużyciem pamięci

i) Używanie Reset() i FreeMemory():

  1. Wywołaj absorber.Reset() po przetworzeniu każdej strony.
  2. Zwalniaj pamięć zajmowaną przez strony za pomocą page.FreeMemory().

ii) Używanie MemorySaving Mode:

Ustaw TextExtractionOptions.TextFormattingMode, aby zoptymalizować pamięć.

Przykład kodu:


Darmowa biblioteka do wyodrębniania tekstu PDF w C#

Uzyskaj bezpłatną tymczasową licencję na nielimitowany dostęp do Aspose.PDF dla .NET i odblokuj jego pełny potencjał, umożliwiając funkcje do wydajnego wyodrębniania tekstu PDF bez zewnętrznych bibliotek.


Podsumowanie

Wtyczka do wyodrębniania tekstu Aspose.PDF dla .NET oferuje wszechstronne i efektywne rozwiązanie dla zadań wyodrębniania tekstu. Od całych dokumentów po konkretne strony lub obszary, usprawnia proces z precyzją i szybkością. Niezależnie od tego, czy pracujesz nad wyodrębnianiem tekstu PDF w .NET Core czy .NET 6, wypróbuj ją już dziś, aby uprościć swoje procesy wyodrębniania tekstu z PDF.


Powiązane artykuły: