OCR PDF i ekstrakcja tekstu z PDF w C#

Dokumenty PDF są wszechobecne w operacjach biznesowych, często wymagając programowego dostępu do odczytu zeskanowanej zawartości. Ekstrakcja tekstu z zeskanowanych plików PDF może być skomplikowana, dlatego skuteczne narzędzia są niezbędne. W tym samouczku zbadamy jak wykonać OCR na dokumentach PDF i wyodrębnić tekst z PDF w C# przy użyciu potężnego Aspose.OCR dla API .NET, najwyższej klasy biblioteki do ekstrakcji tekstu z PDF w C# dostępnej do bezpłatnej oceny.

Czego się nauczysz

W tym artykule omówimy następujące tematy:

  1. Przegląd Aspose.OCR dla API .NET
  2. Kroki do wykonania OCR PDF i ekstrakcji tekstu
  3. Jak wykonać OCR na PDF i zapisać tekst
  4. Konwertowanie OCR PDF do Word
  5. Konwertowanie OCR PDF do JSON

Przegląd Aspose.OCR dla API .NET

Wykorzystamy Aspose.OCR dla API .NET, solidne rozwiązanie OCR PDF dla .NET Core. To API jest zaprojektowane do rozpoznawania tekstu z zeskanowanych obrazów, zdjęć z telefonów komórkowych i zrzutów ekranu, zwracając wyniki w różnych formatach dokumentów. Nie tylko konwertuje obrazy na tekst, ale także może tworzyć przeszukiwalne pliki PDF z zeskanowanych dokumentów, jednocześnie korygując błędy ortograficzne w rozpoznanym tekście, co czyni je jednym z najszybszych rozwiązań OCR PDF w C# dostępnych za jedyne 99 dolarów.

API zawiera klasę AsposeOcr, która oferuje wiele metod do operacji OCR. Szczególnie metoda RecognizePdf(string, DocumentRecognitionSettings) jest używana do wyodrębnienia tekstu z określonego dokumentu PDF. Klasa DocumentRecognitionSettings pozwala na dostosowanie procesu rozpoznawania, podczas gdy klasa RecognitionResult encapsuluje wyniki rozpoznawania.

Możesz pobrać DLL API lub zainstalować je za pomocą NuGet:

PM> Install-Package Aspose.OCR

Kroki do wykonania OCR PDF i ekstrakcji tekstu w C#

Wykonaj te kroki, aby przeprowadzić OCR na dokumentach PDF i wyodrębnić rozpoznany tekst:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjuj obiekt klasy DocumentRecognitionSettings.
  3. Określ język dla OCR.
  4. Uzyskaj RecognitionResult wywołując metodę RecognizePdf(), przekazując ścieżkę obrazu oraz obiekt DocumentRecognitionSettings.
  5. Przejdź przez listę RecognitionResult, aby wyświetlić zidentyfikowany tekst.

Oto przykład ilustrujący jak wykonać OCR na dokumentach PDF i wyodrębnić rozpoznany tekst w C#:

OCR PDF i ekstrakcja tekstu z PDF w C#

OCR PDF i ekstrakcja tekstu z PDF w C#

Jak wykonać OCR na PDF i zapisać tekst w C#

Aby wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst, wykonaj następujące kroki:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjuj obiekt klasy DocumentRecognitionSettings.
  3. Określ język dla OCR.
  4. Wywołaj metodę RecognizePdf(), aby uzyskać RecognitionResult.
  5. Zapisz tekst, używając metody SaveMultipageDocument(), która wymaga ścieżki do pliku wyjściowego, SaveFormat oraz obiektu RecognitionResult.

Oto przykład demonstrujący jak wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst w C#:

Wykonaj OCR na PDF i zapisz tekst w C#

Wykonaj OCR na PDF i zapisz tekst w C#

Konwertowanie OCR PDF do Word w C#

Aby przekonwertować zeskanowane dokumenty PDF do Word, wykonaj te same kroki, które opisano wcześniej, ale określ SaveFormat.Docx w ostatnim kroku.

Oto przykład ilustrujący jak wykonać OCR PDF i zapisać rozpoznany tekst jako dokument Word w C#:

OCR PDF i konwertowanie zeskanowanego PDF do Word w C#

OCR PDF i konwertowanie zeskanowanego PDF do Word w C#

Konwertowanie OCR PDF do JSON w C#

Aby zapisać rozpoznany tekst z dokumentów PDF w pliku JSON, wykonaj wcześniejsze kroki, zmieniając tylko ostatni krok na określenie SaveFormat.Json.

Oto przykład demonstrujący jak wykonać OCR PDF i zapisać rozpoznany tekst jako plik JSON w C#:

Uzyskaj bezpłatną licencję oceny

Możesz uzyskać bezpłatną tymczasową licencję, aby ocenić Aspose.OCR dla API .NET bez żadnych ograniczeń.

Podsumowanie

W tym samouczku nauczyliśmy się, jak wykonać OCR na dokumentach PDF i wyodrębnić tekst z PDF w C#. Zbadaliśmy również, jak zapisać rozpoznany tekst jako plik TXT, DOCX oraz JSON. Aby uzyskać więcej informacji na temat Aspose.OCR dla API .NET, sprawdź jego dokumentację. Jeśli masz jakiekolwiek pytania, skontaktuj się z nami na naszym forum.

Zobacz także