PDF-Dokumente sind in Geschäftsabläufen allgegenwärtig und erfordern oft programmgesteuerten Zugriff, um gescannte Inhalte zu lesen. Das Extrahieren von Text aus gescannten PDF-Dateien kann komplex sein, weshalb effektive Werkzeuge unerlässlich sind. In diesem Tutorial werden wir erkunden, wie man OCR PDF-Dokumente durchführt und Text aus PDF in C# extrahiert mit der leistungsstarken Aspose.OCR für .NET API, einer erstklassigen C# PDF Text-Extraktionsbibliothek, die zur kostenlosen Evaluierung verfügbar ist.
Was Sie Lernen Werden
In diesem Artikel werden wir die folgenden Themen behandeln:
- Überblick über die Aspose.OCR für .NET API
- Schritte zur OCR PDF und Text extrahieren
- Wie man OCR auf PDF durchführt und Text speichert
- Konvertierung von OCR PDF zu Word
- Konvertierung von OCR PDF zu JSON
Überblick über die Aspose.OCR für .NET API
Wir werden die Aspose.OCR für .NET API nutzen, eine robuste .NET Core PDF OCR-Lösung. Diese API ist darauf ausgelegt, Text aus gescannten Bildern, Smartphone-Fotos und Screenshots zu erkennen und Ergebnisse in verschiedenen Dokumentformaten zurückzugeben. Sie konvertiert nicht nur Bilder in Text, sondern kann auch durchsuchbare PDFs aus Scans erstellen, während sie Rechtschreibfehler im erkannten Text korrigiert, was sie zu einer der schnellsten C# PDF OCR-Lösungen macht, die für nur 99 $ erhältlich ist.
Die API bietet die AsposeOcr Klasse, die mehrere Methoden für OCR-Operationen bereitstellt. Besonders hervorzuheben ist die RecognizePdf(string, DocumentRecognitionSettings) Methode, die verwendet wird, um Text aus einem bestimmten PDF-Dokument zu extrahieren. Die DocumentRecognitionSettings Klasse ermöglicht die Anpassung des Erkennungsprozesses, während die RecognitionResult Klasse die Ergebnisse der Erkennung kapselt.
Sie können die DLL der API herunterladen oder sie über NuGet installieren:
PM> Install-Package Aspose.OCR
Schritte zur OCR PDF und Text extrahieren in C#
Befolgen Sie diese Schritte, um OCR auf PDF-Dokumenten durchzuführen und den erkannten Text zu extrahieren:
- Erstellen Sie eine Instanz der AsposeOcr Klasse.
- Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
- Geben Sie die Sprache für OCR an.
- Erhalten Sie das RecognitionResult, indem Sie die RecognizePdf() Methode aufrufen und den Bildpfad sowie das DocumentRecognitionSettings Objekt übergeben.
- Durchlaufen Sie die RecognitionResult Liste, um den identifizierten Text anzuzeigen.
Hier ist ein Beispiel, das zeigt, wie man OCR PDF-Dokumente durchführt und den erkannten Text in C# extrahiert:
Wie man OCR auf PDF durchführt und Text in C# speichert
Um OCR auf PDF-Dokumenten durchzuführen und den erkannten Text zu speichern, befolgen Sie diese Schritte:
- Erstellen Sie eine Instanz der AsposeOcr Klasse.
- Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
- Geben Sie die Sprache für OCR an.
- Rufen Sie die RecognizePdf() Methode auf, um das RecognitionResult zu erhalten.
- Speichern Sie den Text mit der SaveMultipageDocument() Methode, die den Ausgabedateipfad, das SaveFormat und das RecognitionResult Objekt benötigt.
Hier ist ein Beispiel, das zeigt, wie man OCR PDF-Dokumente durchführt und den erkannten Text in C# speichert:
Konvertierung von OCR PDF zu Word in C#
Um gescannte PDF-Dokumente in Word zu konvertieren, befolgen Sie die gleichen Schritte wie zuvor, aber geben Sie SaveFormat.Docx im letzten Schritt an.
Hier ist ein Beispiel, das zeigt, wie man OCR PDF durchführt und den erkannten Text als Word-Dokument in C# speichert:
Konvertierung von OCR PDF zu JSON in C#
Um den erkannten Text aus PDF-Dokumenten in einer JSON-Datei zu speichern, befolgen Sie die vorherigen Schritte, wobei der einzige Unterschied darin besteht, SaveFormat.Json im letzten Schritt anzugeben.
Hier ist ein Beispiel, das zeigt, wie man OCR PDF durchführt und den erkannten Text als JSON-Datei in C# speichert:
Holen Sie sich eine kostenlose Evaluierungslizenz
Sie können eine kostenlose temporäre Lizenz erhalten, um die Aspose.OCR für .NET API ohne Einschränkungen zu evaluieren.
Fazit
In diesem Tutorial haben wir gelernt, wie man OCR auf PDF-Dokumenten durchführt und Text aus PDF in C# extrahiert. Wir haben auch erkundet, wie man den erkannten Text als TXT, DOCX und JSON Datei speichert. Für weitere Informationen zur Aspose.OCR für .NET API werfen Sie einen Blick in die Dokumentation. Wenn Sie Fragen haben, können Sie uns gerne in unserem Forum kontaktieren.