Gescanntes PDF zu Word OCR csharp

Gescanntes PDF Dateien enthalten häufig Bilder, bei denen der Text weder auswählbar noch bearbeitbar ist. In verschiedenen Szenarien müssen Sie möglicherweise ein gescanntes PDF in ein Word-Dokument konvertieren. Dieser Artikel führt Sie durch den Prozess des konvertierens von gescannten PDF-Dateien in Word-Dokumente im DOCX oder DOC Format programmgesteuert mit C#.

Inhaltsverzeichnis

Gescanntes PDF zu Word DOCX Konverter – C# API Installation

Um mit gescannten PDF-Dateien zu arbeiten, können Sie eine optische Zeichenerkennung (OCR) mit der Aspose.OCR für .NET API durchführen. Nachdem der Text erkannt wurde, können Sie ein Word-Dokument mit der Aspose.Words für .NET API erstellen. Sie können diese APIs installieren, indem Sie die DLL-Dateien von den Neuen Veröffentlichungen herunterladen oder die folgenden NuGet-Installationsbefehle verwenden:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Gescanntes PDF programmgesteuert in Word-Dokument konvertieren mit C#

Um gescannte PDF-Dateien in Word-Dokumente zu konvertieren, müssen Sie den Text optisch erkennen. Die OCR-Operationen konvertieren das gescannte PDF in Text, der dann in ein Word-Dokument im DOC- oder DOCX-Format formatiert werden kann. Befolgen Sie diese Schritte, um ein gescanntes PDF in ein Word-Dokument zu konvertieren:

  1. Initialisieren Sie eine Instanz der AsposeOcr Klasse.
  2. Verwenden Sie die DocumentRecognitionSettings Klasse, um Bilder aus dem PDF zu erkennen.
  3. Erstellen Sie ein StringBuilder Objekt, um den erkannten Text zu speichern.
  4. Initialisieren Sie ein Word-Dokument mit der Document Klasse.
  5. Geben Sie die erforderlichen Schrift- und Absatzformatierungen an.
  6. Speichern Sie das Ausgabe-Word-Dokument im DOCX- oder DOC-Format.

Hier ist ein Codebeispiel, das zeigt, wie man eine gescannte PDF-Datei programmgesteuert in ein Word-Dokument mit C# konvertiert:

Kostenlose Evaluierungslizenz erhalten

Sie können die APIs in vollem Umfang testen, indem Sie eine kostenlose temporäre Lizenz anfordern.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie eine gescannte PDF-Datei programmgesteuert in ein Word-Dokument im DOCX- oder DOC-Format mit C# konvertieren. Darüber hinaus können Sie verschiedene andere OCR-bezogene Funktionen erkunden, indem Sie die Dokumentation besuchen. Wenn Sie Fragen haben, können Sie uns gerne im Forum kontaktieren.

Siehe auch

Tipp: Wenn Sie jemals eine PowerPoint-Präsentation in ein Word-Dokument konvertieren müssen, ziehen Sie in Betracht, den Aspose Präsentation zu Word-Dokument Konverter zu verwenden.

Durch die Nutzung des Aspose Plugins können Sie gescannte Dateien effektiv verwalten und Ihre .NET-Anwendungen für nur 99 $ verbessern.