OCR PDF และดึงข้อความจาก PDF ใน C#

เอกสาร PDF พบได้ทั่วไปในกิจกรรมทางธุรกิจ ซึ่งมักต้องการการเข้าถึงแบบโปรแกรมเพื่ออ่านเนื้อหาที่สแกน การดึงข้อความจากไฟล์ PDF ที่สแกนอาจซับซ้อน นี่คือเหตุผลที่เครื่องมือที่มีประสิทธิภาพเป็นสิ่งจำเป็น ในบทช่วยสอนนี้เราจะสำรวจ วิธีการ OCR เอกสาร PDF และดึงข้อความจาก PDF ใน C# โดยใช้ Aspose.OCR สำหรับ .NET API ซึ่งเป็นไลบรารีการดึงข้อความ PDF C# ชั้นนำที่สามารถประเมินได้ฟรี

สิ่งที่คุณจะได้เรียนรู้

ในบทความนี้เราจะครอบคลุมหัวข้อต่อไปนี้:

  1. ภาพรวมของ Aspose.OCR สำหรับ .NET API
  2. ขั้นตอนในการ OCR PDF และดึงข้อความ
  3. วิธีการทำ OCR บน PDF และบันทึกข้อความ
  4. การแปลง OCR PDF เป็น Word
  5. การแปลง OCR PDF เป็น JSON

ภาพรวมของ Aspose.OCR สำหรับ .NET API

เราจะใช้ Aspose.OCR สำหรับ .NET API ซึ่งเป็นโซลูชัน PDF OCR .NET Core ที่แข็งแกร่ง API นี้ออกแบบมาเพื่อรู้จำข้อความจากภาพที่สแกน ภาพถ่ายจากสมาร์ทโฟน และภาพหน้าจอ โดยส่งคืนผลลัพธ์ในรูปแบบเอกสารที่หลากหลาย ไม่เพียงแต่แปลงภาพเป็นข้อความ แต่ยังสามารถสร้าง PDF ที่ค้นหาได้จากการสแกนในขณะที่แก้ไขข้อผิดพลาดในการสะกดในข้อความที่รู้จำ ทำให้เป็นหนึ่งในโซลูชัน C# PDF OCR ที่เร็วที่สุดในราคาเพียง 99 ดอลลาร์

API มีคลาส AsposeOcr ซึ่งมีวิธีการหลายอย่างสำหรับการดำเนินการ OCR โดยเฉพาะอย่างยิ่ง วิธี RecognizePdf(string, DocumentRecognitionSettings) ใช้เพื่อดึงข้อความจากเอกสาร PDF ที่ระบุ คลาส DocumentRecognitionSettings ช่วยให้สามารถปรับแต่งกระบวนการรู้จำได้ ในขณะที่คลาส RecognitionResult จะบรรจุผลลัพธ์ของการรู้จำ

คุณสามารถ ดาวน์โหลด DLL ของ API หรือทำการติดตั้งผ่าน NuGet:

PM> Install-Package Aspose.OCR

ขั้นตอนในการ OCR PDF และดึงข้อความใน C#

ทำตามขั้นตอนเหล่านี้เพื่อทำ OCR บนเอกสาร PDF และดึงข้อความที่รู้จำ:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
  3. ระบุภาษาสำหรับ OCR
  4. รับ RecognitionResult โดยเรียกใช้เมธอด RecognizePdf() โดยส่งพาธของภาพและวัตถุ DocumentRecognitionSettings
  5. วนรอบผ่านรายการ RecognitionResult เพื่อแสดงข้อความที่ระบุ

นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และดึงข้อความที่รู้จำใน C#:

OCR PDF และดึงข้อความจาก PDF ใน C#

OCR PDF และดึงข้อความจาก PDF ใน C#

วิธีการทำ OCR บน PDF และบันทึกข้อความใน C#

เพื่อทำ OCR บนเอกสาร PDF และบันทึกข้อความที่รู้จำ ให้ทำตามขั้นตอนเหล่านี้:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
  3. ระบุภาษาสำหรับ OCR
  4. เรียกใช้เมธอด RecognizePdf() เพื่อรับ RecognitionResult
  5. บันทึกข้อความโดยใช้เมธอด SaveMultipageDocument() ซึ่งต้องการพาธไฟล์เอาต์พุต, SaveFormat และวัตถุ RecognitionResult

นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จำใน C#:

ทำ OCR บน PDF และบันทึกข้อความใน C#

ทำ OCR บน PDF และบันทึกข้อความใน C#

การแปลง OCR PDF เป็น Word ใน C#

เพื่อแปลงเอกสาร PDF ที่สแกนเป็น Word ให้ทำตามขั้นตอนเดียวกันที่ได้กล่าวไว้ก่อนหน้านี้ แต่ระบุ SaveFormat.Docx ในขั้นตอนสุดท้าย

นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่รู้จำเป็นเอกสาร Word ใน C#:

OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#

OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#

การแปลง OCR PDF เป็น JSON ใน C#

เพื่อบันทึกข้อความที่รู้จำจากเอกสาร PDF ลงในไฟล์ JSON ให้ทำตามขั้นตอนก่อนหน้านี้ โดยมีการเปลี่ยนแปลงเพียงอย่างเดียวคือระบุ SaveFormat.Json ในขั้นตอนสุดท้าย

นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่รู้จำเป็นไฟล์ JSON ใน C#:

รับใบอนุญาตการประเมินฟรี

คุณสามารถ ขอใบอนุญาตชั่วคราวฟรี เพื่อประเมิน Aspose.OCR สำหรับ .NET API โดยไม่มีข้อจำกัดใดๆ

สรุป

ในบทช่วยสอนนี้เราได้เรียนรู้วิธีการทำ OCR บนเอกสาร PDF และดึงข้อความจาก PDF ใน C# นอกจากนี้เรายังสำรวจวิธีการบันทึกข้อความที่รู้จำเป็นไฟล์ TXT, DOCX และ JSON สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.OCR สำหรับ .NET API โปรดตรวจสอบ เอกสาร หากคุณมีคำถามใดๆ โปรดติดต่อเราที่ ฟอรัม

ดูเพิ่มเติม