เอกสาร PDF พบได้ทั่วไปในกิจกรรมทางธุรกิจ ซึ่งมักต้องการการเข้าถึงแบบโปรแกรมเพื่ออ่านเนื้อหาที่สแกน การดึงข้อความจากไฟล์ PDF ที่สแกนอาจซับซ้อน นี่คือเหตุผลที่เครื่องมือที่มีประสิทธิภาพเป็นสิ่งจำเป็น ในบทช่วยสอนนี้เราจะสำรวจ วิธีการ OCR เอกสาร PDF และดึงข้อความจาก PDF ใน C# โดยใช้ Aspose.OCR สำหรับ .NET API ซึ่งเป็นไลบรารีการดึงข้อความ PDF C# ชั้นนำที่สามารถประเมินได้ฟรี
สิ่งที่คุณจะได้เรียนรู้
ในบทความนี้เราจะครอบคลุมหัวข้อต่อไปนี้:
- ภาพรวมของ Aspose.OCR สำหรับ .NET API
- ขั้นตอนในการ OCR PDF และดึงข้อความ
- วิธีการทำ OCR บน PDF และบันทึกข้อความ
- การแปลง OCR PDF เป็น Word
- การแปลง OCR PDF เป็น JSON
ภาพรวมของ Aspose.OCR สำหรับ .NET API
เราจะใช้ Aspose.OCR สำหรับ .NET API ซึ่งเป็นโซลูชัน PDF OCR .NET Core ที่แข็งแกร่ง API นี้ออกแบบมาเพื่อรู้จำข้อความจากภาพที่สแกน ภาพถ่ายจากสมาร์ทโฟน และภาพหน้าจอ โดยส่งคืนผลลัพธ์ในรูปแบบเอกสารที่หลากหลาย ไม่เพียงแต่แปลงภาพเป็นข้อความ แต่ยังสามารถสร้าง PDF ที่ค้นหาได้จากการสแกนในขณะที่แก้ไขข้อผิดพลาดในการสะกดในข้อความที่รู้จำ ทำให้เป็นหนึ่งในโซลูชัน C# PDF OCR ที่เร็วที่สุดในราคาเพียง 99 ดอลลาร์
API มีคลาส AsposeOcr ซึ่งมีวิธีการหลายอย่างสำหรับการดำเนินการ OCR โดยเฉพาะอย่างยิ่ง วิธี RecognizePdf(string, DocumentRecognitionSettings) ใช้เพื่อดึงข้อความจากเอกสาร PDF ที่ระบุ คลาส DocumentRecognitionSettings ช่วยให้สามารถปรับแต่งกระบวนการรู้จำได้ ในขณะที่คลาส RecognitionResult จะบรรจุผลลัพธ์ของการรู้จำ
คุณสามารถ ดาวน์โหลด DLL ของ API หรือทำการติดตั้งผ่าน NuGet:
PM> Install-Package Aspose.OCR
ขั้นตอนในการ OCR PDF และดึงข้อความใน C#
ทำตามขั้นตอนเหล่านี้เพื่อทำ OCR บนเอกสาร PDF และดึงข้อความที่รู้จำ:
- สร้างอินสแตนซ์ของคลาส AsposeOcr
- เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
- ระบุภาษาสำหรับ OCR
- รับ RecognitionResult โดยเรียกใช้เมธอด RecognizePdf() โดยส่งพาธของภาพและวัตถุ DocumentRecognitionSettings
- วนรอบผ่านรายการ RecognitionResult เพื่อแสดงข้อความที่ระบุ
นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และดึงข้อความที่รู้จำใน C#:
วิธีการทำ OCR บน PDF และบันทึกข้อความใน C#
เพื่อทำ OCR บนเอกสาร PDF และบันทึกข้อความที่รู้จำ ให้ทำตามขั้นตอนเหล่านี้:
- สร้างอินสแตนซ์ของคลาส AsposeOcr
- เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
- ระบุภาษาสำหรับ OCR
- เรียกใช้เมธอด RecognizePdf() เพื่อรับ RecognitionResult
- บันทึกข้อความโดยใช้เมธอด SaveMultipageDocument() ซึ่งต้องการพาธไฟล์เอาต์พุต, SaveFormat และวัตถุ RecognitionResult
นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จำใน C#:
การแปลง OCR PDF เป็น Word ใน C#
เพื่อแปลงเอกสาร PDF ที่สแกนเป็น Word ให้ทำตามขั้นตอนเดียวกันที่ได้กล่าวไว้ก่อนหน้านี้ แต่ระบุ SaveFormat.Docx ในขั้นตอนสุดท้าย
นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่รู้จำเป็นเอกสาร Word ใน C#:
การแปลง OCR PDF เป็น JSON ใน C#
เพื่อบันทึกข้อความที่รู้จำจากเอกสาร PDF ลงในไฟล์ JSON ให้ทำตามขั้นตอนก่อนหน้านี้ โดยมีการเปลี่ยนแปลงเพียงอย่างเดียวคือระบุ SaveFormat.Json ในขั้นตอนสุดท้าย
นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่รู้จำเป็นไฟล์ JSON ใน C#:
รับใบอนุญาตการประเมินฟรี
คุณสามารถ ขอใบอนุญาตชั่วคราวฟรี เพื่อประเมิน Aspose.OCR สำหรับ .NET API โดยไม่มีข้อจำกัดใดๆ
สรุป
ในบทช่วยสอนนี้เราได้เรียนรู้วิธีการทำ OCR บนเอกสาร PDF และดึงข้อความจาก PDF ใน C# นอกจากนี้เรายังสำรวจวิธีการบันทึกข้อความที่รู้จำเป็นไฟล์ TXT, DOCX และ JSON สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.OCR สำหรับ .NET API โปรดตรวจสอบ เอกสาร หากคุณมีคำถามใดๆ โปรดติดต่อเราที่ ฟอรัม