OCR PDF และดึงข้อความจาก PDF ใน C# โดยใช้ Aspose.OCR สำหรับ .NET API | Aspose Blog | File Format Processing Plugins for C# .NET Core

เอกสาร PDF พบได้ทั่วไปในกิจกรรมทางธุรกิจ ซึ่งมักต้องการการเข้าถึงแบบโปรแกรมเพื่ออ่านเนื้อหาที่สแกน การดึงข้อความจากไฟล์ PDF ที่สแกนอาจซับซ้อน นี่คือเหตุผลที่เครื่องมือที่มีประสิทธิภาพเป็นสิ่งจำเป็น ในบทช่วยสอนนี้เราจะสำรวจ วิธีการ OCR เอกสาร PDF และดึงข้อความจาก PDF ใน C# โดยใช้ Aspose.OCR สำหรับ .NET API ซึ่งเป็นไลบรารีการดึงข้อความ PDF C# ชั้นนำที่สามารถประเมินได้ฟรี

สิ่งที่คุณจะได้เรียนรู้

ในบทความนี้เราจะครอบคลุมหัวข้อต่อไปนี้:

ภาพรวมของ Aspose.OCR สำหรับ .NET API

เราจะใช้ Aspose.OCR สำหรับ .NET API ซึ่งเป็นโซลูชัน PDF OCR .NET Core ที่แข็งแกร่ง API นี้ออกแบบมาเพื่อรู้จำข้อความจากภาพที่สแกน ภาพถ่ายจากสมาร์ทโฟน และภาพหน้าจอ โดยส่งคืนผลลัพธ์ในรูปแบบเอกสารที่หลากหลาย ไม่เพียงแต่แปลงภาพเป็นข้อความ แต่ยังสามารถสร้าง PDF ที่ค้นหาได้จากการสแกนในขณะที่แก้ไขข้อผิดพลาดในการสะกดในข้อความที่รู้จำ ทำให้เป็นหนึ่งในโซลูชัน C# PDF OCR ที่เร็วที่สุดในราคาเพียง 99 ดอลลาร์

API มีคลาส AsposeOcr ซึ่งมีวิธีการหลายอย่างสำหรับการดำเนินการ OCR โดยเฉพาะอย่างยิ่ง วิธี RecognizePdf(string, DocumentRecognitionSettings) ใช้เพื่อดึงข้อความจากเอกสาร PDF ที่ระบุ คลาส DocumentRecognitionSettings ช่วยให้สามารถปรับแต่งกระบวนการรู้จำได้ ในขณะที่คลาส RecognitionResult จะบรรจุผลลัพธ์ของการรู้จำ

คุณสามารถ ดาวน์โหลด DLL ของ API หรือทำการติดตั้งผ่าน NuGet:

PM> Install-Package Aspose.OCR

ขั้นตอนในการ OCR PDF และดึงข้อความใน C#

ทำตามขั้นตอนเหล่านี้เพื่อทำ OCR บนเอกสาร PDF และดึงข้อความที่รู้จำ:

สร้างอินสแตนซ์ของคลาส AsposeOcr
เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
ระบุภาษาสำหรับ OCR
รับ RecognitionResult โดยเรียกใช้เมธอด RecognizePdf() โดยส่งพาธของภาพและวัตถุ DocumentRecognitionSettings
วนรอบผ่านรายการ RecognitionResult เพื่อแสดงข้อความที่ระบุ

นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และดึงข้อความที่รู้จำใน C#:

วิธีการทำ OCR บน PDF และบันทึกข้อความใน C#

เพื่อทำ OCR บนเอกสาร PDF และบันทึกข้อความที่รู้จำ ให้ทำตามขั้นตอนเหล่านี้:

สร้างอินสแตนซ์ของคลาส AsposeOcr
เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
ระบุภาษาสำหรับ OCR
เรียกใช้เมธอด RecognizePdf() เพื่อรับ RecognitionResult
บันทึกข้อความโดยใช้เมธอด SaveMultipageDocument() ซึ่งต้องการพาธไฟล์เอาต์พุต, SaveFormat และวัตถุ RecognitionResult

นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จำใน C#:

การแปลง OCR PDF เป็น Word ใน C#

เพื่อแปลงเอกสาร PDF ที่สแกนเป็น Word ให้ทำตามขั้นตอนเดียวกันที่ได้กล่าวไว้ก่อนหน้านี้ แต่ระบุ SaveFormat.Docx ในขั้นตอนสุดท้าย

นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่รู้จำเป็นเอกสาร Word ใน C#:

OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#

การแปลง OCR PDF เป็น JSON ใน C#

เพื่อบันทึกข้อความที่รู้จำจากเอกสาร PDF ลงในไฟล์ JSON ให้ทำตามขั้นตอนก่อนหน้านี้ โดยมีการเปลี่ยนแปลงเพียงอย่างเดียวคือระบุ SaveFormat.Json ในขั้นตอนสุดท้าย

นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่รู้จำเป็นไฟล์ JSON ใน C#:

รับใบอนุญาตการประเมินฟรี

คุณสามารถ ขอใบอนุญาตชั่วคราวฟรี เพื่อประเมิน Aspose.OCR สำหรับ .NET API โดยไม่มีข้อจำกัดใดๆ

สรุป

ในบทช่วยสอนนี้เราได้เรียนรู้วิธีการทำ OCR บนเอกสาร PDF และดึงข้อความจาก PDF ใน C# นอกจากนี้เรายังสำรวจวิธีการบันทึกข้อความที่รู้จำเป็นไฟล์ TXT, DOCX และ JSON สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.OCR สำหรับ .NET API โปรดตรวจสอบ เอกสาร หากคุณมีคำถามใดๆ โปรดติดต่อเราที่ ฟอรัม

สิ่งที่คุณจะได้เรียนรู้#

ภาพรวมของ Aspose.OCR สำหรับ .NET API#

ขั้นตอนในการ OCR PDF และดึงข้อความใน C##

วิธีการทำ OCR บน PDF และบันทึกข้อความใน C##

การแปลง OCR PDF เป็น Word ใน C##

การแปลง OCR PDF เป็น JSON ใน C##

รับใบอนุญาตการประเมินฟรี#

สรุป#

ดูเพิ่มเติม#