PDF ที่สแกนเป็น Word OCR C#

ไฟล์ PDF ที่สแกนมักมีภาพที่ข้อความไม่สามารถเลือกหรือแก้ไขได้ ในหลายสถานการณ์ คุณอาจต้องการแปลง PDF ที่สแกนเป็นเอกสาร Word บทความนี้จะนำคุณผ่านกระบวนการ แปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ในรูปแบบ DOCX หรือ DOC โดยโปรแกรมโดยใช้ C#

สารบัญ

ตัวแปลง PDF ที่สแกนเป็น Word DOCX – การติดตั้ง C# API

ในการทำงานกับไฟล์ PDF ที่สแกน คุณสามารถทำการรู้จำอักขระออปติคัล (OCR) โดยใช้ API Aspose.OCR for .NET หลังจากที่รู้จำข้อความแล้ว คุณสามารถสร้างเอกสาร Word โดยใช้ API Aspose.Words for .NET คุณสามารถติดตั้ง API เหล่านี้ได้โดยการดาวน์โหลดไฟล์ DLL จาก New Releases หรือโดยใช้คำสั่งการติดตั้ง NuGet ดังต่อไปนี้:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

แปลง PDF ที่สแกนเป็นเอกสาร Word โดยโปรแกรมโดยใช้ C#

ในการแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word คุณจะต้องรู้จำข้อความโดยออปติคัล การดำเนินการ OCR จะทำการแปลง PDF ที่สแกนเป็นข้อความ ซึ่งสามารถจัดรูปแบบเป็นเอกสาร Word ในรูปแบบ DOC หรือ DOCX ได้ ทำตามขั้นตอนเหล่านี้เพื่อแปลง PDF ที่สแกนเป็นเอกสาร Word:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. ใช้คลาส DocumentRecognitionSettings เพื่อรู้จำภาพจาก PDF
  3. สร้างออบเจ็กต์ StringBuilder เพื่อบันทึกข้อความที่รู้จำ
  4. สร้างเอกสาร Word โดยใช้คลาส Document
  5. กำหนดฟอนต์และการจัดรูปแบบย่อหน้าให้เหมาะสม
  6. บันทึกเอกสาร Word ที่ส่งออกในรูปแบบ DOCX หรือ DOC

นี่คือตัวอย่างโค้ดที่แสดงวิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word โดยโปรแกรมโดยใช้ C#:

รับใบอนุญาตการประเมินผลฟรี

คุณสามารถทดสอบ API ได้อย่างเต็มที่โดยการขอ ใบอนุญาตชั่วคราวฟรี

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ในรูปแบบ DOCX หรือ DOC โดยโปรแกรมโดยใช้ C# นอกจากนี้ คุณสามารถสำรวจฟีเจอร์ที่เกี่ยวข้องกับ OCR อื่น ๆ ได้โดยการเยี่ยมชม เอกสาร หากคุณมีคำถามใด ๆ สามารถติดต่อเราผ่าน ฟอรัม

ดูเพิ่มเติม

เคล็ดลับ: หากคุณต้องการแปลงการนำเสนอ PowerPoint เป็นเอกสาร Word ให้พิจารณาใช้ตัวแปลง Aspose Presentation to Word Document

โดยการใช้ปลั๊กอิน Aspose คุณสามารถจัดการไฟล์ที่สแกนได้อย่างมีประสิทธิภาพและปรับปรุงแอปพลิเคชัน .NET ของคุณในราคาเพียง $99