Extract Text from PDF C#

การดึงข้อความจากไฟล์ PDF เป็นความต้องการที่พบบ่อยในงานการประมวลผลเอกสาร บทความนี้ให้คำแนะนำเชิงลึกเกี่ยวกับการใช้ ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับการดึงข้อความที่มีประสิทธิภาพและหลากหลาย ไม่ว่าคุณจะต้องการดึงข้อความจากเอกสารทั้งหมด หน้าจำนวนเฉพาะ หรือพื้นที่ที่กำหนด ปลั๊กอินของ Aspose.PDF ทำให้กระบวนการนั้นสะดวกและมีประสิทธิภาพสูง คู่มือนี้ครอบคลุมการดึงข้อความ PDF C# ที่มีประสิทธิภาพสูง ทำให้คุณสามารถจัดการกับรูปแบบ PDF ที่แตกต่างกันได้อย่างง่ายดาย


ฟีเจอร์ที่ครอบคลุม:


เน้นปลั๊กอิน Text Extractor ของ Aspose.PDF

ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เป็นโซลูชั่นขั้นสูงสำหรับการดึงข้อความจากเอกสาร PDF ถูกออกแบบมาสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET โดยมีโหมดการทำงานสามโหมด:

  1. โหมด Pure: ดึงข้อความพร้อมรักษาความเหมือนเดิมและโครงสร้าง
  2. โหมด Raw: ดึงข้อความโดยไม่มีการจัดรูปแบบ
  3. โหมด Plain: ดึงข้อความและเอาการจัดรูปแบบและอักขระพิเศษออก

ข้อดี:

  • รองรับการประมวลผลแบบกลุ่มสำหรับ PDF หลายไฟล์ ช่วยให้การดึงข้อความ PDF ใน C# มีประสิทธิภาพ
  • มีการตั้งค่าการดึงข้อมูลที่ปรับแต่งได้สำหรับความต้องการเฉพาะ
  • การบูรณาการโดยตรงกับแอปพลิเคชัน .NET ทำให้กระบวนการทำงานเป็นไปอย่างราบรื่น
  • ปรับให้เหมาะสมสำหรับการดึงข้อความที่รวดเร็วและแม่นยำโดยใช้ทรัพยกรูปแบบน้อยที่สุด

ไลบรารีการดึงข้อความ PDF ใน C#

ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับการจัดการ PDF และการดึงข้อความ ติดตั้งผ่าน NuGet:

PM> Install-Package Aspose.PDF

คุณสามารถ ดาวน์โหลด DLL เพื่อรวมเข้ากับโปรเจกต์ของคุณโดยตรง


ดึงข้อความจาก PDF ทั้งหมดใน C#

เพื่อดึงข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนเหล่านี้:

  1. โหลด PDF โดยใช้คลาส Document
  2. สร้างอ็อบเจ็กต์ TextAbsorber
  3. ใช้ตัวดูดกับทุกหน้า
  4. บันทึกข้อความที่ดึงออกมาไปยังไฟล์

ตัวอย่างโค้ด:


ดึงข้อความจากหน้าจำนวนเฉพาะใน PDF

เพื่อดึงข้อความจากหน้าหนึ่ง:

  1. โหลด PDF
  2. สร้าง TextAbsorber
  3. ใช้ตัวดูดกับหน้าที่ต้องการ
  4. บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด:


ดึงข้อความจากพื้นที่เฉพาะใน PDF

การดึงข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยมตามแนว คำแนะนำรวมถึง:

  1. โหลด PDF
  2. กำหนด TextSearchOptions สำหรับพื้นที่
  3. ใช้ TextAbsorber กับพื้นที่
  4. บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด:


ค้นหาและดึงข้อความโดยใช้ Regex

ดึงข้อความที่ตรงกับรูปแบบเฉพาะโดยใช้การแสดงออกปกติ (Regex):

  1. โหลด PDF
  2. กำหนดรูปแบบ regex
  3. ใช้รูปแบบโดยใช้ TextAbsorber
  4. ดึงข้อความที่ตรงกัน

ตัวอย่างโค้ด:


ดึงข้อมูลตารางเป็นข้อความใน C#

เพื่อดึงเนื้อหาตาราง:

  1. โหลด PDF
  2. ใช้ TableAbsorber เพื่อนำทางโครงสร้างตาราง
  3. ดึงข้อความทีละเซลล์

ตัวอย่างโค้ด:


ดึงข้อความที่เน้นใน PDF

เพื่อดึงข้อความที่เน้น:

  1. ทำซ้ำผ่านการอนุมัติ
  2. กรอง TextMarkupAnnotation
  3. ดึงและบันทึกช่วงข้อความที่เน้น

ตัวอย่างโค้ด:


ปรับการดึงข้อความโดยใช้หน่วยความจำต่ำ

i) การใช้ Reset() และ FreeMemory():

  1. เรียก absorber.Reset() หลังจากประมวลผลแต่ละหน้า
  2. ปล่อยหน่วยความจำที่มีไว้โดยหน้าใช้ page.FreeMemory()

ii) การใช้โหมด MemorySaving:

ตั้งค่า TextExtractionOptions.TextFormattingMode เพื่อปรับแต่งหน่วยความจำ

ตัวอย่างโค้ด:


ไลบรารีการดึงข้อความ PDF C# ฟรี

รับ ใบอนุญาตฟรีชั่วคราว เพื่อเข้าถึง Aspose.PDF สำหรับ .NET โดยไม่มีข้อจำกัดและปลดล็อกศักยภาพทั้งหมด ช่วยให้มีฟีเจอร์สำหรับการดึงข้อความ PDF ที่มีประสิทธิภาพสูงโดยไม่มีไลบรารีภายนอก


สรุป

ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET มอบโซลูชั่นที่หลากหลายและมีประสิทธิภาพสำหรับงานการดึงข้อความ จากเอกสารทั้งหมดไปจนถึงหน้าหรือพื้นที่เฉพาะ ช่วยให้กระบวนการทำงานรวดเร็วและแม่นยำ ไม่ว่าคุณจะทำงานด้านการดึงข้อความ PDF ใน .NET Core หรือ .NET 6 ลองใช้วันนี้เพื่อทำให้กระบวนการดึงข้อความ PDF ของคุณง่ายขึ้น


บทความที่เกี่ยวข้อง: