Extract Text from PDF C#

การแยกข้อความจากไฟล์ PDF เป็นความต้องการทั่วไปในงานประมวลผลเอกสาร บทความนี้นำเสนอคู่มือที่ลึกซึ้งเกี่ยวกับการใช้ ปลั๊กอิน Text Extractor ของ Aspose.PDF เพื่อการแยกข้อความที่มีประสิทธิภาพและหลากหลายใน C# ไม่ว่าคุณจะต้องการแยกข้อความจากเอกสารทั้งหมด หน้าสpecific หรือพื้นที่ที่กำหนด Aspose.PDF’s plugin จะช่วยให้การแยกข้อความ PDF มีประสิทธิภาพสูงด้วยความพยายามน้อยที่สุด


คุณสมบัติที่ครอบคลุม:


การเน้นปลั๊กอิน Text Extractor ของ Aspose.PDF

ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เป็นโซลูชันที่เชื่อถือได้สำหรับการแยกข้อความจากเอกสาร PDF มันถูกออกแบบมาโดยเฉพาะสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET รองรับทั้งการแยกข้อความ PDF ใน .NET Framework และ .NET Core ปลั๊กอินนี้ให้โหมดการทำงานสามโหมด:

  1. โหมด Pure: แยกข้อความในขณะที่รักษาฟอร์แมตและโครงสร้างต้นฉบับ
  2. โหมด Raw: แยกข้อความโดยไม่ฟอร์แมต
  3. โหมด Plain: แยกข้อความและลบฟอร์แมตและอักขระพิเศษ

ประโยชน์:

  • รองรับการประมวลผลแบบแบตช์สำหรับไฟล์ PDF หลายไฟล์
  • มีการตั้งค่าการแยกที่สามารถปรับให้เหมาะสมกับความต้องการเฉพาะ
  • การรวมโดยตรงกับแอปพลิเคชัน .NET ทำให้การทำงานราบรื่น
  • ได้รับการปรับให้เหมาะสมสำหรับการแยกข้อความด้วยความเร็วสูง และถูกต้องด้วยการใช้ทรัพยากรน้อยที่สุด

ไลบรารีการแยกข้อความ PDF ใน C#

ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับนักพัฒนา .NET ที่มองหาการแยกข้อความ PDF ใน C# ที่มีประสิทธิภาพสูง ติดตั้งได้จาก NuGet:

PM> Install-Package Aspose.PDF

คุณยังสามารถ ดาวน์โหลด DLL เพื่อรวมเข้ากับโปรเจกต์ของคุณโดยตรงเป็นโซลูชันการแยกข้อความ PDF ใน C# ที่เชื่อถือได้


แยกข้อความจาก PDF ทั้งหมดใน C#

เพื่อแยกข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนนี้:

  1. โหลด PDF โดยใช้ Document class
  2. สร้างอ็อบเจกต์ TextAbsorber
  3. ใช้งาน absorber กับทุกหน้า
  4. บันทึกข้อความที่แยกออกมาเป็นไฟล์

ตัวอย่างโค้ด:


แยกข้อความจากหน้าที่เฉพาะใน PDF

เพื่อแยกข้อความจากหน้าหนึ่ง:

  1. โหลด PDF
  2. สร้าง TextAbsorber
  3. ใช้งาน absorber กับหน้าที่ต้องการ
  4. บันทึกข้อความที่แยกออกมา

ตัวอย่างโค้ด:


แยกข้อความจากพื้นที่เฉพาะใน PDF

การแยกข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยม ข้อมูลขั้นตอนมีดังนี้:

  1. โหลด PDF
  2. ตั้งค่า TextSearchOptions สำหรับพื้นที่ที่กำหนด
  3. ใช้งาน TextAbsorber กับพื้นที่
  4. บันทึกข้อความที่แยกออกมา

ตัวอย่างโค้ด:


ค้นหาและแยกข้อความโดยใช้ Regex

แยกข้อความที่ตรงตามรูปแบบเฉพาะโดยใช้การบริการของรูประเบียบ:

  1. โหลด PDF
  2. กำหนดรูปแบบ regex
  3. ใช้งานรูปแบบโดยใช้ TextAbsorber
  4. แยกข้อความที่ตรงกับรูปแบบ

ตัวอย่างโค้ด:


แยกข้อมูลตารางเป็นข้อความใน C#

เพื่อแยกเนื้อหาของตาราง:

  1. โหลด PDF
  2. ใช้ TableAbsorber เพื่อสำรวจโครงสร้างของตาราง
  3. แยกข้อความทีละเซลล์

ตัวอย่างโค้ด:


แยกข้อความที่เน้นใน PDF

เพื่อแยกข้อความที่เน้น:

  1. ทำการวนรอบผ่านการตั้งชื่อ
  2. กรอง [TextMarkupAnnotation][16]
  3. ดึงและบันทึกข้อความที่เน้น

ตัวอย่างโค้ด:


ปรับแต่งการแยกข้อความด้วยการใช้หน่วยความจำต่ำ

i) การใช้ Reset() และ FreeMemory():

  1. เรียกใช้ absorber.Reset() หลังจากการประมวลผลแต่ละหน้า
  2. ปลดปล่อยหน่วยความจำที่ถูกเก็บโดยเพจโดยใช้ page.FreeMemory().

ii) การใช้โหมด MemorySaving:

ตั้งค่า TextExtractionOptions.TextFormattingMode เพื่อเพิ่มประสิทธิภาพการใช้หน่วยความจำระหว่างการแยกข้อความ PDF

ตัวอย่างโค้ด:


ไลบรารีการแยกข้อความ PDF ฟรีใน C#

รับ [ใบอนุญาตชั่วคราวฟรี][10] สำหรับการเข้าถึง Aspose.PDF สำหรับ .NET อย่างไม่จำกัด และปลดล็อกศักยภาพเต็มรูปแบบสำหรับการแยกข้อความ PDF ใน C# อย่างมีประสิทธิภาพ


บทสรุป

ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เสนอวิธีการที่หลากหลายและมีประสิทธิภาพสำหรับงานการแยกข้อความที่เชื่อถือได้ จากเอกสารทั้งหมดไปยังหน้าหรือพื้นที่เฉพาะ มันทำให้กระบวนการนี้ง่ายขึ้นด้วยความแม่นยำและความเร็ว ทำให้มันเป็นหนึ่งในไลบรารีการแยกข้อความ PDF ใน C# ที่ดีที่สุดในตลาด ลองใช้วันนี้เพื่อทำให้การแยกข้อความ PDF ของคุณเป็นเรื่องง่ายขึ้น


บทความที่เกี่ยวข้อง: