การแยกข้อความจากไฟล์ PDF เป็นความต้องการทั่วไปในงานประมวลผลเอกสาร บทความนี้นำเสนอคู่มือที่ลึกซึ้งเกี่ยวกับการใช้ ปลั๊กอิน Text Extractor ของ Aspose.PDF เพื่อการแยกข้อความที่มีประสิทธิภาพและหลากหลายใน C# ไม่ว่าคุณจะต้องการแยกข้อความจากเอกสารทั้งหมด หน้าสpecific หรือพื้นที่ที่กำหนด Aspose.PDF’s plugin จะช่วยให้การแยกข้อความ PDF มีประสิทธิภาพสูงด้วยความพยายามน้อยที่สุด
คุณสมบัติที่ครอบคลุม:
- แยกข้อความจาก PDF ทั้งหมด
- แยกข้อความจากหน้าที่เฉพาะ
- แยกข้อความจากพื้นที่เฉพาะ
- ค้นหาและแยกข้อความโดยใช้ Regex
- แยกข้อมูลตารางเป็นข้อความ
- แยกข้อความที่เน้น
- การแยกข้อความที่ปรับให้เหมาะสมด้วยการใช้หน่วยความจำต่ำ
การเน้นปลั๊กอิน Text Extractor ของ Aspose.PDF
ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เป็นโซลูชันที่เชื่อถือได้สำหรับการแยกข้อความจากเอกสาร PDF มันถูกออกแบบมาโดยเฉพาะสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET รองรับทั้งการแยกข้อความ PDF ใน .NET Framework และ .NET Core ปลั๊กอินนี้ให้โหมดการทำงานสามโหมด:
- โหมด Pure: แยกข้อความในขณะที่รักษาฟอร์แมตและโครงสร้างต้นฉบับ
- โหมด Raw: แยกข้อความโดยไม่ฟอร์แมต
- โหมด Plain: แยกข้อความและลบฟอร์แมตและอักขระพิเศษ
ประโยชน์:
- รองรับการประมวลผลแบบแบตช์สำหรับไฟล์ PDF หลายไฟล์
- มีการตั้งค่าการแยกที่สามารถปรับให้เหมาะสมกับความต้องการเฉพาะ
- การรวมโดยตรงกับแอปพลิเคชัน .NET ทำให้การทำงานราบรื่น
- ได้รับการปรับให้เหมาะสมสำหรับการแยกข้อความด้วยความเร็วสูง และถูกต้องด้วยการใช้ทรัพยากรน้อยที่สุด
ไลบรารีการแยกข้อความ PDF ใน C#
ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับนักพัฒนา .NET ที่มองหาการแยกข้อความ PDF ใน C# ที่มีประสิทธิภาพสูง ติดตั้งได้จาก NuGet:
PM> Install-Package Aspose.PDF
คุณยังสามารถ ดาวน์โหลด DLL เพื่อรวมเข้ากับโปรเจกต์ของคุณโดยตรงเป็นโซลูชันการแยกข้อความ PDF ใน C# ที่เชื่อถือได้
แยกข้อความจาก PDF ทั้งหมดใน C#
เพื่อแยกข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนนี้:
- โหลด PDF โดยใช้ Document class
- สร้างอ็อบเจกต์ TextAbsorber
- ใช้งาน absorber กับทุกหน้า
- บันทึกข้อความที่แยกออกมาเป็นไฟล์
ตัวอย่างโค้ด:
แยกข้อความจากหน้าที่เฉพาะใน PDF
เพื่อแยกข้อความจากหน้าหนึ่ง:
- โหลด PDF
- สร้าง TextAbsorber
- ใช้งาน absorber กับหน้าที่ต้องการ
- บันทึกข้อความที่แยกออกมา
ตัวอย่างโค้ด:
แยกข้อความจากพื้นที่เฉพาะใน PDF
การแยกข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยม ข้อมูลขั้นตอนมีดังนี้:
- โหลด PDF
- ตั้งค่า TextSearchOptions สำหรับพื้นที่ที่กำหนด
- ใช้งาน TextAbsorber กับพื้นที่
- บันทึกข้อความที่แยกออกมา
ตัวอย่างโค้ด:
ค้นหาและแยกข้อความโดยใช้ Regex
แยกข้อความที่ตรงตามรูปแบบเฉพาะโดยใช้การบริการของรูประเบียบ:
- โหลด PDF
- กำหนดรูปแบบ regex
- ใช้งานรูปแบบโดยใช้ TextAbsorber
- แยกข้อความที่ตรงกับรูปแบบ
ตัวอย่างโค้ด:
แยกข้อมูลตารางเป็นข้อความใน C#
เพื่อแยกเนื้อหาของตาราง:
- โหลด PDF
- ใช้ TableAbsorber เพื่อสำรวจโครงสร้างของตาราง
- แยกข้อความทีละเซลล์
ตัวอย่างโค้ด:
แยกข้อความที่เน้นใน PDF
เพื่อแยกข้อความที่เน้น:
- ทำการวนรอบผ่านการตั้งชื่อ
- กรอง [TextMarkupAnnotation][16]
- ดึงและบันทึกข้อความที่เน้น
ตัวอย่างโค้ด:
ปรับแต่งการแยกข้อความด้วยการใช้หน่วยความจำต่ำ
i) การใช้ Reset() และ FreeMemory():
- เรียกใช้
absorber.Reset()
หลังจากการประมวลผลแต่ละหน้า - ปลดปล่อยหน่วยความจำที่ถูกเก็บโดยเพจโดยใช้
page.FreeMemory()
.
ii) การใช้โหมด MemorySaving:
ตั้งค่า TextExtractionOptions.TextFormattingMode
เพื่อเพิ่มประสิทธิภาพการใช้หน่วยความจำระหว่างการแยกข้อความ PDF
ตัวอย่างโค้ด:
ไลบรารีการแยกข้อความ PDF ฟรีใน C#
รับ [ใบอนุญาตชั่วคราวฟรี][10] สำหรับการเข้าถึง Aspose.PDF สำหรับ .NET อย่างไม่จำกัด และปลดล็อกศักยภาพเต็มรูปแบบสำหรับการแยกข้อความ PDF ใน C# อย่างมีประสิทธิภาพ
บทสรุป
ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เสนอวิธีการที่หลากหลายและมีประสิทธิภาพสำหรับงานการแยกข้อความที่เชื่อถือได้ จากเอกสารทั้งหมดไปยังหน้าหรือพื้นที่เฉพาะ มันทำให้กระบวนการนี้ง่ายขึ้นด้วยความแม่นยำและความเร็ว ทำให้มันเป็นหนึ่งในไลบรารีการแยกข้อความ PDF ใน C# ที่ดีที่สุดในตลาด ลองใช้วันนี้เพื่อทำให้การแยกข้อความ PDF ของคุณเป็นเรื่องง่ายขึ้น