การดึงข้อความจากไฟล์ PDF เป็นความต้องการที่พบบ่อยในงานการประมวลผลเอกสาร บทความนี้ให้คำแนะนำเชิงลึกเกี่ยวกับการใช้ ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับการดึงข้อความที่มีประสิทธิภาพและหลากหลาย ไม่ว่าคุณจะต้องการดึงข้อความจากเอกสารทั้งหมด หน้าจำนวนเฉพาะ หรือพื้นที่ที่กำหนด ปลั๊กอินของ Aspose.PDF ทำให้กระบวนการนั้นสะดวกและมีประสิทธิภาพสูง คู่มือนี้ครอบคลุมการดึงข้อความ PDF C# ที่มีประสิทธิภาพสูง ทำให้คุณสามารถจัดการกับรูปแบบ PDF ที่แตกต่างกันได้อย่างง่ายดาย
ฟีเจอร์ที่ครอบคลุม:
- ดึงข้อความจาก PDF ทั้งหมด
- ดึงข้อความจากหน้าจำนวนเฉพาะ
- ดึงข้อความจากพื้นที่เฉพาะ
- ค้นหาและดึงข้อความโดยใช้ Regex
- ดึงข้อมูลตารางเป็นข้อความ
- ดึงข้อความที่เน้น
- การดึงข้อความที่ปรับให้เหมาะสมโดยใช้หน่วยความจำต่ำ
เน้นปลั๊กอิน Text Extractor ของ Aspose.PDF
ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เป็นโซลูชั่นขั้นสูงสำหรับการดึงข้อความจากเอกสาร PDF ถูกออกแบบมาสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET โดยมีโหมดการทำงานสามโหมด:
- โหมด Pure: ดึงข้อความพร้อมรักษาความเหมือนเดิมและโครงสร้าง
- โหมด Raw: ดึงข้อความโดยไม่มีการจัดรูปแบบ
- โหมด Plain: ดึงข้อความและเอาการจัดรูปแบบและอักขระพิเศษออก
ข้อดี:
- รองรับการประมวลผลแบบกลุ่มสำหรับ PDF หลายไฟล์ ช่วยให้การดึงข้อความ PDF ใน C# มีประสิทธิภาพ
- มีการตั้งค่าการดึงข้อมูลที่ปรับแต่งได้สำหรับความต้องการเฉพาะ
- การบูรณาการโดยตรงกับแอปพลิเคชัน .NET ทำให้กระบวนการทำงานเป็นไปอย่างราบรื่น
- ปรับให้เหมาะสมสำหรับการดึงข้อความที่รวดเร็วและแม่นยำโดยใช้ทรัพยกรูปแบบน้อยที่สุด
ไลบรารีการดึงข้อความ PDF ใน C#
ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับการจัดการ PDF และการดึงข้อความ ติดตั้งผ่าน NuGet:
PM> Install-Package Aspose.PDF
คุณสามารถ ดาวน์โหลด DLL เพื่อรวมเข้ากับโปรเจกต์ของคุณโดยตรง
ดึงข้อความจาก PDF ทั้งหมดใน C#
เพื่อดึงข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนเหล่านี้:
- โหลด PDF โดยใช้คลาส Document
- สร้างอ็อบเจ็กต์ TextAbsorber
- ใช้ตัวดูดกับทุกหน้า
- บันทึกข้อความที่ดึงออกมาไปยังไฟล์
ตัวอย่างโค้ด:
ดึงข้อความจากหน้าจำนวนเฉพาะใน PDF
เพื่อดึงข้อความจากหน้าหนึ่ง:
- โหลด PDF
- สร้าง TextAbsorber
- ใช้ตัวดูดกับหน้าที่ต้องการ
- บันทึกข้อความที่ดึงออกมา
ตัวอย่างโค้ด:
ดึงข้อความจากพื้นที่เฉพาะใน PDF
การดึงข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยมตามแนว คำแนะนำรวมถึง:
- โหลด PDF
- กำหนด TextSearchOptions สำหรับพื้นที่
- ใช้ TextAbsorber กับพื้นที่
- บันทึกข้อความที่ดึงออกมา
ตัวอย่างโค้ด:
ค้นหาและดึงข้อความโดยใช้ Regex
ดึงข้อความที่ตรงกับรูปแบบเฉพาะโดยใช้การแสดงออกปกติ (Regex):
- โหลด PDF
- กำหนดรูปแบบ regex
- ใช้รูปแบบโดยใช้ TextAbsorber
- ดึงข้อความที่ตรงกัน
ตัวอย่างโค้ด:
ดึงข้อมูลตารางเป็นข้อความใน C#
เพื่อดึงเนื้อหาตาราง:
- โหลด PDF
- ใช้ TableAbsorber เพื่อนำทางโครงสร้างตาราง
- ดึงข้อความทีละเซลล์
ตัวอย่างโค้ด:
ดึงข้อความที่เน้นใน PDF
เพื่อดึงข้อความที่เน้น:
- ทำซ้ำผ่านการอนุมัติ
- กรอง TextMarkupAnnotation
- ดึงและบันทึกช่วงข้อความที่เน้น
ตัวอย่างโค้ด:
ปรับการดึงข้อความโดยใช้หน่วยความจำต่ำ
i) การใช้ Reset() และ FreeMemory():
- เรียก
absorber.Reset()
หลังจากประมวลผลแต่ละหน้า - ปล่อยหน่วยความจำที่มีไว้โดยหน้าใช้
page.FreeMemory()
ii) การใช้โหมด MemorySaving:
ตั้งค่า TextExtractionOptions.TextFormattingMode
เพื่อปรับแต่งหน่วยความจำ
ตัวอย่างโค้ด:
ไลบรารีการดึงข้อความ PDF C# ฟรี
รับ ใบอนุญาตฟรีชั่วคราว เพื่อเข้าถึง Aspose.PDF สำหรับ .NET โดยไม่มีข้อจำกัดและปลดล็อกศักยภาพทั้งหมด ช่วยให้มีฟีเจอร์สำหรับการดึงข้อความ PDF ที่มีประสิทธิภาพสูงโดยไม่มีไลบรารีภายนอก
สรุป
ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET มอบโซลูชั่นที่หลากหลายและมีประสิทธิภาพสำหรับงานการดึงข้อความ จากเอกสารทั้งหมดไปจนถึงหน้าหรือพื้นที่เฉพาะ ช่วยให้กระบวนการทำงานรวดเร็วและแม่นยำ ไม่ว่าคุณจะทำงานด้านการดึงข้อความ PDF ใน .NET Core หรือ .NET 6 ลองใช้วันนี้เพื่อทำให้กระบวนการดึงข้อความ PDF ของคุณง่ายขึ้น