استخراج متن از فایلهای PDF یک نیاز رایج در وظایف پردازش سند است. این مقاله یک راهنمای جامع در مورد استفاده از پلاگین استخراج متن Aspose.PDF برای استخراج متن کارآمد و چندمنظوره در C# ارائه میدهد. خواه شما نیاز به استخراج متن از کل سند، صفحات خاص یا مناطق تعریفشده داشته باشید، پلاگین Aspose.PDF استخراج متن PDF با کارایی بالا را با حداقل تلاش تسهیل میکند.
ویژگیهای پوشش داده شده:
- استخراج متن از کل PDF
- استخراج متن از صفحات خاص
- استخراج متن از یک منطقه خاص
- جستجو و استخراج متن با استفاده از Regex
- استخراج دادههای جدول به عنوان متن
- استخراج متن هایلایتشده
- بهینهسازی استخراج متن با استفاده کم از حافظه
معرفی پلاگین استخراج متن Aspose.PDF
پلاگین استخراج متن Aspose.PDF برای .NET یک راهحل قابل اعتماد برای استخراج متن از اسناد PDF است. این پلاگین بهطور خاص برای توسعهدهندگان کار با برنامههای .NET طراحی شده و از استخراج متن PDF در هر دو .NET Framework و .NET Core پشتیبانی میکند. این پلاگین سه حالت عملیاتی ارائه میدهد:
- حالت خالص: متن را با حفظ قالببندی و ساختار اصلی استخراج میکند.
- حالت خام: متن را بدون قالببندی استخراج میکند.
- حالت ساده: متن را استخراج کرده و قالببندی و کاراکترهای خاص را حذف میکند.
مزایا:
- از پردازش دستهای برای چندین PDF پشتیبانی میکند.
- تنظیمات استخراج قابل سفارشیسازی برای برآورده کردن نیازهای خاص ارائه میدهد.
- ادغام مستقیم با برنامههای .NET کارایی روانی را تضمین میکند.
- بهینهسازیشده برای استخراج متن با سرعت بالا و دقت با حداقل استفاده از منابع.
کتابخانه استخراج متن PDF C#
کتابخانه Aspose.PDF برای .NET یک ابزار جامع برای توسعهدهندگان .NET است که به دنبال استخراج متن PDF با کارایی بالا در C# هستند. شما میتوانید به راحتی آن را از طریق NuGet نصب کنید:
PM> Install-Package Aspose.PDF
بهعلاوه، میتوانید DLL را دانلود کنید تا آن را بهطور مستقیم در پروژه خود ادغام کنید و یک راهحل قابل اعتماد برای استخراج متن PDF در C# ارائه دهید.
استخراج متن از کل PDF در C#
برای استخراج تمام متن از یک PDF، مراحل زیر را دنبال کنید:
- PDF را با استفاده از کلاس Document بارگذاری کنید.
- یک شیء TextAbsorber ایجاد کنید.
- جاذب را به تمام صفحات اعمال کنید.
- متن استخراجشده را در یک فایل ذخیره کنید.
مثال کد:
استخراج متن از صفحات خاص در PDF
برای استخراج متن از یک صفحه:
- PDF را بارگذاری کنید.
- یک TextAbsorber ایجاد کنید.
- جاذب را به صفحه مورد نظر اعمال کنید.
- متن استخراجشده را ذخیره کنید.
مثال کد:
استخراج متن از مناطق خاص در PDF
استخراج متن از مناطق خاص یک صفحه مستلزم تعریف مختصات مستطیلی است. مراحل شامل:
- PDF را بارگذاری کنید.
- TextSearchOptions را برای منطقه تعریفشده پیکربندی کنید.
- TextAbsorber را به منطقه اعمال کنید.
- متن استخراجشده را ذخیره کنید.
مثال کد:
جستجو و استخراج متن با استفاده از Regex
برای استخراج متن مطابق با یک الگوی خاص با استفاده از عبارات منظم:
- PDF را بارگذاری کنید.
- یک الگوی regex تعریف کنید.
- الگو را با استفاده از TextAbsorber اعمال کنید.
- قطعات متن مطابق را استخراج کنید.
مثال کد:
استخراج دادههای جدول به عنوان متن در C#
برای استخراج محتوای جدول:
- PDF را بارگذاری کنید.
- از TableAbsorber برای پیمایش در ساختارهای جدول استفاده کنید.
- متن را سلول به سلول استخراج کنید.
مثال کد:
استخراج متن هایلایتشده در PDF
برای استخراج متن هایلایتشده:
- از طریق یادداشتها پیمایش کنید.
- TextMarkupAnnotation را فیلتر کنید.
- قطعات هایلایتشده را بازیابی و ذخیره کنید.
مثال کد:
بهینهسازی استخراج متن با استفاده کم از حافظه
i) استفاده از Reset() و FreeMemory():
- پس از پردازش هر صفحه،
absorber.Reset()
را فراخوانی کنید. - حافظه نگهداریشده توسط صفحات را با استفاده از
page.FreeMemory()
آزاد کنید.
ii) استفاده از حالت MemorySaving:
TextExtractionOptions.TextFormattingMode
را تنظیم کنید تا استفاده از حافظه را در حین استخراج متن PDF بهینهسازی کنید.
مثال کد:
کتابخانه رایگان استخراج متن PDF C#
یک مجوز موقت رایگان برای دسترسی نامحدود به Aspose.PDF برای .NET دریافت کنید و پتانسیل کامل آن را برای استخراج متن PDF کارآمد در C# باز کنید.
نتیجهگیری
پلاگین استخراج متن Aspose.PDF برای .NET یک راهحل چندمنظوره و کارآمد برای وظایف استخراج متن قابل اعتماد ارائه میدهد. از اسناد کامل تا صفحات یا مناطق خاص، این پلاگین فرآیند را با دقت و سرعت ساده میکند و آن را به یکی از بهترین کتابخانههای استخراج متن PDF C# تبدیل میکند. امروز آن را امتحان کنید تا گردشکارهای استخراج متن PDF خود را سادهتر کنید.