Extract Text from PDF C#

استخراج متن از فایل‌های PDF یک نیاز رایج در وظایف پردازش سند است. این مقاله یک راهنمای جامع در مورد استفاده از پلاگین استخراج متن Aspose.PDF برای استخراج متن کارآمد و چندمنظوره در C# ارائه می‌دهد. خواه شما نیاز به استخراج متن از کل سند، صفحات خاص یا مناطق تعریف‌شده داشته باشید، پلاگین Aspose.PDF استخراج متن PDF با کارایی بالا را با حداقل تلاش تسهیل می‌کند.


ویژگی‌های پوشش داده شده:


معرفی پلاگین استخراج متن Aspose.PDF

پلاگین استخراج متن Aspose.PDF برای .NET یک راه‌حل قابل اعتماد برای استخراج متن از اسناد PDF است. این پلاگین به‌طور خاص برای توسعه‌دهندگان کار با برنامه‌های .NET طراحی شده و از استخراج متن PDF در هر دو .NET Framework و .NET Core پشتیبانی می‌کند. این پلاگین سه حالت عملیاتی ارائه می‌دهد:

  1. حالت خالص: متن را با حفظ قالب‌بندی و ساختار اصلی استخراج می‌کند.
  2. حالت خام: متن را بدون قالب‌بندی استخراج می‌کند.
  3. حالت ساده: متن را استخراج کرده و قالب‌بندی و کاراکترهای خاص را حذف می‌کند.

مزایا:

  • از پردازش دسته‌ای برای چندین PDF پشتیبانی می‌کند.
  • تنظیمات استخراج قابل سفارشی‌سازی برای برآورده کردن نیازهای خاص ارائه می‌دهد.
  • ادغام مستقیم با برنامه‌های .NET کارایی روانی را تضمین می‌کند.
  • بهینه‌سازی‌شده برای استخراج متن با سرعت بالا و دقت با حداقل استفاده از منابع.

کتابخانه استخراج متن PDF C#

کتابخانه Aspose.PDF برای .NET یک ابزار جامع برای توسعه‌دهندگان .NET است که به دنبال استخراج متن PDF با کارایی بالا در C# هستند. شما می‌توانید به راحتی آن را از طریق NuGet نصب کنید:

PM> Install-Package Aspose.PDF

به‌علاوه، می‌توانید DLL را دانلود کنید تا آن را به‌طور مستقیم در پروژه خود ادغام کنید و یک راه‌حل قابل اعتماد برای استخراج متن PDF در C# ارائه دهید.


استخراج متن از کل PDF در C#

برای استخراج تمام متن از یک PDF، مراحل زیر را دنبال کنید:

  1. PDF را با استفاده از کلاس Document بارگذاری کنید.
  2. یک شیء TextAbsorber ایجاد کنید.
  3. جاذب را به تمام صفحات اعمال کنید.
  4. متن استخراج‌شده را در یک فایل ذخیره کنید.

مثال کد:


استخراج متن از صفحات خاص در PDF

برای استخراج متن از یک صفحه:

  1. PDF را بارگذاری کنید.
  2. یک TextAbsorber ایجاد کنید.
  3. جاذب را به صفحه مورد نظر اعمال کنید.
  4. متن استخراج‌شده را ذخیره کنید.

مثال کد:


استخراج متن از مناطق خاص در PDF

استخراج متن از مناطق خاص یک صفحه مستلزم تعریف مختصات مستطیلی است. مراحل شامل:

  1. PDF را بارگذاری کنید.
  2. TextSearchOptions را برای منطقه تعریف‌شده پیکربندی کنید.
  3. TextAbsorber را به منطقه اعمال کنید.
  4. متن استخراج‌شده را ذخیره کنید.

مثال کد:


جستجو و استخراج متن با استفاده از Regex

برای استخراج متن مطابق با یک الگوی خاص با استفاده از عبارات منظم:

  1. PDF را بارگذاری کنید.
  2. یک الگوی regex تعریف کنید.
  3. الگو را با استفاده از TextAbsorber اعمال کنید.
  4. قطعات متن مطابق را استخراج کنید.

مثال کد:


استخراج داده‌های جدول به عنوان متن در C#

برای استخراج محتوای جدول:

  1. PDF را بارگذاری کنید.
  2. از TableAbsorber برای پیمایش در ساختارهای جدول استفاده کنید.
  3. متن را سلول به سلول استخراج کنید.

مثال کد:


استخراج متن هایلایت‌شده در PDF

برای استخراج متن هایلایت‌شده:

  1. از طریق یادداشت‌ها پیمایش کنید.
  2. TextMarkupAnnotation را فیلتر کنید.
  3. قطعات هایلایت‌شده را بازیابی و ذخیره کنید.

مثال کد:


بهینه‌سازی استخراج متن با استفاده کم از حافظه

i) استفاده از Reset() و FreeMemory():

  1. پس از پردازش هر صفحه، absorber.Reset() را فراخوانی کنید.
  2. حافظه نگه‌داری‌شده توسط صفحات را با استفاده از page.FreeMemory() آزاد کنید.

ii) استفاده از حالت MemorySaving:

TextExtractionOptions.TextFormattingMode را تنظیم کنید تا استفاده از حافظه را در حین استخراج متن PDF بهینه‌سازی کنید.

مثال کد:


کتابخانه رایگان استخراج متن PDF C#

یک مجوز موقت رایگان برای دسترسی نامحدود به Aspose.PDF برای .NET دریافت کنید و پتانسیل کامل آن را برای استخراج متن PDF کارآمد در C# باز کنید.


نتیجه‌گیری

پلاگین استخراج متن Aspose.PDF برای .NET یک راه‌حل چندمنظوره و کارآمد برای وظایف استخراج متن قابل اعتماد ارائه می‌دهد. از اسناد کامل تا صفحات یا مناطق خاص، این پلاگین فرآیند را با دقت و سرعت ساده می‌کند و آن را به یکی از بهترین کتابخانه‌های استخراج متن PDF C# تبدیل می‌کند. امروز آن را امتحان کنید تا گردش‌کارهای استخراج متن PDF خود را ساده‌تر کنید.


مقالات مرتبط: