تعتبر مستندات PDF شائعة في العمليات التجارية، وغالبًا ما تتطلب الوصول البرمجي لقراءة المحتوى الممسوح ضوئيًا. يمكن أن يكون استخراج النص من ملفات PDF الممسوحة ضوئيًا معقدًا، ولهذا السبب تعتبر الأدوات الفعالة ضرورية. في هذا الدليل، سنستكشف كيفية إجراء OCR على مستندات PDF واستخراج النص من PDF في C# باستخدام Aspose.OCR لواجهة برمجة التطبيقات .NET، وهي مكتبة استخراج نص PDF C# من الطراز الأول متاحة للتقييم المجاني.
ما الذي ستتعلمه
في هذه المقالة، سنغطي المواضيع التالية:
- نظرة عامة على Aspose.OCR لواجهة برمجة التطبيقات .NET
- خطوات إجراء OCR على PDF واستخراج النص
- كيفية إجراء OCR على PDF وحفظ النص
- تحويل OCR PDF إلى Word
- تحويل OCR PDF إلى JSON
نظرة عامة على Aspose.OCR لواجهة برمجة التطبيقات .NET
سنستخدم Aspose.OCR لواجهة برمجة التطبيقات .NET، وهو حل قوي لـ PDF OCR على .NET Core. تم تصميم هذه الواجهة للتعرف على النص من الصور الممسوحة ضوئيًا، وصور الهواتف الذكية، ولقطات الشاشة، وإرجاع النتائج في تنسيقات مستندات مختلفة. لا تقوم فقط بتحويل الصور إلى نص، بل يمكنها أيضًا إنشاء ملفات PDF قابلة للبحث من المسحات مع تصحيح الأخطاء الإملائية في النص المعترف به، مما يجعلها واحدة من أسرع حلول C# OCR PDF المتاحة مقابل 99 دولارًا فقط.
تحتوي الواجهة على فئة AsposeOcr التي توفر طرقًا متعددة لعمليات OCR. ومن الجدير بالذكر أن الطريقة RecognizePdf(string, DocumentRecognitionSettings) تُستخدم لاستخراج النص من مستند PDF محدد. تتيح فئة DocumentRecognitionSettings تخصيص عملية التعرف، بينما encapsulates فئة RecognitionResult نتائج التعرف.
يمكنك تنزيل DLL للواجهة أو تثبيتها عبر NuGet:
PM> Install-Package Aspose.OCR
خطوات إجراء OCR على PDF واستخراج النص في C#
اتبع هذه الخطوات لإجراء OCR على مستندات PDF واستخراج النص المعترف به:
- إنشاء مثيل من فئة AsposeOcr.
- تهيئة كائن من فئة DocumentRecognitionSettings.
- تحديد اللغة لـ OCR.
- الحصول على RecognitionResult عن طريق استدعاء طريقة RecognizePdf()، مع تمرير مسار الصورة وكائن DocumentRecognitionSettings.
- التكرار عبر قائمة RecognitionResult لعرض النص المعرف.
إليك مثال يوضح كيفية إجراء OCR على مستندات PDF واستخراج النص المعترف به في C#:
كيفية إجراء OCR على PDF وحفظ النص في C#
لإجراء OCR على مستندات PDF وحفظ النص المعترف به، اتبع هذه الخطوات:
- إنشاء مثيل من فئة AsposeOcr.
- تهيئة كائن من فئة DocumentRecognitionSettings.
- تحديد اللغة لـ OCR.
- استدعاء طريقة RecognizePdf() للحصول على RecognitionResult.
- حفظ النص باستخدام طريقة SaveMultipageDocument()، والتي تتطلب مسار الملف الناتج، وSaveFormat، وكائن RecognitionResult.
إليك مثال يوضح كيفية إجراء OCR على مستندات PDF وحفظ النص المعترف به في C#:
تحويل OCR PDF إلى Word في C#
لتحويل مستندات PDF الممسوحة ضوئيًا إلى Word، اتبع نفس الخطوات الموضحة سابقًا، ولكن حدد SaveFormat.Docx في الخطوة الأخيرة.
إليك مثال يوضح كيفية إجراء OCR على PDF وحفظ النص المعترف به كوثيقة Word في C#:
تحويل OCR PDF إلى JSON في C#
لحفظ النص المعترف به من مستندات PDF في ملف JSON، اتبع الخطوات السابقة مع تغيير واحد فقط وهو تحديد SaveFormat.Json في الخطوة الأخيرة.
إليك مثال يوضح كيفية إجراء OCR على PDF وحفظ النص المعترف به كملف JSON في C#:
الحصول على ترخيص تقييم مجاني
يمكنك الحصول على ترخيص مؤقت مجاني لتقييم Aspose.OCR لواجهة برمجة التطبيقات .NET دون أي قيود.
الخاتمة
في هذا الدليل، تعلمنا كيفية إجراء OCR على مستندات PDF واستخراج النص من PDF في C#. كما استكشفنا كيفية حفظ النص المعترف به كملف TXT، وDOCX، وJSON. لمزيد من المعلومات حول Aspose.OCR لواجهة برمجة التطبيقات .NET، تحقق من الوثائق. إذا كانت لديك أي أسئلة، فلا تتردد في التواصل معنا على المنتدى.