Tài liệu PDF rất phổ biến trong hoạt động kinh doanh, thường yêu cầu truy cập lập trình để đọc nội dung quét. Việc trích xuất văn bản từ các tệp PDF quét có thể phức tạp, vì vậy các công cụ hiệu quả là rất cần thiết. Trong hướng dẫn này, chúng ta sẽ khám phá cách thực hiện OCR trên tài liệu PDF và trích xuất văn bản từ PDF trong C# bằng cách sử dụng Aspose.OCR cho API .NET, một thư viện trích xuất văn bản PDF C# hàng đầu có sẵn để đánh giá miễn phí.
Những Gì Bạn Sẽ Học
Trong bài viết này, chúng ta sẽ đề cập đến các chủ đề sau:
- Tổng Quan về Aspose.OCR cho API .NET
- Các Bước Thực Hiện OCR PDF và Trích Xuất Văn Bản
- Cách Thực Hiện OCR trên PDF và Lưu Văn Bản
- Chuyển Đổi OCR PDF thành Word
- Chuyển Đổi OCR PDF thành JSON
Tổng Quan về Aspose.OCR cho API .NET
Chúng ta sẽ sử dụng Aspose.OCR cho API .NET, một giải pháp OCR PDF .NET Core mạnh mẽ. API này được thiết kế để nhận diện văn bản từ hình ảnh quét, ảnh chụp từ điện thoại thông minh và ảnh chụp màn hình, trả về kết quả dưới nhiều định dạng tài liệu khác nhau. Nó không chỉ chuyển đổi hình ảnh thành văn bản, mà còn có thể tạo PDF có thể tìm kiếm từ các bản quét trong khi sửa lỗi chính tả trong văn bản đã nhận diện, làm cho nó trở thành một trong những giải pháp OCR PDF C# nhanh nhất có giá chỉ 99 đô la.
API có lớp AsposeOcr cung cấp nhiều phương thức cho các hoạt động OCR. Đặc biệt, phương thức RecognizePdf(string, DocumentRecognitionSettings) được sử dụng để trích xuất văn bản từ một tài liệu PDF cụ thể. Lớp DocumentRecognitionSettings cho phép tùy chỉnh quy trình nhận diện, trong khi lớp RecognitionResult đóng gói kết quả của quá trình nhận diện.
Bạn có thể tải xuống DLL của API hoặc cài đặt nó qua NuGet:
PM> Install-Package Aspose.OCR
Các Bước Thực Hiện OCR PDF và Trích Xuất Văn Bản trong C#
Thực hiện theo các bước sau để thực hiện OCR trên tài liệu PDF và trích xuất văn bản đã nhận diện:
- Tạo một thể hiện của lớp AsposeOcr.
- Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
- Chỉ định ngôn ngữ cho OCR.
- Lấy RecognitionResult bằng cách gọi phương thức RecognizePdf(), truyền vào đường dẫn hình ảnh và đối tượng DocumentRecognitionSettings.
- Lặp qua danh sách RecognitionResult để hiển thị văn bản đã nhận diện.
Dưới đây là một ví dụ minh họa cách thực hiện OCR trên tài liệu PDF và trích xuất văn bản đã nhận diện trong C#:
Cách Thực Hiện OCR trên PDF và Lưu Văn Bản trong C#
Để thực hiện OCR trên tài liệu PDF và lưu văn bản đã nhận diện, hãy làm theo các bước sau:
- Tạo một thể hiện của lớp AsposeOcr.
- Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
- Chỉ định ngôn ngữ cho OCR.
- Gọi phương thức RecognizePdf() để lấy RecognitionResult.
- Lưu văn bản bằng cách sử dụng phương thức SaveMultipageDocument(), yêu cầu đường dẫn tệp đầu ra, SaveFormat, và đối tượng RecognitionResult.
Dưới đây là một ví dụ minh họa cách thực hiện OCR trên tài liệu PDF và lưu văn bản đã nhận diện trong C#:
Chuyển Đổi OCR PDF thành Word trong C#
Để chuyển đổi tài liệu PDF quét thành Word, hãy làm theo các bước tương tự như đã nêu trước đó, nhưng chỉ định SaveFormat.Docx ở bước cuối cùng.
Dưới đây là một ví dụ minh họa cách thực hiện OCR PDF và lưu văn bản đã nhận diện dưới dạng tài liệu Word trong C#:
Chuyển Đổi OCR PDF thành JSON trong C#
Để lưu văn bản đã nhận diện từ tài liệu PDF vào tệp JSON, hãy làm theo các bước trước đó với thay đổi duy nhất là chỉ định SaveFormat.Json ở bước cuối cùng.
Dưới đây là một ví dụ minh họa cách thực hiện OCR PDF và lưu văn bản đã nhận diện dưới dạng tệp JSON trong C#:
Nhận Giấy Phép Đánh Giá Miễn Phí
Bạn có thể nhận giấy phép tạm thời miễn phí để đánh giá Aspose.OCR cho API .NET mà không có bất kỳ hạn chế nào.
Kết Luận
Trong hướng dẫn này, chúng ta đã học cách thực hiện OCR trên tài liệu PDF và trích xuất văn bản từ PDF trong C#. Chúng ta cũng đã khám phá cách lưu văn bản đã nhận diện dưới dạng tệp TXT, DOCX, và JSON. Để biết thêm thông tin về Aspose.OCR cho API .NET, hãy xem tài liệu. Nếu bạn có bất kỳ câu hỏi nào, hãy liên hệ với chúng tôi trên diễn đàn.