Các tệp PDF quét thường chứa hình ảnh nơi văn bản không thể chọn hoặc chỉnh sửa. Trong nhiều tình huống, bạn có thể cần chuyển đổi PDF quét thành tài liệu Word. Bài viết này sẽ hướng dẫn bạn qua quy trình chuyển đổi các tệp PDF quét thành tài liệu Word ở định dạng DOCX hoặc DOC một cách lập trình bằng C#.
Mục lục
- Công cụ chuyển đổi PDF quét sang Word DOCX – Cài đặt API C#
- Chuyển đổi PDF quét thành tài liệu Word một cách lập trình bằng C#
- Nhận Giấy phép Đánh giá Miễn phí
- Kết luận
- Xem thêm
Công cụ chuyển đổi PDF quét sang Word DOCX – Cài đặt API C#
Để làm việc với các tệp PDF quét, bạn có thể thực hiện Nhận diện Ký tự Quang học (OCR) bằng cách sử dụng API Aspose.OCR for .NET. Sau khi nhận diện văn bản, bạn có thể tạo một tài liệu Word bằng API Aspose.Words for .NET. Bạn có thể cài đặt các API này bằng cách tải xuống các tệp DLL từ Phiên bản Mới hoặc bằng cách sử dụng các lệnh cài đặt NuGet sau:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Chuyển đổi PDF quét thành tài liệu Word một cách lập trình bằng C#
Để chuyển đổi các tệp PDF quét thành tài liệu Word, bạn sẽ cần nhận diện văn bản bằng cách quang học. Các thao tác OCR sẽ chuyển đổi PDF quét thành văn bản, sau đó có thể được định dạng thành tài liệu Word ở định dạng DOC hoặc DOCX. Làm theo các bước sau để chuyển đổi PDF quét thành tài liệu Word:
- Khởi tạo một thể hiện của lớp AsposeOcr.
- Sử dụng lớp DocumentRecognitionSettings để nhận diện hình ảnh từ PDF.
- Tạo một đối tượng StringBuilder để lưu trữ văn bản đã nhận diện.
- Khởi tạo một tài liệu Word bằng cách sử dụng lớp Document.
- Chỉ định định dạng phông chữ và đoạn cần thiết.
- Lưu tài liệu Word đầu ra ở định dạng DOCX hoặc DOC.
Dưới đây là một đoạn mã minh họa cách chuyển đổi tệp PDF quét thành tài liệu Word một cách lập trình bằng C#:
Nhận Giấy phép Đánh giá Miễn phí
Bạn có thể kiểm tra các API với đầy đủ khả năng bằng cách yêu cầu giấy phép tạm thời miễn phí.
Kết luận
Trong bài viết này, bạn đã học cách chuyển đổi tệp PDF quét thành tài liệu Word ở định dạng DOCX hoặc DOC một cách lập trình bằng C#. Ngoài ra, bạn có thể khám phá nhiều tính năng khác liên quan đến OCR bằng cách truy cập tài liệu. Nếu bạn có bất kỳ câu hỏi nào, hãy thoải mái liên hệ với chúng tôi trên diễn đàn.
Xem thêm
Mẹo: Nếu bạn cần chuyển đổi một bài thuyết trình PowerPoint thành tài liệu Word, hãy xem xét việc sử dụng công cụ chuyển đổi Aspose Từ Bài thuyết trình sang Tài liệu Word.
Bằng cách sử dụng Plugin Aspose, bạn có thể quản lý hiệu quả các tệp quét và nâng cao ứng dụng .NET của mình chỉ với 99 đô la.