C#에서 Aspose.OCR for .NET API를 사용하여 OCR PDF 및 PDF에서 텍스트 추출하기 | Aspose Blog | File Format Processing Plugins for C# .NET Core

PDF 문서는 비즈니스 운영에서 널리 사용되며, 스캔한 내용을 읽기 위해 프로그래밍 방식의 접근이 종종 필요합니다. 스캔한 PDF 파일에서 텍스트를 추출하는 것은 복잡할 수 있으므로 효과적인 도구가 필수적입니다. 이 튜토리얼에서는 강력한 Aspose.OCR for .NET API를 사용하여 C#에서 PDF 문서의 OCR 및 PDF에서 텍스트를 추출하는 방법을 살펴보겠습니다. 이 API는 무료 평가판으로 제공되는 최고급 C# PDF 텍스트 추출 라이브러리입니다.

배울 내용

이 기사에서는 다음 주제를 다룹니다:

Aspose.OCR for .NET API 개요

우리는 강력한 .NET Core PDF OCR 솔루션인 Aspose.OCR for .NET API를 사용할 것입니다. 이 API는 스캔한 이미지, 스마트폰 사진 및 스크린샷에서 텍스트를 인식하도록 설계되었으며, 다양한 문서 형식으로 결과를 반환합니다. 이미지를 텍스트로 변환할 뿐만 아니라 스캔에서 검색 가능한 PDF를 생성하고 인식된 텍스트의 철자 오류를 수정할 수 있어, 단 $99에 제공되는 가장 빠른 C# PDF OCR 솔루션 중 하나입니다.

API는 OCR 작업을 위한 여러 메서드를 제공하는 AsposeOcr 클래스를 특징으로 합니다. 특히, 지정된 PDF 문서에서 텍스트를 추출하는 데 사용되는 RecognizePdf(string, DocumentRecognitionSettings) 메서드가 있습니다. DocumentRecognitionSettings 클래스는 인식 프로세스를 사용자 정의할 수 있게 해주며, RecognitionResult 클래스는 인식 결과를 캡슐화합니다.

API의 DLL을 다운로드하거나 NuGet을 통해 설치할 수 있습니다:

PM> Install-Package Aspose.OCR

PDF OCR 및 텍스트 추출 단계

PDF 문서에서 OCR을 수행하고 인식된 텍스트를 추출하려면 다음 단계를 따르십시오:

AsposeOcr 클래스의 인스턴스를 생성합니다.
DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
OCR 언어를 지정합니다.
이미지 경로와 DocumentRecognitionSettings 객체를 전달하여 RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다.
인식된 텍스트를 표시하기 위해 RecognitionResult 목록을 반복합니다.

다음은 C#에서 PDF 문서의 OCR 및 인식된 텍스트 추출 방법을 설명하는 예입니다:

PDF에서 OCR 수행 및 텍스트 저장하기

PDF 문서에서 OCR을 수행하고 인식된 텍스트를 저장하려면 다음 단계를 따르십시오:

AsposeOcr 클래스의 인스턴스를 생성합니다.
DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
OCR 언어를 지정합니다.
RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다.
출력 파일 경로, SaveFormat, RecognitionResult 객체를 요구하는 SaveMultipageDocument() 메서드를 사용하여 텍스트를 저장합니다.

다음은 C#에서 PDF 문서의 OCR 및 인식된 텍스트 저장 방법을 설명하는 예입니다:

OCR PDF를 Word로 변환하기

스캔한 PDF 문서를 Word로 변환하려면 앞서 설명한 단계를 따르되, 마지막 단계에서 SaveFormat.Docx를 지정하십시오.

다음은 C#에서 OCR PDF 및 인식된 텍스트를 Word 문서로 저장하는 방법을 설명하는 예입니다:

OCR PDF를 JSON으로 변환하기

PDF 문서에서 인식된 텍스트를 JSON 파일로 저장하려면 이전 단계를 따르되, 마지막 단계에서 SaveFormat.Json을 지정하십시오.

다음은 C#에서 OCR PDF 및 인식된 텍스트를 JSON 파일로 저장하는 방법을 설명하는 예입니다:

무료 평가 라이선스 받기

제한 없이 Aspose.OCR for .NET API를 평가할 수 있는 무료 임시 라이선스를 받을 수 있습니다.

결론

이 튜토리얼에서는 PDF 문서에서 OCR을 수행하고 C#에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 또한 인식된 텍스트를 TXT, DOCX, JSON 파일로 저장하는 방법을 살펴보았습니다. Aspose.OCR for .NET API에 대한 더 많은 정보는 문서를 확인하십시오. 질문이 있는 경우 포럼에서 문의해 주십시오.

배울 내용#

Aspose.OCR for .NET API 개요#

PDF OCR 및 텍스트 추출 단계#

PDF에서 OCR 수행 및 텍스트 저장하기#

OCR PDF를 Word로 변환하기#

OCR PDF를 JSON으로 변환하기#

무료 평가 라이선스 받기#

결론#

참고 자료#