PDF 파일에서 텍스트를 추출하는 것은 문서 처리 작업에서 일반적인 요구 사항입니다. 이 기사는 Aspose.PDF의 텍스트 추출기 플러그인을 사용한 효율적이고 다양한 텍스트 추출에 대한 심층 가이드를 제공합니다. 전체 문서, 특정 페이지 또는 정의된 지역에서 텍스트를 추출해야 하는 경우 Aspose.PDF의 플러그인을 통해 그 과정이 매끄럽고 매우 효율적입니다. 이 가이드는 다양한 PDF 형식을 쉽게 처리할 수 있도록 C# PDF 텍스트 추출의 높은 성능을 다룹니다.
다루는 기능:
- 전체 PDF에서 텍스트 추출
- 특정 페이지에서 텍스트 추출
- 특정 지역에서 텍스트 추출
- 정규 표현식을 사용한 텍스트 검색 및 추출
- 텍스트로 테이블 데이터 추출
- 강조된 텍스트 추출
- 적은 메모리 사용으로 최적화된 텍스트 추출
Aspose.PDF의 텍스트 추출기 플러그인 강조
.NET용 Aspose.PDF의 텍스트 추출기 플러그인은 PDF 문서에서 텍스트를 추출하기 위한 고급 솔루션입니다. .NET 애플리케이션을 작업하는 개발자를 위해 설계되어 세 가지 작업 모드를 제공합니다:
- 순수 모드: 원래 형식과 구조를 유지하면서 텍스트를 추출합니다.
- 원시 모드: 형식 없이 텍스트를 추출합니다.
- 일반 모드: 텍스트를 추출하고 형식 및 특수 문자를 제거합니다.
이점:
- 여러 PDF에 대한 배치 처리를 지원하여 효율적인 C# PDF 텍스트 추출을 가능하게 합니다.
- 특정 요구 사항에 맞는 사용자 정의 추출 설정을 제공합니다.
- .NET 애플리케이션과의 직접 통합으로 원활한 워크플로를 보장합니다.
- 적은 자원 사용으로 빠르고 정확한 텍스트 추출에 최적화되어 있습니다.
C# PDF 텍스트 추출 라이브러리
Aspose.PDF for .NET 라이브러리는 PDF 조작 및 텍스트 추출을 위한 포괄적인 도구입니다. NuGet을 통해 설치하십시오:
PM> Install-Package Aspose.PDF
DLL을 직접 다운로드하여 프로젝트에 포함할 수도 있습니다. 다운로드
C#에서 전체 PDF에서 텍스트 추출하기
PDF에서 모든 텍스트를 추출하려면 다음 단계를 따르세요:
- Document 클래스를 사용하여 PDF를 로드합니다.
- TextAbsorber 객체를 생성합니다.
- 모든 페이지에 흡수기를 적용합니다.
- 추출된 텍스트를 파일에 저장합니다.
예제 코드:
PDF의 특정 페이지에서 텍스트 추출하기
단일 페이지에서 텍스트를 추출하려면:
- PDF를 로드합니다.
- TextAbsorber를 생성합니다.
- 흡수기를 원하는 페이지에 적용합니다.
- 추출된 텍스트를 저장합니다.
예제 코드:
PDF의 특정 지역에서 텍스트 추출하기
페이지의 특정 영역에서 텍스트를 추출하려면 사각형 좌표를 정의해야 합니다. 단계는 다음과 같습니다:
- PDF를 로드합니다.
- 지역에 대한 TextSearchOptions를 구성합니다.
- 해당 지역에 TextAbsorber를 적용합니다.
- 추출된 텍스트를 저장합니다.
예제 코드:
정규 표현식을 사용한 텍스트 검색 및 추출
특정 패턴과 일치하는 텍스트를 정규 표현식을 사용하여 추출합니다:
- PDF를 로드합니다.
- 정규 표현식 패턴을 정의합니다.
- TextAbsorber를 사용하여 패턴을 적용합니다.
- 일치하는 텍스트 조각을 추출합니다.
예제 코드:
C#에서 테이블 데이터로 텍스트 추출하기
테이블 내용을 추출하려면:
- PDF를 로드합니다.
- TableAbsorber를 사용하여 테이블 구조를 탐색합니다.
- 셀별로 텍스트를 추출합니다.
예제 코드:
PDF에서 강조된 텍스트 추출하기
강조된 텍스트를 추출하려면:
- 주석을 반복합니다.
- TextMarkupAnnotation를 필터링합니다.
- 강조 표시된 조각을 검색하고 저장합니다.
예제 코드:
적은 메모리 사용으로 텍스트 추출 최적화
i) Reset() 및 FreeMemory() 메서드 사용:
- 각 페이지 처리 후
absorber.Reset()
호출합니다. page.FreeMemory()
를 사용하여 페이지가 차지한 메모리를 해제합니다.
ii) MemorySaving 모드 사용:
TextExtractionOptions.TextFormattingMode
를 설정하여 메모리를 최적화합니다.
예제 코드:
무료 C# PDF 텍스트 추출 라이브러리
제한 없는 Aspose.PDF for .NET에 대한 무료 임시 라이센스를 받아 보세요. 이를 통해 외부 라이브러리 없이도 고성능 PDF 텍스트 추출 기능을 활성화할 수 있습니다.
결론
Aspose.PDF의 텍스트 추출기 플러그인은 텍스트 추출 작업을 위한 다재다능하고 효율적인 솔루션을 제공합니다. 전체 문서에서 특정 페이지 또는 지역에 이르기까지, 정밀성과 속도로 프로세스를 간소화합니다. .NET Core 또는 .NET 6 PDF 텍스트 추출을 작업 중이라면 오늘 바로 시도하여 PDF 텍스트 추출 워크플로를 간소화하세요.