C#에서 PDF의 텍스트 추출하기

PDF 파일에서 텍스트를 추출하는 것은 문서 처리 작업에서 일반적인 요구 사항입니다. 이 기사는 Aspose.PDF의 텍스트 추출기 플러그인을 사용한 효율적이고 다양한 텍스트 추출에 대한 심층 가이드를 제공합니다. 전체 문서, 특정 페이지 또는 정의된 지역에서 텍스트를 추출해야 하는 경우 Aspose.PDF의 플러그인을 통해 그 과정이 매끄럽고 매우 효율적입니다. 이 가이드는 다양한 PDF 형식을 쉽게 처리할 수 있도록 C# PDF 텍스트 추출의 높은 성능을 다룹니다.


다루는 기능:


Aspose.PDF의 텍스트 추출기 플러그인 강조

.NET용 Aspose.PDF의 텍스트 추출기 플러그인은 PDF 문서에서 텍스트를 추출하기 위한 고급 솔루션입니다. .NET 애플리케이션을 작업하는 개발자를 위해 설계되어 세 가지 작업 모드를 제공합니다:

  1. 순수 모드: 원래 형식과 구조를 유지하면서 텍스트를 추출합니다.
  2. 원시 모드: 형식 없이 텍스트를 추출합니다.
  3. 일반 모드: 텍스트를 추출하고 형식 및 특수 문자를 제거합니다.

이점:

  • 여러 PDF에 대한 배치 처리를 지원하여 효율적인 C# PDF 텍스트 추출을 가능하게 합니다.
  • 특정 요구 사항에 맞는 사용자 정의 추출 설정을 제공합니다.
  • .NET 애플리케이션과의 직접 통합으로 원활한 워크플로를 보장합니다.
  • 적은 자원 사용으로 빠르고 정확한 텍스트 추출에 최적화되어 있습니다.

C# PDF 텍스트 추출 라이브러리

Aspose.PDF for .NET 라이브러리는 PDF 조작 및 텍스트 추출을 위한 포괄적인 도구입니다. NuGet을 통해 설치하십시오:

PM> Install-Package Aspose.PDF

DLL을 직접 다운로드하여 프로젝트에 포함할 수도 있습니다. 다운로드


C#에서 전체 PDF에서 텍스트 추출하기

PDF에서 모든 텍스트를 추출하려면 다음 단계를 따르세요:

  1. Document 클래스를 사용하여 PDF를 로드합니다.
  2. TextAbsorber 객체를 생성합니다.
  3. 모든 페이지에 흡수기를 적용합니다.
  4. 추출된 텍스트를 파일에 저장합니다.

예제 코드:


PDF의 특정 페이지에서 텍스트 추출하기

단일 페이지에서 텍스트를 추출하려면:

  1. PDF를 로드합니다.
  2. TextAbsorber를 생성합니다.
  3. 흡수기를 원하는 페이지에 적용합니다.
  4. 추출된 텍스트를 저장합니다.

예제 코드:


PDF의 특정 지역에서 텍스트 추출하기

페이지의 특정 영역에서 텍스트를 추출하려면 사각형 좌표를 정의해야 합니다. 단계는 다음과 같습니다:

  1. PDF를 로드합니다.
  2. 지역에 대한 TextSearchOptions를 구성합니다.
  3. 해당 지역에 TextAbsorber를 적용합니다.
  4. 추출된 텍스트를 저장합니다.

예제 코드:


정규 표현식을 사용한 텍스트 검색 및 추출

특정 패턴과 일치하는 텍스트를 정규 표현식을 사용하여 추출합니다:

  1. PDF를 로드합니다.
  2. 정규 표현식 패턴을 정의합니다.
  3. TextAbsorber를 사용하여 패턴을 적용합니다.
  4. 일치하는 텍스트 조각을 추출합니다.

예제 코드:


C#에서 테이블 데이터로 텍스트 추출하기

테이블 내용을 추출하려면:

  1. PDF를 로드합니다.
  2. TableAbsorber를 사용하여 테이블 구조를 탐색합니다.
  3. 셀별로 텍스트를 추출합니다.

예제 코드:


PDF에서 강조된 텍스트 추출하기

강조된 텍스트를 추출하려면:

  1. 주석을 반복합니다.
  2. TextMarkupAnnotation를 필터링합니다.
  3. 강조 표시된 조각을 검색하고 저장합니다.

예제 코드:


적은 메모리 사용으로 텍스트 추출 최적화

i) Reset()FreeMemory() 메서드 사용:

  1. 각 페이지 처리 후 absorber.Reset() 호출합니다.
  2. page.FreeMemory()를 사용하여 페이지가 차지한 메모리를 해제합니다.

ii) MemorySaving 모드 사용:

TextExtractionOptions.TextFormattingMode를 설정하여 메모리를 최적화합니다.

예제 코드:


무료 C# PDF 텍스트 추출 라이브러리

제한 없는 Aspose.PDF for .NET에 대한 무료 임시 라이센스를 받아 보세요. 이를 통해 외부 라이브러리 없이도 고성능 PDF 텍스트 추출 기능을 활성화할 수 있습니다.


결론

Aspose.PDF의 텍스트 추출기 플러그인은 텍스트 추출 작업을 위한 다재다능하고 효율적인 솔루션을 제공합니다. 전체 문서에서 특정 페이지 또는 지역에 이르기까지, 정밀성과 속도로 프로세스를 간소화합니다. .NET Core 또는 .NET 6 PDF 텍스트 추출을 작업 중이라면 오늘 바로 시도하여 PDF 텍스트 추출 워크플로를 간소화하세요.


관련 기사: