C#에서 PDF 텍스트 추출

PDF 파일에서 텍스트를 추출하는 것은 문서 처리 작업에서 일반적인 요구 사항입니다. 이 기사는 C#에서 효율적이고 다재다능한 텍스트 추출을 위한 Aspose.PDF의 텍스트 추출기 플러그인 사용에 대한 심층 가이드를 제공합니다. 전체 문서, 특정 페이지 또는 정의된 영역에서 텍스트를 추출해야 하는 경우 Aspose.PDF의 플러그인은 최소한의 노력으로 고성능 PDF 텍스트 추출을 지원합니다.


다루는 기능:


Aspose.PDF의 텍스트 추출기 플러그인 강조

.NET용 Aspose.PDF의 텍스트 추출기 플러그인은 PDF 문서에서 텍스트를 추출하기 위한 신뢰할 수 있는 솔루션입니다. 이 플러그인은 .NET 애플리케이션으로 작업하는 개발자를 위해 특별히 설계되었으며, .NET Framework 및 .NET Core PDF 텍스트 추출을 모두 지원합니다. 플러그인은 세 가지 작동 모드를 제공합니다:

  1. 순수 모드: 원래 형식과 구조를 유지하며 텍스트를 추출합니다.
  2. 원시 모드: 형식 없이 텍스트를 추출합니다.
  3. 일반 모드: 형식 및 특수 문자를 제거하고 텍스트를 추출합니다.

장점:

  • 여러 PDF를 위한 배치 처리를 지원합니다.
  • 특정 요구 사항을 충족하기 위한 사용자 정의 추출 설정을 제공합니다.
  • .NET 애플리케이션과의 직접 통합은 원활한 워크플로우를 보장합니다.
  • 최소한의 리소스 사용으로 고속 및 정확한 텍스트 추출을 위해 최적화되었습니다.

C# PDF 텍스트 추출 라이브러리

Aspose.PDF for .NET 라이브러리는 고성능 C# PDF 텍스트 추출을 찾는 .NET 개발자를 위한 종합 도구입니다. NuGet을 통해 설치할 수 있습니다:

PM> Install-Package Aspose.PDF

또한 DLL을 다운로드하여 프로젝트에 직접 통합하여 신뢰할 수 있는 C# PDF 텍스트 추출 솔루션으로 사용할 수 있습니다.


C#에서 전체 PDF에서 텍스트 추출

PDF에서 모든 텍스트를 추출하려면 다음 단계를 따르세요:

  1. 문서 클래스를 사용하여 PDF를 로드합니다.
  2. TextAbsorber 객체를 생성합니다.
  3. 모든 페이지에 흡수기를 적용합니다.
  4. 추출한 텍스트를 파일에 저장합니다.

예제 코드:


PDF에서 특정 페이지에서 텍스트 추출

단일 페이지에서 텍스트를 추출하려면:

  1. PDF를 로드합니다.
  2. TextAbsorber를 생성합니다.
  3. 원하는 페이지에 흡수기를 적용합니다.
  4. 추출한 텍스트를 저장합니다.

예제 코드:


PDF에서 특정 지역에서 텍스트 추출

페이지의 특정 영역에서 텍스트를 추출하는 과정은 직사각형 좌표를 정의하는 것입니다. 단계는 다음과 같습니다:

  1. PDF를 로드합니다.
  2. 정의된 지역에 대한 TextSearchOptions를 구성합니다.
  3. 해당 지역에 TextAbsorber를 적용합니다.
  4. 추출한 텍스트를 저장합니다.

예제 코드:


정규 표현식을 사용하여 텍스트 검색 및 추출

특정 패턴과 일치하는 텍스트를 추출하려면 정규 표현식을 사용합니다:

  1. PDF를 로드합니다.
  2. 정규 표현식 패턴을 정의합니다.
  3. TextAbsorber를 사용하여 패턴을 적용합니다.
  4. 일치하는 텍스트 조각을 추출합니다.

예제 코드:


C#에서 테이블 데이터를 텍스트로 추출

테이블 내용을 추출하려면:

  1. PDF를 로드합니다.
  2. TableAbsorber를 사용하여 테이블 구조를 탐색합니다.
  3. 셀별로 텍스트를 추출합니다.

예제 코드:


PDF에서 강조된 텍스트 추출

강조된 텍스트를 추출하려면:

  1. 주석을 반복합니다.
  2. [TextMarkupAnnotation][16]을 필터링합니다.
  3. 강조된 조각을 검색하고 저장합니다.

예제 코드:


낮은 메모리 사용으로 텍스트 추출 최적화

i) Reset()FreeMemory() 사용:

  1. 각 페이지 처리 후 absorber.Reset()를 호출합니다.
  2. page.FreeMemory()를 사용하여 페이지에서 소모된 메모리를 해제합니다.

ii) MemorySaving 모드 사용:

PDF 텍스트 추출 중 메모리 사용을 최적화하려면 TextExtractionOptions.TextFormattingMode를 설정합니다.

예제 코드:


무료 C# PDF 텍스트 추출 라이브러리

제한 없는 Aspose.PDF for .NET에 대한 [무료 임시 라이선스][10]를 받아 효율적인 C# PDF 텍스트 추출의 모든 잠재력을 활용하세요.


결론

Aspose.PDF의 텍스트 추출기 플러그인은 신뢰할 수 있는 텍스트 추출 작업을 위한 다재다능하고 효율적인 솔루션을 제공합니다. 전체 문서에서 특정 페이지 또는 지역까지, 이 플러그인은 정밀성과 속도로 프로세스를 간소화하여 가장 우수한 C# PDF 텍스트 추출 라이브러리 중 하나로 만듭니다. 오늘 이를 시도하여 PDF 텍스트 추출 작업을 간소화하세요.


관련 기사: