OCR PDF y Extraer Texto de PDF en C#

Los documentos PDF son omnipresentes en las operaciones comerciales, a menudo requiriendo acceso programático para leer contenido escaneado. Extraer texto de archivos PDF escaneados puede ser complejo, por lo que las herramientas efectivas son esenciales. En este tutorial, exploraremos cómo realizar OCR en documentos PDF y extraer texto de PDF en C# usando la poderosa Aspose.OCR para .NET API, una biblioteca de extracción de texto PDF en C# de primer nivel disponible para evaluación gratuita.

Lo Que Aprenderás

En este artículo, cubriremos los siguientes temas:

  1. Descripción general de Aspose.OCR para .NET API
  2. Pasos para OCR PDF y Extraer Texto
  3. Cómo Realizar OCR en PDF y Guardar Texto
  4. Convertir OCR PDF a Word
  5. Convertir OCR PDF a JSON

Descripción General de Aspose.OCR para .NET API

Utilizaremos la Aspose.OCR para .NET API, una robusta solución de OCR PDF para .NET Core. Esta API está diseñada para reconocer texto a partir de imágenes escaneadas, fotos de smartphones y capturas de pantalla, devolviendo resultados en varios formatos de documento. No solo convierte imágenes a texto, sino que también puede crear PDFs buscables a partir de escaneos mientras corrige errores ortográficos en el texto reconocido, convirtiéndola en una de las soluciones de OCR PDF en C# más rápidas disponibles por solo $99.

La API presenta la clase AsposeOcr, que proporciona múltiples métodos para operaciones de OCR. En particular, el método RecognizePdf(string, DocumentRecognitionSettings) se utiliza para extraer texto de un documento PDF especificado. La clase DocumentRecognitionSettings permite personalizar el proceso de reconocimiento, mientras que la clase RecognitionResult encapsula los resultados del reconocimiento.

Puedes descargar el DLL de la API o instalarlo a través de NuGet:

PM> Install-Package Aspose.OCR

Pasos para OCR PDF y Extraer Texto en C#

Sigue estos pasos para realizar OCR en documentos PDF y extraer el texto reconocido:

  1. Crea una instancia de la clase AsposeOcr.
  2. Inicializa un objeto de la clase DocumentRecognitionSettings.
  3. Especifica el idioma para OCR.
  4. Obtén el RecognitionResult invocando el método RecognizePdf(), pasando la ruta de la imagen y el objeto DocumentRecognitionSettings.
  5. Recorre la lista de RecognitionResult para mostrar el texto identificado.

Aquí hay un ejemplo que ilustra cómo realizar OCR en documentos PDF y extraer texto reconocido en C#:

OCR PDF y Extraer Texto de PDF en C#

OCR PDF y Extraer Texto de PDF en C#

Cómo Realizar OCR en PDF y Guardar Texto en C#

Para realizar OCR en documentos PDF y guardar el texto reconocido, sigue estos pasos:

  1. Crea una instancia de la clase AsposeOcr.
  2. Inicializa un objeto de la clase DocumentRecognitionSettings.
  3. Especifica el idioma para OCR.
  4. Llama al método RecognizePdf() para obtener el RecognitionResult.
  5. Guarda el texto usando el método SaveMultipageDocument(), que requiere la ruta del archivo de salida, el SaveFormat y el objeto RecognitionResult.

Aquí hay un ejemplo que demuestra cómo realizar OCR en documentos PDF y guardar el texto reconocido en C#:

Realizar OCR en PDF y Guardar Texto en C#

Realizar OCR en PDF y Guardar Texto en C#

Convertir OCR PDF a Word en C#

Para convertir documentos PDF escaneados a Word, sigue los mismos pasos que se describieron anteriormente, pero especifica SaveFormat.Docx en el paso final.

Aquí hay un ejemplo que ilustra cómo realizar OCR en PDF y guardar el texto reconocido como un documento de Word en C#:

OCR PDF y Convertir PDF Escaneado a Word en C#

OCR PDF y Convertir PDF Escaneado a Word en C#

Convertir OCR PDF a JSON en C#

Para guardar el texto reconocido de documentos PDF en un archivo JSON, sigue los pasos anteriores con el único cambio de especificar SaveFormat.Json en el paso final.

Aquí hay un ejemplo que demuestra cómo realizar OCR en PDF y guardar el texto reconocido como un archivo JSON en C#:

Obtén una Licencia de Evaluación Gratuita

Puedes obtener una licencia temporal gratuita para evaluar la Aspose.OCR para .NET API sin ninguna limitación.

Conclusión

En este tutorial, aprendimos cómo realizar OCR en documentos PDF y extraer texto de PDF en C#. También exploramos cómo guardar el texto reconocido como un archivo TXT, DOCX y JSON. Para más información sobre la Aspose.OCR para .NET API, consulta su documentación. Si tienes alguna pregunta, no dudes en contactarnos en nuestro foro.

También Te Puede Interesar