Cómo convertir muchos (alrededor de 1000) archivos PDF escaneados en archivos .txt

Gracias por el A2A!

Para convertir archivos PDF escaneados en texto, necesita la tecnología de reconocimiento óptico de caracteres (OCR). Un convertidor estándar de PDF a Word no será suficiente. Para convertir este volumen de documentos, recomiendo encarecidamente utilizar una API para ahorrar tiempo. Suponiendo que tenga acceso a un desarrollador, hay algunas opciones:

Abbyy Cloud OCR SDK (API premium)

Abbyy ofrece la API de OCR líder en el mercado actual. Utilicé FineReader 12 (su producto de software de escritorio) y quedé bastante impresionado con las capacidades del producto. Mirando su página de precios aquí: Planes y precios, debería poder convertir 1,000 páginas A4 en texto por $ 70.

Otros servicios API de OCR (API gratuita)

Si busca otros servicios API de OCR, la mayoría de ellos funcionan con Tesseract OCR, un motor de código abierto gratuito que se desarrolló en los laboratorios Hewlett-Packard entre 1985 y 1995. Aquí puede bifurcar el motor directamente desde Github (su desarrollador entenderá cómo hacer esto): tesseract-ocr

Si desea obtener más información sobre el proyecto, también puede leer más materiales aquí: Preguntas frecuentes – tesseract-ocr

Tenga en cuenta que es probable que casi todos los servicios API de OCR de hoy en día funcionen con Tesseract OCR. No puedo responder por ninguno de los otros servicios en línea (normalmente solo uso Tesseract directamente), pero al buscar en los motores de búsqueda, encontré algunos de ellos:

  • OCR en línea gratis – API de OCR
  • Ocr Api Service
  • API de nube SOAP y REST

Prueba gratuita de Adobe Acrobat (¡manual!)

Si no tiene acceso a un desarrollador y necesita una solución manual, siempre puede descargar la versión de prueba gratuita de 30 días de Adobe Acrobat y convertir los PDF manualmente. Tenga en cuenta que la versión de prueba incluye la excelente capacidad de OCR de Acrobat. Puede descargar la versión de prueba aquí: descargue la versión de prueba gratuita de Adobe Acrobat

Espero que sea útil.