Cómo extraer datos de texto de archivos PDF

Echa un vistazo a Apache Tika.

El kit de herramientas Apache Tika ™ detecta y extrae metadatos y texto de más de mil tipos de archivos diferentes (como PPT, XLS y PDF).

Para Tika, PDF es solo uno de los miles de otros tipos de documentos que es capaz de extraer. Puede extraer contenido textual y metadatos de documentos. Por lo tanto, el esfuerzo que invierta en aprenderlo será útil para muchas otras tareas (digamos que quiere hacer lo mismo con PPT, DOC u otro documento mañana, ¡no necesita preocuparse por encontrar una nueva biblioteca nuevamente!)

Veo esta pregunta también etiquetada con Web Crawling. Tika es utilizado internamente por Apache Nutch para extraer el contenido de varios documentos en la web.

La bondad de Tika en resumen:

  • Tiene interfaz de línea de comando para probar rápidamente
    Ejemplo:
    java -jar target/tika-app-1.13-SNAPSHOT.jar -t ~/ebooks/Machine\ Learning\ in\ Action.pdf
  • Está escrito en Java y está disponible en el repositorio de Maven como una biblioteca.
  • Tiene una interfaz API REST
  • Tiene cliente Python
  • Tiene una lista de correo muy activa para contactar cuando tenga preguntas
  • Tiene licencia de Apache License 2.0, que le brinda total libertad.

PD:

Sé de su bondad porque había tomado una clase en la USC impartida por su creador, el profesor Chris Mattmann, y también he contribuido a Tika.

] Existen muchas aplicaciones de terceros que ayudan a extraer datos de texto de archivos PDF. Pocos ejemplos son Omnipage , Abbyy finereader , Nitro PDF ., Etc. Además, para usuarios avanzados, hay opciones de código abierto como Apache PDFBox , Tabula (para extracción de datos de tabla). La tecnología utilizada por estas y otras aplicaciones son metodologías avanzadas de reconocimiento de caracteres que incluyen el “reconocimiento óptico de caracteres (OCR)” que podrá convertir incluso el texto escrito a mano de archivos PDF de imágenes.

Sin embargo, cada aplicación tiene sus propios pros y contras. Por lo tanto, para una lectura prístina de prueba de conversión, los datos convertidos se recomiendan especialmente cuando se trabaja con cifras / números financieros.

Los datos convertidos se pueden exportar a una variedad de formatos, incluyendo hojas de cálculo, palabras, textos, etc.

Gracias por A2A. Por favor, consulte esta respuesta mía.

¿Cuál es el mejor enfoque para extraer datos de un recibo o factura que es un PDF y clasificarlos por nombre, costo total, descripción, etc.

Aquí hay algunas soluciones para extraer texto del archivo pdf.

en línea

Un programa gratuito en línea que permite a los usuarios extraer texto de PDF e imágenes, también admite la conversión de PDF a Word, Excel, formatos de texto.

Vista previa de Mac

En general, si está trabajando en PDF nativos, puede extraer texto fácilmente de un PDF con Mac Preview, pero solo se admite un PDF:

1. Abrir PDF con vista previa;

2. Vaya a Editar> Seleccionar todo, y se seleccionará todo el contenido del PDF;

3. Haga clic derecho en el mouse para elegir “Copiar”;

4. Cree un nuevo documento de Word en Microsoft Office Word y “Pegue” los contenidos seleccionados en Word.

Convertidor profesional de PDF a texto

A veces, debe trabajar en archivos PDF escaneados, si desea convertir archivos PDF nativos y escaneados en texto, puede usar un convertidor de PDF profesional con función OCR. Los siguientes 2 son muy recomendables.

Cisdem PDF Converter OCR para Mac: convierta archivos PDF nativos y escaneados en 16 formatos por lotes, se conservará la calidad del archivo original.

Readiris 16 para Windows: convierta cualquier PDF a 12 formatos de salida, también puede usarlo para administrar y editar PDF dentro del programa.

Hay muchos lectores de PDF en Google Play. Puede ayudarlo a escanear archivos PDF y extraer texto de ellos, luego puede editarlo.

Puede buscar lectores de archivos PDF en Google Play.

Utilizo Docparser para extraer datos tabulares y / o áreas seleccionadas dentro de un PDF. Solo depende de lo que necesito sacar. Tarda unos 5 minutos en configurarlo, o al menos lo hizo para mis necesidades.