Cómo extraer datos de texto de archivos PDF

Echa un vistazo a Apache Tika.

El kit de herramientas Apache Tika ™ detecta y extrae metadatos y texto de más de mil tipos de archivos diferentes (como PPT, XLS y PDF).

Para Tika, PDF es solo uno de los miles de otros tipos de documentos que es capaz de extraer. Puede extraer contenido textual y metadatos de documentos. Por lo tanto, el esfuerzo que invierta en aprenderlo será útil para muchas otras tareas (digamos que quiere hacer lo mismo con PPT, DOC u otro documento mañana, ¡no necesita preocuparse por encontrar una nueva biblioteca nuevamente!)

Veo esta pregunta también etiquetada con Web Crawling. Tika es utilizado internamente por Apache Nutch para extraer el contenido de varios documentos en la web.

La bondad de Tika en resumen:

Tiene interfaz de línea de comando para probar rápidamente
Ejemplo:
java -jar target/tika-app-1.13-SNAPSHOT.jar -t ~/ebooks/Machine\ Learning\ in\ Action.pdf
Está escrito en Java y está disponible en el repositorio de Maven como una biblioteca.
Tiene una interfaz API REST
Tiene cliente Python
Tiene una lista de correo muy activa para contactar cuando tenga preguntas
Tiene licencia de Apache License 2.0, que le brinda total libertad.

PD:

Sé de su bondad porque había tomado una clase en la USC impartida por su creador, el profesor Chris Mattmann, y también he contribuido a Tika.

Cómo convertir un archivo PDF

Cómo verificar que un archivo PDF se convierta a Word

Cómo abrir mis archivos PDF

Quiero crear un motor de búsqueda para buscar texto dentro de archivos de Word y PDF. ¿Cómo puedo proceder?

Cómo obtener el libro fingiendo 19 gratis

¿Cuál es el mejor lector de PDF gratuito para una tableta?

] Existen muchas aplicaciones de terceros que ayudan a extraer datos de texto de archivos PDF. Pocos ejemplos son Omnipage , Abbyy finereader , Nitro PDF ., Etc. Además, para usuarios avanzados, hay opciones de código abierto como Apache PDFBox , Tabula (para extracción de datos de tabla). La tecnología utilizada por estas y otras aplicaciones son metodologías avanzadas de reconocimiento de caracteres que incluyen el “reconocimiento óptico de caracteres (OCR)” que podrá convertir incluso el texto escrito a mano de archivos PDF de imágenes.

Sin embargo, cada aplicación tiene sus propios pros y contras. Por lo tanto, para una lectura prístina de prueba de conversión, los datos convertidos se recomiendan especialmente cuando se trabaja con cifras / números financieros.

Los datos convertidos se pueden exportar a una variedad de formatos, incluyendo hojas de cálculo, palabras, textos, etc.

Tom Kincheloe

Gracias por A2A. Por favor, consulte esta respuesta mía.

¿Cuál es el mejor enfoque para extraer datos de un recibo o factura que es un PDF y clasificarlos por nombre, costo total, descripción, etc.

Karthik Karunakaran

Aquí hay algunas soluciones para extraer texto del archivo pdf.

en línea

Un programa gratuito en línea que permite a los usuarios extraer texto de PDF e imágenes, también admite la conversión de PDF a Word, Excel, formatos de texto.

Vista previa de Mac

En general, si está trabajando en PDF nativos, puede extraer texto fácilmente de un PDF con Mac Preview, pero solo se admite un PDF:

1. Abrir PDF con vista previa;

2. Vaya a Editar> Seleccionar todo, y se seleccionará todo el contenido del PDF;

3. Haga clic derecho en el mouse para elegir “Copiar”;

4. Cree un nuevo documento de Word en Microsoft Office Word y “Pegue” los contenidos seleccionados en Word.

Convertidor profesional de PDF a texto

A veces, debe trabajar en archivos PDF escaneados, si desea convertir archivos PDF nativos y escaneados en texto, puede usar un convertidor de PDF profesional con función OCR. Los siguientes 2 son muy recomendables.

Cisdem PDF Converter OCR para Mac: convierta archivos PDF nativos y escaneados en 16 formatos por lotes, se conservará la calidad del archivo original.

Readiris 16 para Windows: convierta cualquier PDF a 12 formatos de salida, también puede usarlo para administrar y editar PDF dentro del programa.

Karthik Karunakaran

Hay muchos lectores de PDF en Google Play. Puede ayudarlo a escanear archivos PDF y extraer texto de ellos, luego puede editarlo.

Puede buscar lectores de archivos PDF en Google Play.

Karthik Karunakaran

Utilizo Docparser para extraer datos tabulares y / o áreas seleccionadas dentro de un PDF. Solo depende de lo que necesito sacar. Tarda unos 5 minutos en configurarlo, o al menos lo hizo para mis necesidades.

Karthik Karunakaran

More Interesting

¿Debo leer libros electrónicos en mi teléfono?

¿Cuál es la mejor herramienta de PDF para Windows?

¿Qué tipo de contenido son las causas del mayor o menor tamaño de un archivo PDF?

Cómo obtener preguntas en PDF de C2090-558

¿Cuál es la mejor opción de lector de ios PDF?

Cómo convertir un archivo .ASHX a .PDF

Cómo modificar un archivo PDF

¿Hay alguna forma de extraer la introducción de PDF?

¿Hay alguna forma gratuita de extraer solo el texto de un PDF?

Cómo leer 800 archivos PDF en minero rápido y agruparlos