Echa un vistazo a Apache Tika.
El kit de herramientas Apache Tika ™ detecta y extrae metadatos y texto de más de mil tipos de archivos diferentes (como PPT, XLS y PDF).
Para Tika, PDF es solo uno de los miles de otros tipos de documentos que es capaz de extraer. Puede extraer contenido textual y metadatos de documentos. Por lo tanto, el esfuerzo que invierta en aprenderlo será útil para muchas otras tareas (digamos que quiere hacer lo mismo con PPT, DOC u otro documento mañana, ¡no necesita preocuparse por encontrar una nueva biblioteca nuevamente!)
Veo esta pregunta también etiquetada con Web Crawling. Tika es utilizado internamente por Apache Nutch para extraer el contenido de varios documentos en la web.
- ¿Cuál es el mejor editor / convertidor de PDF que puede pagar que no sea Adobe para Mac?
- Cómo publicar un archivo pdf en línea que no se puede imprimir o descargar
- ¿Hay alguna aplicación que pueda leer formatos de archivo epub, docs, pdf, ppt, xls, word, hojas de cálculo, etc.?
- ¿Qué tipo de organizaciones extraen gran cantidad de datos de documentos PDF?
- ¿Qué tipo de lector eres?
La bondad de Tika en resumen:
- Tiene interfaz de línea de comando para probar rápidamente
Ejemplo:
java -jar target/tika-app-1.13-SNAPSHOT.jar -t ~/ebooks/Machine\ Learning\ in\ Action.pdf
- Está escrito en Java y está disponible en el repositorio de Maven como una biblioteca.
- Tiene una interfaz API REST
- Tiene cliente Python
- Tiene una lista de correo muy activa para contactar cuando tenga preguntas
- Tiene licencia de Apache License 2.0, que le brinda total libertad.
PD:
Sé de su bondad porque había tomado una clase en la USC impartida por su creador, el profesor Chris Mattmann, y también he contribuido a Tika.