Descargo de responsabilidad: soy el fundador de Docparser.com, una solución de software especializada en la transformación de documentos semiestructurados (facturas, pedidos de compra, informes, …) en datos estructurados como JSON, CSV, XML.
Tiene básicamente dos problemas diferentes aquí para resolver:
- Primero, necesita extraer datos de texto de sus archivos PDF
- En segundo lugar, probablemente desee convertir el texto extraído en campos de datos individuales (Título, Título, Texto, Fecha, Número de referencia, …) que puede usar para construir su objeto de datos JSON
Extraer texto de archivos PDF
Primero, debemos verificar si sus archivos PDF contienen datos de texto o si consisten en imágenes escaneadas. La forma en que lo hacemos en Docparser es verificar si podemos extraer datos de texto y canalizar los archivos a través de una biblioteca OCR si no se devuelve ningún texto.
- Cómo convertir un PDF a JPEG usando Python 3
- Cómo convertir PDF a EPUB manteniendo el formato intacto
- Cómo convertir GIF a PDF
- Cómo convertir un PDF escrito a mano en texto
- Cómo convertir PDF a PDF OCR
En cualquier caso, recomendaría confiar en las utilidades de línea de comandos de Linux. Si bien también puede encontrar una biblioteca de Python, los comandos de Linux generalmente funcionan mucho mejor en mi experiencia.
En caso de que necesitemos manejar imágenes escaneadas, usamos un sistema OCR para convertirlas en archivos PDF “buscables”. Dichos archivos PDF contienen las imágenes escaneadas, así como el texto oculto devuelto por el OCR.
Una vez que esté seguro de que el archivo PDF contiene datos de texto, puede usar la herramienta de línea de comandos de Linux PdfToText con la opción ‘- diseño’. A continuación, debe tener una representación de texto plano de su archivo PDF que tiene (casi) el mismo diseño.
Convertir texto extraído en datos estructurados
Este es difícil de responder sin conocer su caso de uso específico. Convertir texto no estructurado o semiestructurado en un objeto JSON puede ser fácil, desafiante o simplemente imposible. Realmente depende del tipo de datos con los que está tratando y de cuán granular debe ser la salida.
En Docparser desarrollamos un conjunto de herramientas que pueden ayudarlo a transformar documentos PDF como facturas, pedidos de compra, pedidos de entrega, etc. en objetos de datos JSON de grano fino sin ningún tipo de codificación. Si esto es algo que le interesaría, estaré encantado de guiarlo a través de nuestra prueba gratuita.