Cómo analizar un archivo PDF de imagen en Ruby

Depende. ¿El PDF solo tiene imágenes o el PDF tiene texto? Cual es el objetivo?

Una gran opción es utilizar la funcionalidad disponible en la línea de comandos de Linux. Utilizo la herramienta de línea de comandos “pdftotext” para extraer el texto y para las imágenes puede usar otra herramienta de línea de comandos llamada “pdfimages”. (vea también Cómo extraer y guardar imágenes de un archivo PDF en Linux)

Primero necesitará instalar estas herramientas, luego llamarlas desde el script Ruby que está ejecutando, pasando cualquier variable que la herramienta necesite.

Instalar utilidades poppler: – ‘sudo apt-get install poppler-utils’

Wily (15.10): Ubuntu – Poppler

(Formato de documento portátil (PDF) a convertidor de texto (versión)

en ruby ​​llame a `pdftotext` y verá las opciones.

Otra opción para probar la gema yob / pdf-reader parece tener muchos seguidores y algo de actividad.

La regla básica es probarlo. Si es simple, entonces debería ser adecuado.

Con Linux use herramientas que se han construido. Fortaleza de Linux: las herramientas hacen una cosa y lo hacen bien. Une algunas herramientas y obtendrás excelencia.

Related Content

More Interesting