Python tiene muchas bibliotecas para extraer PDF, muchas de ellas se han discutido a continuación.
Me gustaría agregar PDFMiner y Slate a la cola
PDFMiner
- Cómo extraer información de tablas en archivos PDF y Word
- ¿Es posible transformar un archivo .DOC o .PDF en un archivo .MOBI o .ePUB?
- Cómo abrir un documento PDF dentro de mi aplicación de Android
- Cómo poner un PDF en el cuerpo de un correo electrónico
- Cómo convertir un PDF en un archivo legible por Nook sin las separaciones de línea del PDF creando nuevos párrafos en el archivo de Nook
PDFMiner es una herramienta para extraer información de documentos PDF. A diferencia de otras herramientas relacionadas con PDF, se centra completamente en obtener y analizar datos de texto.
PDFMiner permite obtener la ubicación exacta del texto en una página, así como otra información como fuentes o líneas. Incluye un convertidor de PDF que puede transformar archivos PDF en otros formatos de texto (como HTML). Tiene un analizador de PDF extensible que se puede usar para otros fines que el análisis de texto.
Caracteristicas
- Escrito completamente en Python. (para la versión 2.4 o posterior)
- Analiza, analiza y convierte documentos PDF.
- Soporte de especificación PDF-1.7. (bueno, casi)
- Soporte de lenguajes CJK y scripts de escritura vertical.
- Compatibilidad con varios tipos de fuente (Type1, TrueType, Type3 y CID).
- Soporte de cifrado básico (RC4).
- Conversión de PDF a HTML (con una aplicación web de convertidor de muestra).
- Esquema (TOC) extracción.
- Extracción de contenidos etiquetados.
- Reconstruya el diseño original agrupando fragmentos de texto.
Distribución de fuente:
http://pypi.python.org/pypi/pdfm…
github:
https://github.com/euske/pdfminer/
Demostración en línea:
(pdf -> aplicación web de conversión html)
http://pdf2html.tabesugi.net:8080/
Comunidad
El tutor que se encuentra debajo de la lista de correo es para usuarios que desean hacer preguntas.
http://groups.google.com/group/p…
Pizarra 0.5.2
Slate es un paquete de Python que simplifica el proceso de extracción de texto de archivos PDF. Depende del paquete PDFMiner.
Aunque PDFminer es simple, tiene sus propios inconvenientes
- Hacer cosas simples, como extraer el texto, es bastante complejo. El programa no está diseñado para devolver objetos de Python, lo que hace que las cosas de la interfaz sean irritantes.
- Es un conjunto de herramientas extremadamente completo, con curvas de aprendizaje múltiples y moderadamente empinadas.
- No está escrito teniendo en cuenta la piratería.
Slate ofrece una clase, PDF. PDF toma un objeto similar a un archivo y extraerá todo el texto del documento, presentando cada página como una cadena de texto
>>> con open (‘example.pdf’) como f:
… Doc = pizarra.PDF (f)
…
>>> doc
[…, …, …]
>>> doc [1]
‘Texto de la página 2 …’
Si su pdf está protegido con contraseña, pase la contraseña como segundo argumento
>>> con open (‘secrets.pdf’) como f:
… Doc = slate.PDF (f, ‘contraseña’)
…
>>> doc [0]
“Mi madre no sabe esto, pero …”
- Autor: Tim McNamara
- Página de inicio: http://github.com/timClicks/slate
Fuente de Quora:
euske / pdfminer
http://github.com/timClicks/slate
Happy Learning Python 🙂
¡Salud!