Oye,
No tengo una respuesta completa para su pregunta, ya que solo sé cómo extraer información de las tablas en los archivos de Microsoft Word. Hace un tiempo escribí un tutorial sobre cómo un estudiante podía extraer sus horarios de las tablas de Word y guardarlo en un archivo icalender (ver [1]). En ese tutorial usé Python-docx [2]. Es muy facil de usar:
del documento de importación docx
document = Document (‘file_containing_table.docx’)
table = document.tables [0]
datos = []
teclas = {}
para i, fila en enumerate (table.rows):
text = (cell.text para celda en row.cells)
si i == 0:
teclas = tupla (texto)
Seguir
- ¿Es posible transformar un archivo .DOC o .PDF en un archivo .MOBI o .ePUB?
- Cómo abrir un documento PDF dentro de mi aplicación de Android
- Cómo poner un PDF en el cuerpo de un correo electrónico
- Cómo convertir un PDF en un archivo legible por Nook sin las separaciones de línea del PDF creando nuevos párrafos en el archivo de Nook
- Cómo convertir una imagen PDF (PDF escaneado) a un PDF editable de forma gratuita
row_data = dict (zip (claves, texto))
data.append (row_data)
los datos serán una lista y cada fila contendrá un diccionario (cada fila de la tabla). Las claves en cada diccionario son los nombres de sus columnas. De esta forma puedes extraer y hacer lo que quieras.
¡Espero que alguien pueda dar una respuesta sobre cómo extraer información de una tabla en un PDF!
Mejor,
Erik
Notas al pie
[1] Cómo usar Python para crear un archivo iCalendar desde una tabla de Word – Erik Marsja
[2] python-docx – documentación de python-docx 0.8.6