Cómo extraer información de tablas en archivos PDF y Word

Oye,

No tengo una respuesta completa para su pregunta, ya que solo sé cómo extraer información de las tablas en los archivos de Microsoft Word. Hace un tiempo escribí un tutorial sobre cómo un estudiante podía extraer sus horarios de las tablas de Word y guardarlo en un archivo icalender (ver [1]). En ese tutorial usé Python-docx [2]. Es muy facil de usar:

del documento de importación docx
document = Document (‘file_containing_table.docx’)
table = document.tables [0]
datos = []
teclas = {}

para i, fila en enumerate (table.rows):
text = (cell.text para celda en row.cells)
si i == 0:
teclas = tupla (texto)
Seguir

row_data = dict (zip (claves, texto))
data.append (row_data)

los datos serán una lista y cada fila contendrá un diccionario (cada fila de la tabla). Las claves en cada diccionario son los nombres de sus columnas. De esta forma puedes extraer y hacer lo que quieras.

¡Espero que alguien pueda dar una respuesta sobre cómo extraer información de una tabla en un PDF!

Mejor,

Erik

Notas al pie

[1] Cómo usar Python para crear un archivo iCalendar desde una tabla de Word – Erik Marsja

[2] python-docx – documentación de python-docx 0.8.6

Puede extraer información de tablas en archivos PDF en segundos. Y la extracción de datos múltiples se puede realizar en un trabajo por lotes.

Abra su PDF con PDFelement haciendo clic en el botón “Abrir archivo”. Luego vaya a la pestaña “Formulario” y elija “Extracción de datos” en el menú. Luego seleccione “Extraer datos de los campos de formulario PDF” en la ventana emergente. Haga clic en “Siguiente” y luego los datos se extraerán en un archivo CSV.

Para más detalles, puede leer: Cómo extraer datos del formulario PDF

Recomiendo encarecidamente una herramienta que pueda dividir de forma inteligente gráficos y tablas de archivos, así como convertirlos a Excel. ¡La eficiencia mejoró mucho!

Aquí está el enlace: https://www.parsing.ai/#/

Estamos reclutando probadores beta, cuyos nombres se publicarán en el sitio web oficial. Si estás interesado por favor contáctame 🙂

Sinceramente espero su respuesta ~