¿Hay alguna forma de extraer la introducción de PDF?

Hay algunos puntos que debes aclarar antes de seguir adelante:

Intención principal: Extracción del área / páginas de introducción de varios documentos PDF

  1. ¿Cuál es el formato de salida?
    1. ¿Deberían combinarse todos en uno?
    2. ¿El combinado aún está en PDF o no?
    3. Cuál será el identificador para cada PDF.
  2. ¿Se pueden buscar todos los documentos PDF o simplemente escanear documentos PDF?

Si supongo un escenario en el que desea extraer toda el área de introducción (para la cual ya se mencionó el número de página) y fusionarla en un PDF (con embellecimiento) y todos están basados ​​en texto (búsqueda) PDF, la solución debería ser así:

# esto es solo pseudocódigo
def merge_all_intro_section (documentos, serialised_intro_page_number):
merge_pdf_file = open (“merge_intro.pdf”, “w”)

Asumiendo que la sección de Introducción sigue un patrón

  1. Utilice paquetes estándar para convertir pdf en texto (Apache tick, unix (pdf2text)….)
  2. Aplicar expresiones regulares para obtener la sección de introducción

ábralo en ms palabras, si no está bloqueado, se abrirá y si está bloqueado, será difícil hacerlo