Hay algunos puntos que debes aclarar antes de seguir adelante:
Intención principal: Extracción del área / páginas de introducción de varios documentos PDF
- ¿Cuál es el formato de salida?
- ¿Deberían combinarse todos en uno?
- ¿El combinado aún está en PDF o no?
- Cuál será el identificador para cada PDF.
- ¿Se pueden buscar todos los documentos PDF o simplemente escanear documentos PDF?
Si supongo un escenario en el que desea extraer toda el área de introducción (para la cual ya se mencionó el número de página) y fusionarla en un PDF (con embellecimiento) y todos están basados en texto (búsqueda) PDF, la solución debería ser así:
# esto es solo pseudocódigo
def merge_all_intro_section (documentos, serialised_intro_page_number):
merge_pdf_file = open (“merge_intro.pdf”, “w”)
- ¿Hay alguna forma gratuita de extraer solo el texto de un PDF?
- Cómo leer 800 archivos PDF en minero rápido y agruparlos
- ¿Por qué la aplicación Vista previa hace que aparezcan varias copias de anotaciones de texto en una pila cuando abro un PDF guardado?
- ¿Cuál es la mejor manera de vincular un PDF a otro PDF?
- ¿Hay algún método para saber si he escrito el texto o copiado de PDF a MS Word?