Cómo extraer un carácter original de ‘CID’ en un archivo PDF

Fuente:.

¿Cómo puedo extraer fuentes incrustadas de un PDF como archivos de fuente válidos?

Hope this helps

Usando pdftops

Uno de los métodos más utilizados para hacer esto en los sistemas * nix consta de los siguientes pasos:

  1. Convierta el PDF a PostScript, por ejemplo, utilizando las computadoras de pdftops (en Windows: programa auxiliar pdftops.exe .
  2. Ahora las fuentes se incrustarán en .pfa (PostScript) + puede extraerlas usando un editor de texto .
  3. Es posible que necesite convertir el .pfa (ASCII) a un .pfb (binario) usando t1utils y pfa2pfb .
  4. En los archivos PDF nunca hay archivos .pfm o .afm (archivos métricos de fuente) incrustados (porque el visor de PDF tiene conocimiento interno sobre estos). Sin estos, los archivos de fuentes son apenas utilizables de una manera visualmente agradable.

Usando fontforge

Otro método es usar el editor de fuentes gratuito FontForge :

  1. Utilice el cuadro de diálogo “Abrir fuente” que se utiliza al abrir archivos.
  2. Luego seleccione “Extraer de PDF” en la sección de filtro del cuadro de diálogo.
  3. Seleccione el archivo PDF con la fuente que se extraerá.
  4. Se abre un cuadro de diálogo “Elegir una fuente” : seleccione aquí qué fuente abrir.

Consulte el manual de FontForge. Es posible que deba seguir algunos pasos específicos que no son necesariamente sencillos para guardar los datos de fuente extraídos como un archivo que se puede reutilizar.


Usando mupdf

A continuación, MuPDF . Esta aplicación viene con una utilidad llamada pdfextract (en Windows: pdfextract.exe ) que puede extraer fuentes e imágenes de archivos PDF. (En caso de que no conozca MuPDF, que todavía es relativamente desconocido y nuevo: “MuPDF es un visor de PDF ligero y gratuito y un kit de herramientas escrito en C portátil” , escrito por los desarrolladores de Artifex Software, la misma compañía que nos dio Ghostscript. )

( Actualización: las versiones más recientes de MuPDF han trasladado la funcionalidad anterior de ‘pdfextract’ al comando ‘mutool extract’ . Descárguelo aquí: mupdf.com/downloads )

Nota: pdfextract.exe es un programa de línea de comandos. Para usarlo, haga lo siguiente:

c: \> pdfextract.exe c: \ ruta \ a \ filename.pdf # (en Windows)
$> pdfextract /path/tofilename.pdf # (en Linux, Unix, Mac OS X)

Este comando volcará todos los archivos extraíbles del archivo pdf referenciado en el directorio actual. En general, verá una variedad de archivos: imágenes y fuentes. Estos incluyen PNG, TTF, CFF, CID, etc. Los nombres de las imágenes serán como img-0412.png si el número de objeto PDF de la imagen era 412. Los nombres de fuente serán como FGETYK + LinLibertineI-0966.ttf , si la fuente es El número de objeto PDF era 966.

Los archivos CFF ( Compact Font Format ) son un formato reconocido que se puede convertir a otros formatos a través de una variedad de convertidores para usar en diferentes sistemas operativos.

Nuevamente: tenga en cuenta que la mayoría de estos archivos de fuentes pueden tener solo un subconjunto de caracteres y pueden no representar el tipo de letra completo.

Actualización: (julio de 2013) Las versiones recientes de mupdf han visto una reorganización interna y un cambio de nombre de sus archivos binarios, no solo una vez, sino varias veces. La utilidad principal solía ser un binario similar a ‘navaja suiza’ llamado mubusy (¿nombre inspirado en busybox?), Que más recientemente fue rebautizado como mutool . Estos admiten la información de subcomandos, clean , extract , poster y show . Desafortunadamente, la documentación oficial de estas herramientas no está actualizada (todavía). Si estás en una Mac usando ‘MacPorts’: entonces la utilidad fue renombrada para evitar conflictos de nombres con otras utilidades que usan nombres idénticos, y es posible que necesites usar mupdfextract .

Para lograr los resultados (aproximadamente) equivalentes con mutool como lo hizo su herramienta anterior pdfextract , simplemente ejecute mubusy extract ... *

Por lo tanto, para extraer fuentes e imágenes, es posible que deba ejecutar una de las siguientes líneas de comando:

c: \> mutool.exe extract filename.pdf # (en Windows)
$> mutool extract filename.

Mi misión es analizar la automatización a partir de archivos pdf.

Traté de analizar archivos PDF usando la biblioteca ‘PDFMiner’ en Python.

Pero, en los textos específicos, el módulo no puede imprimir caracteres o cadenas.

Busqué mucha información (sitios, adobe API, etc.), luego encontré ese problema de fuente incrustada en el archivo PDF.

Utilicé Adobe Acrobat DC (versión de prueba), así que capté las fuentes utilizadas.

Aunque instalé las fuentes usadas en mi computadora (c: \ windows \ Fonts),

El texto aún analizado es el resultado a continuación.

※ Resultado del análisis.

Si sé el número cid y qué fuente se usa, ¿cómo traduzco el origen char o string?

¿Puedo agregar unicodes de fuentes en PDFMiner?