Principalmente. Los datos binarios aún deben analizarse para mostrarse / manipularse, pero el PDF es un formato basado en texto.
Por ejemplo, abrí el primer PDF que encontré en mi escritorio, en un editor de texto:
Aquí hay un extracto:
Puede ver las fuentes que se especifican y muchas otras palabras clave PDF. Todo es texto legible, excepto ese “flujo” incrustado allí. Eso está en formato binario.
- ¿Cuáles son las diferencias importantes y las similitudes subyacentes entre los convertidores de PDF a texto como Poppler y xpdf?
- Cómo convertir un archivo RTF a PDF
- ¿Es posible convertir un archivo PDF a publicaciones de WordPress como un capítulo a una publicación?
- Cómo convertir un PDF escaneado a texto
- Cómo convertir un PDF a formato PPT
Ciertamente, puede utilizar las numerosas herramientas basadas en texto basadas en UNIX (grep, sed, vi) para analizar / modificar un formato de texto como PDF. Sin embargo, depende de usted asegurarse de que cumpla con las especificaciones de PDF.
La última especificación de PDF se puede encontrar aquí:
Referencia de PDF y extensiones de Adobe a la especificación de PDF