4null0: Conocimientos para detectar si un PDF es malicioso

Estructura lógica de un archivo PDF

Ya se ha visto la estructura física, veamos ahora la estructura lógica de un archivo PDF.

Tal y como se ha perfilado, los archivos PDF funcionan a través de objetos. Estos objetos se reúnen en lo que se denomina: objetos indirectos, es decir, los objetos indirectos son objetos con nombre que contienen objetos u otros objetos indirectos.

Estos objetos indirectos vienen representado por las palabras claves: obj y endobj. Más concretamente, un objeto indirecto viene representado de la siguiente manera:

<ID> <Versión del objeto> obj

...

endobj

Leyenda:

ID Identificador del objeto indirecto.

Los identificadores pueden NO ser secuenciales en el archivo PDF

Versión del objeto Cuando se crea un objeto indirecto este valor es de 0, si por cualquier

circunstancia el objeto indirecto se actualiza el nuevo objeto indirecto

podrá el valor 1, es decir, este valor indica la cantidad de veces que el

objeto indirecto ha sido actualizado

La estructura lógica de un archivo PDF tiene forma de árbol.

La estructura parte de un objeto indirecto raíz, denominado: Document catalog, que se ramifica en las siguientes áreas o ramas:

1.- Page Tree

2.- Outline hierarchy

3.- Article Theards

4.- Named destinations

5.- Interactive form

NOTA: El Document Catalog, es el elemento /Root de la sección Trailer.

El objeto indirecto 1470 0 es el Document Catalog del documento PDF

El objeto Document Catalog tiene entre las entradas más interesantes, las siguientes:

1.- /Type

2.- /Version

3.- /Extensions

4.- /Pages --> referencia al objeto indirecto referenciado como: Page Tree

5.- /Dests

6.- /Outlines

7.- /Threads

8.- /Metadata

Contenido del objeto: Document Catalog

En la sección o rama, Page Tree, es donde encontraremos los objetos indirectos de tipo: page., que podemos decir que son las páginas de nuestro documento PDF que veremos al abrir el documento.

Estos objetos: Page Tree, tienen las siguientes entradas:

1.- /Type

2.- /Parent

3.- /Kids --> Array que contiene los objetos indirectos de tipo: Page, que caen directamente del objeto: Page Tree.

4.- /Count --> específica el número de nodos hojas que posee esta rama o sección

El objeto indirecto 1457 0 es el Page Tree del documento PDF

Contenido de uno de los objetos: Page, más concretamente del objeto indirecto: 1458 0

Es decir, si seguimos la secuencia, el árbol iría quedando:

Objeto 1470 (Document Catalog)

Objeto 1457 (Page Tree)

Objeto 1458 (Pages)