Lo que su PDF revela antes de que nadie lo lea
Nombre del autor, software, marcas de tiempo: los campos ocultos en el diccionario de información de cada PDF, y por qué importan antes de compartir con clientes o herramientas de IA.
Exporta un contrato como PDF y lo envía a un cliente. Las páginas quedaron exactamente como quería. Lo que el cliente también recibió, sin que ninguno de los dos lo notara, fue el nombre de la cuenta del usuario que lo editó, el software que su empresa usa internamente y la fecha y hora exactas de la última modificación.
Esa información vive en los campos de metadatos. No aparece en ninguna página, pero viaja en la estructura del documento cada vez que se comparte el archivo.
Los campos que la mayoría nunca ha visto
El formato PDF almacena un conjunto estándar de campos junto al contenido visible. La mayoría de las aplicaciones los rellenan automáticamente al exportar:
- Author: el nombre de la cuenta del usuario en el equipo que guardó el archivo.
- Creator: la aplicación que produjo el documento (Word, Canva, InDesign, una app de notas).
- Producer: la biblioteca de exportación PDF que escribió los bytes.
- Creation date: cuándo se generó el archivo por primera vez.
- Modification date: la última vez que se guardó.
- Title, Subject, Keywords: a veces rellenados con nombres de proyectos internos o etiquetas generadas automáticamente.
Abra el PDF en un navegador y no verá nada de esto. Pero está ahí, y cualquier herramienta que lea la estructura del archivo puede acceder de inmediato.
Por qué esto aparece más al usar herramientas de IA
Subir un PDF a un chatbot o herramienta de análisis de IA se ha convertido en un paso habitual para mucha gente. Algunas herramientas envían el archivo completo a una API. Otras extraen solo la capa de texto. Algunas analizan la estructura completa del documento, incluido el diccionario de información.
Aunque la IA no use los metadatos directamente, la carga ocurrió con esos campos intactos. Si el campo Author contiene un nombre real y se enviaba algo de forma anónima, eso ya salió. Si el campo Creator revela software interno que no quería divulgar a un servicio externo, mismo problema.
También hay una situación más sutil. Mucha gente usa herramientas de IA para preparar documentos para audiencias externas: propuestas, informes para clientes, resúmenes públicos. Revisan el contenido visible con cuidado y nunca piensan en lo que lleva el diccionario de información.
Lo que no tiene que ver con la IA: el historial del archivo lo sigue
El problema práctico es anterior a las herramientas de IA. Cuando un PDF llega al cliente y el campo Creator indica que se hizo con una herramienta interna que no quería mencionar, o cuando un campo Author tiene el nombre de alguien del equipo legal en un documento que debía parecer independiente, esa información ya salió. No se puede deshacer.
La fecha de modificación también puede perjudicarle sin darse cuenta. Si un documento figura como enviado en un día pero los metadatos muestran que se editó una hora antes, esa diferencia es legible para cualquiera con herramientas básicas.
Cómo comprobar qué almacena su archivo
En Adobe Acrobat, vaya a File, luego Properties, luego la pestaña Description. En macOS puede seleccionar el archivo en Finder y pulsar Command+I para un resumen rápido. La herramienta de línea de comandos exiftool ofrece una lectura más completa, incluidos los metadatos XMP que algunas aplicaciones escriben además de los campos estándar.
Eliminarlos antes de compartir
El eliminador de metadatos de PDFShore limpia todos los campos estándar y guarda una copia limpia. Las páginas, fuentes, imágenes y maquetación permanecen intactas. Solo se borra el diccionario de información.
Se ejecuta en su navegador, así que el archivo original no abandona su equipo en el proceso. Para algo diseñado para evitar que la información se filtre, esa parece la opción correcta.