Was Ihre PDF-Datei verrät, bevor jemand sie liest
Autorenname, Software, Bearbeitungszeitstempel: die versteckten Felder im Info-Wörterbuch jeder PDF und warum sie vor dem Teilen mit Kunden oder KI-Werkzeugen wichtig sind.
Sie exportieren einen Vertrag als PDF und senden ihn an einen Kunden. Die Seiten sehen genau so aus wie beabsichtigt. Was der Kunde ebenfalls erhielt, ohne dass einer von beiden es bemerkte, war der Kontoname der Person, die die Datei zuletzt bearbeitet hat, die intern verwendete Software und der genaue Zeitpunkt der letzten Bearbeitung.
Diese Informationen stecken in den Metadatenfeldern. Sie erscheinen auf keiner Seite, reisen aber bei jeder Weitergabe der Datei in der Dokumentstruktur mit.
Die Felder, die die meisten noch nie angesehen haben
Das PDF-Format speichert einen Standardsatz von Feldern neben dem sichtbaren Inhalt. Die meisten Anwendungen füllen diese beim Export automatisch aus:
- Author: der Kontoname des Benutzers auf dem Gerät, das die Datei gespeichert hat.
- Creator: die Anwendung, die das Dokument erstellt hat (Word, Canva, InDesign, eine Notiz-App).
- Producer: die PDF-Exportbibliothek, die die Bytes geschrieben hat.
- Creation date: wann die Datei erstmals generiert wurde.
- Modification date: wann sie zuletzt gespeichert wurde.
- Title, Subject, Keywords: manchmal mit internen Projektnamen oder automatisch generierten Labels gefüllt.
Öffnen Sie die PDF im Browser und Sie werden nichts davon sehen. Aber es ist vorhanden, und jedes Werkzeug, das die Dateistruktur liest, greift sofort darauf zu.
Warum dies häufiger bei KI-Werkzeugen auftaucht
Das Hochladen einer PDF-Datei in einen Chatbot oder ein KI-Analysewerkzeug ist für viele Menschen zur Routineaufgabe geworden. Einige Werkzeuge senden die vollständige Datei an eine API. Andere extrahieren nur die Textschicht. Manche analysieren die vollständige Dokumentstruktur, einschließlich des Informations-Wörterbuchs.
Selbst wenn die KI die Metadaten nicht direkt verwendet, erfolgte der Upload mit diesen Feldern intakt. Enthält das Author-Feld einen echten Namen und Sie haben etwas anonym eingesandt, ist das bereits nach außen gedrungen. Verrät das Creator-Feld interne Software, die Sie lieber nicht gegenüber einem Drittanbieterdienst offenbaren wollten, gilt dasselbe.
Es gibt auch eine subtilere Situation. Viele Menschen nutzen KI-Werkzeuge, um Dokumente für externe Zielgruppen vorzubereiten: Angebote, Kundenberichte, öffentliche Zusammenfassungen. Sie überarbeiten den sichtbaren Inhalt sorgfältig und denken nie daran, was das Informations-Wörterbuch mit sich trägt.
Was nichts mit KI zu tun hat: die Dateihistorie folgt ihr
Das praktische Problem existiert schon vor KI-Werkzeugen. Wenn eine PDF beim Kunden ankommt und das Creator-Feld ein internes Werkzeug nennt, das Sie nicht erwähnen wollten, oder wenn ein Author-Feld den Namen einer Person aus Ihrem Rechtsteam in einem Dokument enthält, das unabhängig wirken sollte, ist diese Information draußen. Sie lässt sich nicht rückgängig machen.
Das Änderungsdatum kann Sie auch ohne Ihr Wissen belasten. Wenn ein Dokument als an einem Tag versendet ausgewiesen wird, die Metadaten aber zeigen, dass es eine Stunde zuvor bearbeitet wurde, ist diese Diskrepanz mit einfachen Werkzeugen lesbar.
Wie Sie prüfen, was Ihre Datei speichert
In Adobe Acrobat: File, dann Properties, dann die Registerkarte Description. Unter macOS können Sie die Datei im Finder auswählen und Command+I drücken. Das Kommandozeilenprogramm exiftool liefert eine vollständigere Auslesung einschließlich XMP-Metadaten, die manche Anwendungen zusätzlich zu den Standardfeldern schreiben.
Entfernen, bevor Sie teilen
Der Metadaten-Entferner von PDFShore löscht alle Standardfelder und speichert eine saubere Kopie. Seiten, Schriftarten, Bilder und Layout bleiben unverändert. Nur das Informations-Wörterbuch wird geleert.
Er läuft in Ihrem Browser, sodass die Originaldatei dabei Ihr Gerät nicht verlässt. Für etwas, das dazu dient, Informationslecks zu verhindern, scheint das die richtige Architektur zu sein.