PDF-Text bereinigen, bevor er an ein LLM geht

Ein schneller Bereinigungsablauf für bessere Prompt-Qualität bei lokalen, sensiblen PDFs.

Ein überraschend großer Teil schlechter KI-Antworten ist gar nicht die Schuld des Modells. Er kommt aus dem, was Sie hineingegeben haben. Stammt die Quelle aus einer PDF, schleppt der Prompt fast immer wiederholte Kopfzeilen, Seitenzahlen und mittendrin abgehackte Zeilen mit, und der Kontext wird mit jeder Seite schwerer zu lesen.

Also: Bevor Sie eine Stunde am Prompt herumschrauben, räumen Sie den Text einmal auf. In den meisten Fällen bringt das mehr als die Prompt-Operation.

Was die Qualität typischerweise verschlechtert

Gleiche Kopf-/Fußzeilen auf jeder Seite.
Zeilenumbrüche mitten im Satz.
Gemischte Reihenfolge von Abschnitten nach der Extraktion.

Auf einer Seite wirkt das harmlos. Über einen 40-seitigen Bericht summiert es sich, und das Modell verwendet Aufmerksamkeit auf die Verpackung statt auf das Signal, das Sie wollten.

Einfache Bereinigungsroutine

Den PDF-Text in Markdown ziehen.
Die wiederholten Kopf-/Fußzeilen herauswerfen.
Überschriften oder Seitenmarker behalten, damit der Kontext überlebt.
Einmal überfliegen und den offensichtlichen Ballast löschen.

Ein paar Minuten hier, und was danach kommt, Zusammenfassung, Extraktion, Frage-Antwort, läuft spürbar ruhiger.

Warum Markdown an dieser Stelle

Markdown trifft einen angenehmen Mittelweg: genug Struktur zum Lesen, aber nicht so viel Format, dass es im Weg steht. Es teilt sich leicht in Chunks und lässt sich sauber vergleichen, wenn Sie später zwei Versionen gegenüberstellen.

Datenschutz ist hier entscheidend

Interne Dokumente, Richtlinien, Verträge, Kundenmaterial: genau hier rutscht ein versehentlicher Upload gern durch. PDFShore wandelt im Browser um, sodass die Original-PDF Ihr Gerät gar nicht erst verlässt.

Wenn Ihr Tag aus sensiblen Inhalten besteht, verändert diese eine Architekturentscheidung ganz leise das Gefühl beim ganzen Ablauf.

Was die Qualität typischerweise verschlechtert

Gleiche Kopf-/Fußzeilen auf jeder Seite.

Zeilenumbrüche mitten im Satz.

Gemischte Reihenfolge von Abschnitten nach der Extraktion.

Auf einer Seite wirkt das harmlos. Über einen 40-seitigen Bericht summiert es sich, und das Modell verwendet Aufmerksamkeit auf die Verpackung statt auf das Signal, das Sie wollten.

Einfache Bereinigungsroutine

Den PDF-Text in Markdown ziehen.

Die wiederholten Kopf-/Fußzeilen herauswerfen.

Überschriften oder Seitenmarker behalten, damit der Kontext überlebt.

Einmal überfliegen und den offensichtlichen Ballast löschen.

Ein paar Minuten hier, und was danach kommt, Zusammenfassung, Extraktion, Frage-Antwort, läuft spürbar ruhiger.

Datenschutz ist hier entscheidend

Wenn Ihr Tag aus sensiblen Inhalten besteht, verändert diese eine Architekturentscheidung ganz leise das Gefühl beim ganzen Ablauf.