Tokenzahl vs Wortzahl in PDFs: was für KI zählt
Warum Wortanzahl allein für KI-Promptplanung nicht reicht und wie PDF-Struktur Tokens stärker erhöhen kann als erwartet.
Ein häufiger Fehler in KI-Workflows ist, Wörter und Tokens gleichzusetzen. Sie hängen zusammen, sind aber nicht identisch.
Wer nur mit Wortanzahl plant, unterschätzt bei PDFs schnell den echten Bedarf, besonders bei Tabellen, juristischen Texten oder OCR-Rauschen.
Wörter sind Lesemaß, Tokens sind Modellmaß
Modelle verarbeiten Tokens, nicht Wörter. Ein kurzes Wort kann ein Token sein, ein längerer Begriff kann in mehrere Tokens zerfallen. Zahlen und Sonderzeichen erhöhen die Fragmentierung.
Deshalb können zwei Dokumente mit gleicher Wortzahl stark unterschiedliche Tokenwerte haben.
Warum PDFs die Lücke vergrößern
- Tabellen wiederholen Labels und Trenner.
- Kopf- und Fußzeilen kommen auf jeder Seite vor.
- OCR kann Zeilen doppeln oder Wörter zerstückeln.
- Code und technische IDs tokenisieren schwerer.
Besserer Ablauf vor dem Prompt
Wortzahl nur als erste Orientierung nutzen. Für echte Entscheidungen den PDFShore Token Counter verwenden und Token-Hotspots pro Seite prüfen.
Bei starken Peaks dort teilen. Ist die Gesamtdatei zu hoch, nur relevante Kapitel extrahieren.