Tokenzahl vs Wortzahl in PDFs: was für KI zählt

Warum Wortanzahl allein für KI-Promptplanung nicht reicht und wie PDF-Struktur Tokens stärker erhöhen kann als erwartet.

Ein häufiger Fehler in KI-Workflows ist, Wörter und Tokens gleichzusetzen. Sie hängen zusammen, sind aber nicht identisch.

Wer nur mit Wortanzahl plant, unterschätzt bei PDFs schnell den echten Bedarf, besonders bei Tabellen, juristischen Texten oder OCR-Rauschen.

Wörter sind Lesemaß, Tokens sind Modellmaß

Modelle verarbeiten Tokens, nicht Wörter. Ein kurzes Wort kann ein Token sein, ein längerer Begriff kann in mehrere Tokens zerfallen. Zahlen und Sonderzeichen erhöhen die Fragmentierung.

Deshalb können zwei Dokumente mit gleicher Wortzahl stark unterschiedliche Tokenwerte haben.

Warum PDFs die Lücke vergrößern

Tabellen wiederholen Labels und Trenner.
Kopf- und Fußzeilen kommen auf jeder Seite vor.
OCR kann Zeilen doppeln oder Wörter zerstückeln.
Code und technische IDs tokenisieren schwerer.

Besserer Ablauf vor dem Prompt

Wortzahl nur als erste Orientierung nutzen. Für echte Entscheidungen den PDFShore Token Counter verwenden und Token-Hotspots pro Seite prüfen.

Bei starken Peaks dort teilen. Ist die Gesamtdatei zu hoch, nur relevante Kapitel extrahieren.