Passt Ihre PDF in das Kontextfenster von ChatGPT?
Kontextfenster werden in Tokens gemessen, nicht in Seiten. So zählen Sie sie, bevor Sie eine PDF in ein KI-Werkzeug einfügen, und was Sie tun, wenn die Zahl zu hoch ist.
Sie fügen einen langen Bericht in ChatGPT ein und bitten um eine Zusammenfassung der Hauptrisiken. Die Antwort klingt selbstsicher. Sie deckt die Zusammenfassung und die ersten beiden Abschnitte gut ab. Die zweite Hälfte des Dokuments, der Abschnitt, den Sie eigentlich brauchten, wurde abgeschnitten, ohne dass das Modell Sie darüber informiert hat.
Das ist das Kontextfenster-Problem. Es passiert lautlos, ohne Fehlermeldung.
Was ein Kontextfenster in der Praxis bedeutet
Jedes Sprachmodell hat eine Obergrenze dafür, wie viel Text es während eines einzelnen Gesprächs im Gedächtnis halten kann. Wird diese Grenze überschritten, verweigert das Modell die Anfrage, kürzt die Eingabe kommentarlos oder wechselt zu einer komprimierten Version des Inhalts. Keine dieser Optionen kommt mit einer klaren Warnung.
Das Limit wird in Tokens gemessen, nicht in Wörtern oder Seiten. Ein Token entspricht ungefähr drei bis vier Zeichen englischen Texts. Eine typische Seite Fließtext ergibt je nach Textdichte zwischen 300 und 500 Tokens.
Kontextfenster variieren stark zwischen Modellen:
- GPT-3.5-turbo: 16 385 Tokens (etwa 40 bis 50 Textseiten)
- GPT-4o: 128 000 Tokens (etwa 300 bis 400 Seiten)
- Claude 3.5 Sonnet: 200 000 Tokens
- Gemini 1.5 Pro: 1 000 000 Tokens
Tokens sind keine Wörter, und das spielt eine Rolle
Technische Dokumente, Verträge und PDFs mit Tabellen oder strukturierten Daten tokenisieren oft länger, als die Seitenzahl vermuten lässt. Ein 30-seitiges Richtliniendokument voller definierter Begriffe und Querverweise kann leicht auf 18 000 oder 20 000 Tokens kommen. Ein gescanntes Dokument mit minimalem Text kann unter 2 000 bleiben.
Codeintensive PDFs sind besonders unvorhersehbar. Code tokenisiert sehr anders als Fließtext. Auch deutscher Text tokenisiert in den meisten Modellen mit einer höheren Rate pro Wort, da die Vokabulare auf Englisch optimiert sind. Schätzen funktioniert hier nicht zuverlässig.
Warum stilles Abschneiden das eigentliche Problem ist
Die meisten Chat-Oberflächen geben keinen Fehler aus, wenn das Kontextfenster überschritten wird. Sie kürzen die Eingabe kommentarlos oder liefern eine Antwort, die vollständig wirkt, aber nur einen Teil des Dokuments abdeckt. Sie haben keine Möglichkeit zu wissen, dass gekürzt wurde, sofern Sie die Tokenanzahl nicht vorher geprüft haben.
Bei Anwendungsfällen, bei denen das Ende eines Dokuments wichtig ist, Investitionsmemos, in denen Risikofaktoren im letzten Drittel stehen, Verträge mit wichtigen Klauseln weit hinten im Text, oder Forschungsarbeiten, in denen die Schlussfolgerung der Zusammenfassung widerspricht, ist das kein kleines Problem.
Vor dem Einfügen prüfen
Der Token-Zähler von PDFShore extrahiert den Text Ihrer PDF im Browser und führt denselben Tokenizer aus, den GPT-4 verwendet, cl100k_base. Sie erhalten die tatsächliche Anzahl, bevor irgendetwas an irgendein Modell gesendet wird.
Die Ergebnisse umfassen Tokens gesamt nach Modellfamilie, eine seitenweise Aufschlüsselung und einen Vergleich mit gängigen Kontextfenstern. Die Extraktion und das Zählen laufen lokal. Der Inhalt Ihrer PDF verlässt dabei Ihr Gerät nicht.
Was tun, wenn die Anzahl zu hoch ist
Das Aufteilen nach Kapitel oder natürlichem Abschnitt ist die zuverlässigste Lösung. Die meisten langen Dokumente sind ohnehin für sequentielles Lesen strukturiert. Geben Sie einen Abschnitt nach dem anderen ein, beginnend mit dem Teil, der Ihre Frage beantwortet.
Wenn Sie nur einen bestimmten Teil eines langen Handbuchs benötigen, extrahieren Sie zuerst die relevanten Seiten. Ein 200-seitiges Dokument zu übergeben, wenn Sie den Abschnitt zur Fehlerbehebung auf Seite 140 brauchen, verschwendet den Großteil des Kontextfensters und macht die Antwort unzuverlässiger.