PDF-Token-Zähler · PDFShore

PDF hier ablegen

oder klicken, um eine von Ihrem Gerät auszuwählen

Ihre Datei verlässt diesen Tab nie. Wir können sie nicht sehen, und niemand sonst auch.

Müssen Sie den Text erst extrahieren?

In Markdown mit OCR-Unterstützung für gescannte PDFs konvertieren.

PDF zu Markdown öffnen

Möchten Sie die Datei auch bereinigen?

Versteckte Metadaten entfernen, bevor das PDF an ein KI-Tool gesendet wird.

Metadaten entfernen öffnen

Über das Zählen von PDF-Tokens

Jedes LLM hat ein Kontextfenster, eine Begrenzung, wie viel Text es auf einmal verarbeiten kann, gemessen in Tokens. Ein Token entspricht etwa drei bis vier Zeichen englischem Text. Wenn Sie wissen, wie viele Tokens Ihr PDF hat, bevor Sie es in einen Chat oder API-Aufruf einfügen, können Sie stille Abschneidungen vermeiden und die Aufteilung großer Dokumente planen.

Dieses Werkzeug extrahiert den gesamten Text aus dem PDF lokal und führt dann denselben Tokenizer aus, den GPT-4 und GPT-3.5 verwenden, cl100k_base. Claude verwendet eine ähnliche BPE-Kodierung, sodass die GPT-4-Anzahl für die meisten Modelle eine verlässliche Näherung ist. Schätzungen für generische Modelle verwenden die Faustregel von einem Token pro vier Zeichen.

So zählen Sie Tokens in einem PDF

1
PDF ladenZiehen Sie die Datei in das Feld oder klicken Sie, um eine auszuwählen. Es wird nichts hochgeladen; die Textextraktion läuft in Ihrem Browser.
2
Einen Moment wartenDer Tokenizer liest jede Seite, extrahiert den Text und zählt. Große Dateien dauern einige Sekunden.
3
Ergebnisse lesenSehen Sie genaue Token-Anzahlen nach Modellfamilie, Wort- und Zeichensummen sowie welche gängigen Kontextfenster die Datei passt.

Im Browser gezählt

Ihr PDF-Inhalt ist hier besonders sensibel, weil Sie ihn wahrscheinlich prüfen, bevor Sie ihn einem KI-System übergeben. PDFShore extrahiert und tokenisiert vollständig in Ihrem Browser. Der Text verlässt Ihr Gerät nie, und es wird nichts protokolliert.

Häufige Fragen

Wie genau ist die GPT-4-Zählung?

Sehr genau für textbasierte PDFs. Dasselbe cl100k_base-Vokabular, das die OpenAI-API verwendet, wird hier im Browser angewandt. Die Zählung stimmt mit dem überein, was die API berechnet, mit vernachlässigbarer Abweichung.

Was ist mit gescannten oder nur bildbasierten PDFs?

Bildinhalt kann nicht direkt tokenisiert werden. Wenn Ihr PDF ein gescanntes Dokument ohne eingebettete Textebene ist, wird die Zählung sehr niedrig oder null sein. Verwenden Sie zuerst PDF zu Markdown mit aktiviertem OCR, um eine Textebene zu extrahieren.

Funktioniert das für Claude oder Gemini?

Claude verwendet einen ähnlichen BPE-Tokenizer, sodass die GPT-4-Zählung eine verlässliche Schätzung ist, normalerweise innerhalb von 5 bis 10 Prozent. Gemini verwendet einen anderen Tokenizer, also verwenden Sie die generische Zählung als groben Richtwert.

Über das Zählen von PDF-Tokens

So zählen Sie Tokens in einem PDF

PDF ladenZiehen Sie die Datei in das Feld oder klicken Sie, um eine auszuwählen. Es wird nichts hochgeladen; die Textextraktion läuft in Ihrem Browser.

Einen Moment wartenDer Tokenizer liest jede Seite, extrahiert den Text und zählt. Große Dateien dauern einige Sekunden.

Ergebnisse lesenSehen Sie genaue Token-Anzahlen nach Modellfamilie, Wort- und Zeichensummen sowie welche gängigen Kontextfenster die Datei passt.

Häufige Fragen