Jedes LLM hat ein Kontextfenster, eine Begrenzung, wie viel Text es auf einmal verarbeiten kann, gemessen in Tokens. Ein Token entspricht etwa drei bis vier Zeichen englischem Text. Wenn Sie wissen, wie viele Tokens Ihr PDF hat, bevor Sie es in einen Chat oder API-Aufruf einfügen, können Sie stille Abschneidungen vermeiden und die Aufteilung großer Dokumente planen.
Dieses Werkzeug extrahiert den gesamten Text aus dem PDF lokal und führt dann denselben Tokenizer aus, den GPT-4 und GPT-3.5 verwenden, cl100k_base. Claude verwendet eine ähnliche BPE-Kodierung, sodass die GPT-4-Anzahl für die meisten Modelle eine verlässliche Näherung ist. Schätzungen für generische Modelle verwenden die Faustregel von einem Token pro vier Zeichen.
Ihr PDF-Inhalt ist hier besonders sensibel, weil Sie ihn wahrscheinlich prüfen, bevor Sie ihn einem KI-System übergeben. PDFShore extrahiert und tokenisiert vollständig in Ihrem Browser. Der Text verlässt Ihr Gerät nie, und es wird nichts protokolliert.
Sehr genau für textbasierte PDFs. Dasselbe cl100k_base-Vokabular, das die OpenAI-API verwendet, wird hier im Browser angewandt. Die Zählung stimmt mit dem überein, was die API berechnet, mit vernachlässigbarer Abweichung.
Bildinhalt kann nicht direkt tokenisiert werden. Wenn Ihr PDF ein gescanntes Dokument ohne eingebettete Textebene ist, wird die Zählung sehr niedrig oder null sein. Verwenden Sie zuerst PDF zu Markdown mit aktiviertem OCR, um eine Textebene zu extrahieren.
Claude verwendet einen ähnlichen BPE-Tokenizer, sodass die GPT-4-Zählung eine verlässliche Schätzung ist, normalerweise innerhalb von 5 bis 10 Prozent. Gemini verwendet einen anderen Tokenizer, also verwenden Sie die generische Zählung als groben Richtwert.