Todo LLM tiene una ventana de contexto, un límite de cuánto texto puede procesar a la vez, medido en tokens. Un token equivale a unos tres o cuatro caracteres en inglés. Saber cuántos tokens tiene tu PDF antes de pegarlo en un chat o una llamada de API ayuda a evitar el truncado silencioso y a planificar cómo dividir documentos grandes.
Esta herramienta extrae todo el texto del PDF localmente y ejecuta el mismo tokenizer que usan GPT-4 y GPT-3.5, cl100k_base. Claude usa una codificación BPE similar, así que el recuento de GPT-4 es una referencia fiable para la mayoría de modelos. Las estimaciones para modelos genéricos usan la regla estándar de un token por cada cuatro caracteres.
El contenido de tu PDF es especialmente sensible aquí, porque probablemente lo estás revisando antes de entregarlo a un sistema de IA. PDFShore extrae y tokeniza completamente en tu navegador. El texto nunca sale de tu dispositivo y nada se registra.
Muy preciso para PDFs basados en texto. El mismo vocabulario cl100k_base que usa la API de OpenAI se aplica aquí en el navegador. El recuento coincidirá con lo que cobra la API, con un margen negligible.
El contenido de imagen no se puede tokenizar directamente. Si tu PDF es un documento escaneado sin capa de texto incrustada, el recuento será muy bajo o cero. Usa PDF a Markdown con OCR habilitado primero para extraer una capa de texto.
Claude usa un tokenizer BPE similar, así que el recuento de GPT-4 es una estimación fiable, normalmente dentro del 5 al 10 por ciento. Gemini usa un tokenizer diferente, así que toma el recuento genérico como guía aproximada.