Contador de Tokens del PDF

Suelta un PDF aquí

o haz clic para elegir uno de tu dispositivo

Tu archivo nunca sale de esta pestaña. No lo vemos, y nadie más tampoco.

¿Necesitas extraer el texto primero?

Convierte a Markdown con soporte OCR para PDFs escaneados.

Abrir PDF a Markdown

¿Quieres limpiar el archivo también?

Elimina metadatos ocultos antes de enviar el PDF a una herramienta de IA.

Abrir Eliminar Metadatos

Sobre contar tokens de PDF

Todo LLM tiene una ventana de contexto, un límite de cuánto texto puede procesar a la vez, medido en tokens. Un token equivale a unos tres o cuatro caracteres en inglés. Saber cuántos tokens tiene tu PDF antes de pegarlo en un chat o una llamada de API ayuda a evitar el truncado silencioso y a planificar cómo dividir documentos grandes.

Esta herramienta extrae todo el texto del PDF localmente y ejecuta el mismo tokenizer que usan GPT-4 y GPT-3.5, cl100k_base. Claude usa una codificación BPE similar, así que el recuento de GPT-4 es una referencia fiable para la mayoría de modelos. Las estimaciones para modelos genéricos usan la regla estándar de un token por cada cuatro caracteres.

Cómo contar tokens en un PDF

1
Carga el PDFArrastra el archivo a la caja o haz clic para elegir uno. Nada se sube; la extracción de texto corre en tu navegador.
2
Espera un momentoEl tokenizer lee cada página, extrae el texto y cuenta. Los archivos grandes tardan unos segundos.
3
Lee los resultadosVe los recuentos de tokens por familia de modelo, totales de palabras y caracteres, y en qué ventanas de contexto comunes cabe el archivo.

Contado en tu navegador

El contenido de tu PDF es especialmente sensible aquí, porque probablemente lo estás revisando antes de entregarlo a un sistema de IA. PDFShore extrae y tokeniza completamente en tu navegador. El texto nunca sale de tu dispositivo y nada se registra.

Preguntas comunes

¿Qué tan preciso es el recuento de GPT-4?

Muy preciso para PDFs basados en texto. El mismo vocabulario cl100k_base que usa la API de OpenAI se aplica aquí en el navegador. El recuento coincidirá con lo que cobra la API, con un margen negligible.

¿Qué pasa con PDFs escaneados o solo con imágenes?

El contenido de imagen no se puede tokenizar directamente. Si tu PDF es un documento escaneado sin capa de texto incrustada, el recuento será muy bajo o cero. Usa PDF a Markdown con OCR habilitado primero para extraer una capa de texto.

¿Funciona para Claude o Gemini?

Claude usa un tokenizer BPE similar, así que el recuento de GPT-4 es una estimación fiable, normalmente dentro del 5 al 10 por ciento. Gemini usa un tokenizer diferente, así que toma el recuento genérico como guía aproximada.

Sobre contar tokens de PDF

Cómo contar tokens en un PDF

Carga el PDFArrastra el archivo a la caja o haz clic para elegir uno. Nada se sube; la extracción de texto corre en tu navegador.

Espera un momentoEl tokenizer lee cada página, extrae el texto y cuenta. Los archivos grandes tardan unos segundos.

Lee los resultadosVe los recuentos de tokens por familia de modelo, totales de palabras y caracteres, y en qué ventanas de contexto comunes cabe el archivo.

Preguntas comunes