¿Su PDF cabe en la ventana de contexto de ChatGPT?
Las ventanas de contexto se miden en tokens, no en páginas. Cómo contarlos antes de pegar un PDF en cualquier herramienta de IA, y qué hacer cuando el número es demasiado alto.
Pega un informe largo en ChatGPT y le pide que resuma los principales riesgos. La respuesta parece segura. Cubre el resumen ejecutivo y las dos primeras secciones con buen detalle. La segunda mitad del documento, la sección que realmente necesitaba, fue cortada y el modelo nunca se lo dijo.
Ese es el problema de la ventana de contexto. Ocurre en silencio, sin ningún mensaje de error.
Qué significa ventana de contexto en la práctica
Cada modelo de lenguaje tiene un límite de cuánto texto puede mantener en memoria durante una sola conversación. Una vez que supera ese límite, el modelo rechaza la solicitud, trunca la entrada sin decirlo, o cambia a una versión comprimida del contenido. Ninguna de estas opciones viene acompañada de una advertencia clara.
El límite se mide en tokens, no en palabras ni páginas. Un token equivale aproximadamente a tres o cuatro caracteres de texto en inglés. Una página típica de prosa suma entre 300 y 500 tokens según la densidad del texto.
Las ventanas de contexto varían bastante entre modelos:
- GPT-3.5-turbo: 16 385 tokens (unas 40 a 50 páginas de texto)
- GPT-4o: 128 000 tokens (unas 300 a 400 páginas)
- Claude 3.5 Sonnet: 200 000 tokens
- Gemini 1.5 Pro: 1 000 000 tokens
Los tokens no son palabras, y eso importa
Los documentos técnicos, contratos legales y PDFs con tablas o datos estructurados suelen tokenizar más de lo que indica su número de páginas. Un documento de política de 30 páginas lleno de términos definidos y referencias cruzadas puede llegar fácilmente a 18 000 o 20 000 tokens. Un documento escaneado con texto mínimo puede quedar por debajo de 2 000.
Los PDFs con mucho código son especialmente impredecibles. El código tokeniza de forma muy distinta a la prosa. El texto en español también tokeniza a una tasa mayor por palabra en la mayoría de los modelos, ya que los vocabularios están optimizados para el inglés. Adivinar no funciona de forma fiable aquí.
Por qué el corte silencioso es el problema real
La mayoría de las interfaces de chat no lanzan un error cuando se supera la ventana de contexto. Simplemente recortan la entrada sin avisar o producen una respuesta que parece completa pero solo cubre parte del documento. No hay forma de saber que ocurrió el truncamiento a menos que se haya comprobado el recuento de tokens de antemano.
Para casos donde el final del documento importa, memorandos de inversión donde los factores de riesgo aparecen en el último tercio, contratos donde las cláusulas relevantes están enterradas en el documento, o investigaciones donde la conclusión contradice el resumen, este no es un problema menor.
Comprobar antes de pegar
El contador de tokens de PDFShore extrae el texto de su PDF en el navegador y ejecuta el mismo tokenizador que usa GPT-4, cl100k_base. Obtiene el recuento real antes de que nada llegue a ningún modelo.
Los resultados incluyen tokens totales por familia de modelo, un desglose por página para ver qué secciones son más pesadas, y una comparación con las ventanas de contexto más comunes. La extracción y el recuento se ejecutan localmente. El contenido de su PDF no abandona su equipo.
Qué hacer cuando el recuento es demasiado alto
Dividir por capítulo o sección natural es la solución más fiable. La mayoría de los documentos largos están estructurados para lectura secuencial de todos modos. Pase una sección a la vez, comenzando por la parte que responde su pregunta.
Si solo necesita una parte concreta de un manual largo, extraiga esas páginas primero. Pasar un documento de 200 páginas cuando necesita la sección de resolución de problemas en la página 140 desperdicia la mayor parte de la ventana de contexto y hace la respuesta menos fiable.