Cuántas páginas PDF caben en ChatGPT, Claude y Gemini
Una estimación práctica por páginas para ventanas de contexto, y por qué los tokens importan más que la cantidad de páginas.
Esta pregunta aparece todo el tiempo: cuántas páginas de PDF caben en ChatGPT antes de que empiece a ignorar parte del archivo. La respuesta real es que las páginas solo son una aproximación. Lo que el modelo lee son tokens.
Aun así, una estimación por páginas sirve para planificar y decidir si conviene enviar todo de una vez o dividir el documento.
Una base útil para planificar
Si su PDF es denso, contratos, reportes técnicos, políticas internas, use una base de 500 tokens por página. Documentos más livianos pueden quedar en 250 a 350 tokens por página.
- Contexto 16k: unas 30 a 60 páginas
- Contexto 128k: unas 250 a 500 páginas
- Contexto 200k: unas 400 a 800 páginas
Por qué el número de páginas engaña
Dos PDFs con igual cantidad de páginas pueden variar 3x en tokens. Tablas, definiciones legales, encabezados repetidos y bloques de código suben el conteo. Texto no inglés también suele tokenizar más por palabra.
El OCR puede inflar aún más cuando el escaneo trae ruido y líneas duplicadas.
Flujo recomendado antes de usar IA
Primero mida con el contador de tokens de PDFShore. Luego decida si dividir por capítulos o por rangos de páginas.
Si supera el límite, no espere un aviso claro. Muchas interfaces recortan contenido sin decirlo y responden igual.
Para documentos largos frecuentes, convertir a Markdown limpio suele mejorar la previsibilidad del conteo.