Quantas páginas de PDF cabem no ChatGPT, Claude e Gemini?
Uma estimativa prática por página para janelas de contexto, e por que tokens ainda importam mais que número de páginas.
Essa pergunta aparece toda semana: quantas páginas de PDF cabem no ChatGPT antes dele começar a ignorar parte do arquivo? A resposta honesta é que páginas são só uma aproximação. O que o modelo realmente lê são tokens.
Mesmo assim, estimar por página ajuda muito no planejamento. Dá pra decidir rápido se o arquivo cabe inteiro ou se vale dividir antes.
Uma base prática
Se o PDF é denso, contratos, relatórios técnicos, políticas internas, use como base segura 500 tokens por página. Documentos mais leves podem cair para 250 a 350 tokens. Escaneados com pouco texto podem ficar bem abaixo.
- Contexto de 16k: cerca de 30 a 60 páginas
- Contexto de 128k: cerca de 250 a 500 páginas
- Contexto de 200k: cerca de 400 a 800 páginas
Por que a contagem por página varia tanto
Dois PDFs com o mesmo número de páginas podem variar 3x em tokens. Tabelas, definições jurídicas, cabeçalhos repetidos e blocos de código aumentam bastante o consumo. Texto em português também costuma tokenizar mais pesado que prosa simples em inglês.
OCR também pode inflar rápido quando o scan tem ruído, palavras quebradas e linhas duplicadas.
Fluxo ideal antes de enviar para IA
Primeiro, rode no contador de tokens do PDFShore. Depois decida se precisa dividir por capítulo, por seção ou por faixa de páginas.
Se passar do limite do modelo, não conte com aviso da interface. Várias ferramentas truncam em silêncio e ainda entregam resposta com cara de completa.
Para documentos longos recorrentes, limpar e converter para Markdown antes costuma deixar o uso de tokens mais previsível.