O seu PDF cabe na janela de contexto do ChatGPT?
Janelas de contexto são medidas em tokens, não em páginas. Como contar antes de colar um PDF em qualquer ferramenta de IA, e o que fazer quando o número está alto demais.
Você cola um relatório longo no ChatGPT e pede pra ele resumir os principais riscos. A resposta parece segura. Cobre o resumo executivo e as duas primeiras seções em bom detalhe. A segunda metade do documento, a seção que você realmente precisava, foi cortada e o modelo não te avisou.
Esse é o problema da janela de contexto. Acontece silenciosamente, sem nenhuma mensagem de erro.
O que janela de contexto significa na prática
Todo modelo de linguagem tem um limite de quanto texto consegue manter na memória durante uma conversa. Quando você ultrapassa esse limite, o modelo recusa o pedido, trunca a entrada sem avisar, ou muda pra uma versão comprimida do conteúdo. Nenhuma dessas opções vem com um aviso claro.
O limite é medido em tokens, não em palavras ou páginas. Um token tem aproximadamente três a quatro caracteres de texto em inglês. Uma página típica de prosa fica entre 300 e 500 tokens dependendo de quão denso é o texto.
As janelas de contexto variam bastante entre modelos:
- GPT-3.5-turbo: 16 385 tokens (cerca de 40 a 50 páginas de texto)
- GPT-4o: 128 000 tokens (cerca de 300 a 400 páginas)
- Claude 3.5 Sonnet: 200 000 tokens
- Gemini 1.5 Pro: 1 000 000 tokens
Tokens não são palavras, e isso importa
Documentos técnicos, contratos jurídicos e PDFs com tabelas ou dados estruturados costumam tokenizar mais do que a contagem de páginas sugere. Um documento de política de 30 páginas cheio de termos definidos e referências cruzadas pode chegar facilmente a 18 000 ou 20 000 tokens. Um documento escaneado com texto mínimo pode ficar abaixo de 2 000.
PDFs com muito código são especialmente imprevisíveis. Código tokeniza de forma bem diferente de prosa. Texto em português também tokeniza a uma taxa maior por palavra na maioria dos modelos, já que os vocabulários são otimizados pra inglês. Chutar não funciona bem aqui.
Por que o corte silencioso é o problema real
A maioria das interfaces de chat não lança um erro quando você ultrapassa a janela de contexto. Elas cortam a entrada silenciosamente ou produzem uma resposta que parece completa mas cobre só parte do documento. Você não tem como saber que o truncamento aconteceu a menos que tenha verificado a contagem de tokens antes.
Pra casos onde o final do documento importa, memorandos de investimento onde os fatores de risco aparecem no último terço, contratos onde as cláusulas que interessam ficam fundo no documento, ou pesquisas onde a conclusão contradiz o resumo, isso não é um problema pequeno.
Verificar antes de colar
O contador de tokens do PDFShore extrai o texto do seu PDF no navegador e roda o mesmo tokenizador que o GPT-4 usa, cl100k_base. Você obtém a contagem real antes de qualquer coisa ir pra qualquer modelo.
Os resultados incluem total de tokens por família de modelo, uma visualização por página pra ver quais seções são mais pesadas, e uma comparação com as janelas de contexto comuns. A extração e a contagem rodam localmente. O conteúdo do seu PDF não sai da sua máquina.
O que fazer quando a contagem está alta demais
Dividir por capítulo ou seção natural é a solução mais confiável. A maioria dos documentos longos é estruturada pra leitura sequencial de qualquer forma. Passe uma seção de cada vez, começando pela parte que responde a sua pergunta.
Se você precisa só de uma parte específica de um manual longo, extraia as páginas relevantes primeiro. Passar um documento de 200 páginas quando você precisa da seção de resolução de problemas na página 140 desperdiça a maior parte da janela de contexto e torna a resposta menos confiável. Pegue as páginas certas e cole só isso.