Contagem de tokens vs palavras em PDF: o que importa para IA
Por que contar palavras não basta para planejar prompts de IA, e como a estrutura do PDF pode inflar tokens além do esperado.
Um erro comum em fluxo com IA é tratar palavra e token como se fosse a mesma coisa. São relacionados, mas não equivalentes.
Quando você planeja tamanho de prompt só por contagem de palavras, pode subestimar bastante, principalmente em PDFs com tabela, lista, linguagem jurídica ou ruído de OCR.
Palavra serve para gente, token serve para modelo
O modelo consome tokens, não palavras. Uma palavra curta pode virar um token. Um termo maior pode quebrar em vários. Números, pontuação e formatação especial criam divisões extras.
Por isso, dois documentos com 5 000 palavras podem ter contagens de token bem diferentes.
Onde o PDF piora essa diferença
- Tabelas repetem rótulos e separadores.
- Cabeçalhos e rodapés aparecem em toda página.
- OCR pode duplicar linha e quebrar palavras.
- Trechos de código e identificadores pesam em tokens.
Esses padrões inflacionam tokens enquanto o total visual de palavras ainda parece normal.
Como estimar melhor antes do prompt
Use palavra como triagem rápida. Para decisão real, meça no contador de tokens do PDFShoree veja os picos por página.
Se uma seção dispara, divida ali. Se o arquivo inteiro estiver alto, extraia só os capítulos relevantes e preserve janela de contexto para a pergunta que importa.
Regra prática que funciona
Em PDFs corporativos densos, o total de tokens costuma cair entre 1,2x e 1,8x de uma expectativa ingênua baseada em palavras. Com OCR ruim pode passar disso. Meça primeiro, depois peça resposta.