Todo LLM tem uma janela de contexto, um limite de quanto texto pode processar de uma vez, medido em tokens. Um token equivale a mais ou menos três a quatro caracteres em inglês. Saber quantos tokens tem seu PDF antes de colar no chat ou numa chamada de API ajuda a evitar truncamento silencioso e planejar como dividir documentos grandes.
Esta ferramenta extrai todo o texto do PDF localmente e roda o mesmo tokenizer que GPT-4 e GPT-3.5 usam, cl100k_base. Claude usa codificação BPE similar, então a contagem do GPT-4 é uma boa referência pra maioria dos modelos. Estimativas pra modelos genéricos usam a regra padrão de um token a cada quatro caracteres.
O conteúdo do seu PDF é especialmente sensível aqui, porque você provavelmente está checando antes de mandar pra um sistema de IA. O PDFShore extrai e tokeniza inteiramente no seu navegador. O texto nunca sai do seu dispositivo e nada é registrado.
Muito alta pra PDFs baseados em texto. O mesmo vocabulário cl100k_base que a API da OpenAI usa é aplicado aqui no navegador. A contagem vai bater com o que a API cobra, com margem negligenciável.
Conteúdo de imagem não pode ser tokenizado diretamente. Se seu PDF é um documento escaneado sem camada de texto embutida, a contagem vai ser muito baixa ou zero. Use PDF para Markdown com OCR habilitado primeiro pra extrair uma camada de texto.
Claude usa um tokenizer BPE similar, então a contagem do GPT-4 é uma estimativa confiável, geralmente dentro de 5 a 10 por cento. Gemini usa um tokenizer diferente, então use a contagem genérica como guia aproximado.