Contador de Tokens do PDF

Solte um PDF aqui

ou clique pra escolher do seu dispositivo

Seu arquivo nunca sai desta aba. A gente não vê ele, e ninguém mais também.

Precisa extrair o texto primeiro?

Converta para Markdown com suporte a OCR pra PDFs escaneados.

Abrir PDF para Markdown

Quer limpar o arquivo também?

Apague metadados ocultos antes de enviar o PDF pra uma ferramenta de IA.

Abrir Remover Metadados

Sobre contar tokens de PDF

Todo LLM tem uma janela de contexto, um limite de quanto texto pode processar de uma vez, medido em tokens. Um token equivale a mais ou menos três a quatro caracteres em inglês. Saber quantos tokens tem seu PDF antes de colar no chat ou numa chamada de API ajuda a evitar truncamento silencioso e planejar como dividir documentos grandes.

Esta ferramenta extrai todo o texto do PDF localmente e roda o mesmo tokenizer que GPT-4 e GPT-3.5 usam, cl100k_base. Claude usa codificação BPE similar, então a contagem do GPT-4 é uma boa referência pra maioria dos modelos. Estimativas pra modelos genéricos usam a regra padrão de um token a cada quatro caracteres.

Como contar tokens em um PDF

1
Carregue o PDFArraste o arquivo pra caixa ou clique pra escolher um. Nada é enviado; a extração de texto roda no seu navegador.
2
Aguarde um momentoO tokenizer lê cada página, extrai o texto e conta. Arquivos grandes levam alguns segundos.
3
Leia os resultadosVeja contagens de tokens por família de modelo, total de palavras e caracteres, e em quais janelas de contexto comuns o arquivo cabe.

Contado no seu navegador

O conteúdo do seu PDF é especialmente sensível aqui, porque você provavelmente está checando antes de mandar pra um sistema de IA. O PDFShore extrai e tokeniza inteiramente no seu navegador. O texto nunca sai do seu dispositivo e nada é registrado.

Perguntas comuns

Qual é a precisão da contagem do GPT-4?

Muito alta pra PDFs baseados em texto. O mesmo vocabulário cl100k_base que a API da OpenAI usa é aplicado aqui no navegador. A contagem vai bater com o que a API cobra, com margem negligenciável.

E PDFs escaneados ou só com imagens?

Conteúdo de imagem não pode ser tokenizado diretamente. Se seu PDF é um documento escaneado sem camada de texto embutida, a contagem vai ser muito baixa ou zero. Use PDF para Markdown com OCR habilitado primeiro pra extrair uma camada de texto.

Funciona pra Claude ou Gemini?

Claude usa um tokenizer BPE similar, então a contagem do GPT-4 é uma estimativa confiável, geralmente dentro de 5 a 10 por cento. Gemini usa um tokenizer diferente, então use a contagem genérica como guia aproximado.

Sobre contar tokens de PDF

Como contar tokens em um PDF

Carregue o PDFArraste o arquivo pra caixa ou clique pra escolher um. Nada é enviado; a extração de texto roda no seu navegador.

Aguarde um momentoO tokenizer lê cada página, extrai o texto e conta. Arquivos grandes levam alguns segundos.

Leia os resultadosVeja contagens de tokens por família de modelo, total de palavras e caracteres, e em quais janelas de contexto comuns o arquivo cabe.

Perguntas comuns

Qual é a precisão da contagem do GPT-4?

Muito alta pra PDFs baseados em texto. O mesmo vocabulário cl100k_base que a API da OpenAI usa é aplicado aqui no navegador. A contagem vai bater com o que a API cobra, com margem negligenciável.