Limpe o texto do PDF antes de enviar para um LLM
Um fluxo rápido de limpeza para melhorar qualidade de prompt e manter PDFs sensíveis locais.
Boa parte das respostas ruins de IA não é culpa do modelo. É culpa do que você colocou na entrada. Quando a fonte é PDF, o prompt quase sempre arrasta cabeçalho repetido, número de página e linha cortada no meio, e o contexto vai ficando mais difícil de ler página após página.
Então, antes de gastar uma hora mexendo no prompt, limpe o texto uma vez. Na maioria das vezes isso resolve mais do que a cirurgia no prompt resolveria.
O que costuma derrubar qualidade
- Mesmo cabeçalho/rodapé repetido em toda página.
- Quebra de linha no meio da frase.
- Ordem de seções embaralhada após extração.
Numa página só, nada disso parece grande coisa. Num relatório de 40 páginas, vai acumulando, e o modelo gasta atenção na embalagem em vez do sinal que você queria.
Uma rotina simples de limpeza
- Jogue o texto do PDF pra dentro do Markdown.
- Tire as linhas repetidas de cabeçalho/rodapé.
- Mantenha títulos de seção ou marcadores de página pro contexto sobreviver.
- Passe o olho uma vez e apague o lixo óbvio.
Alguns minutos aqui, e o que vem depois, resumo, extração, perguntas e respostas, fica visivelmente mais firme.
Por que Markdown nesse ponto
Markdown acerta um meio-termo bom: estrutura suficiente pra ler, sem formato demais te atrapalhando. Quebra em chunks com facilidade e dá pra comparar duas versões sem dor de cabeça depois.
Privacidade importa aqui
Documento interno, política, contrato, material de cliente: é exatamente nesse passo que o upload acidental costuma escapar. O PDFShore faz a conversão no seu navegador, então o PDF original nem chega a sair da sua máquina.
Se o seu dia tem conteúdo sensível, essa única decisão de arquitetura muda, sem barulho, a sensação de todo o processo.