De relatório em PDF para Markdown pronto para RAG
Um fluxo prático de normalização para transformar relatórios PDF ruidosos em chunks melhores para recuperação e QA.
Todo mundo adora dizer que tem um pipeline de RAG. Aí chega a fonte de verdade: PDF gigante, cabeçalho em toda página, rodapé jurídico que ninguém lê e formatação que muda de ideia no meio do caminho. A recuperação piora, e a culpa sobra pro embedding, mesmo que o chunk já estivesse bagunçado antes de virar vetor.
Quando a sua fonte é PDF, um passinho pra Markdown lá no começo economiza, sem alarde, um monte de hora de ajuste depois.
O que dá errado quando você pula normalização
- Chunk com ruído repetido em todas as páginas.
- Fronteira de seção pouco clara.
- Busca retornando trechos menos relevantes.
Um modelo só consegue ser tão bom quanto o contexto que você entrega. Chunk sujo na entrada vira recuperação fraca e resposta fraca na saída, sempre.
Fluxo prático PDF para Markdown no RAG
- Converter o PDF para Markdown localmente.
- Tirar os cabeçalhos e rodapés repetidos.
- Manter títulos de página se o time cita a origem com frequência.
- Quebrar por título de seção, não só por uma contagem fixa de tokens.
Isso mantém cada chunk mais arrumado semanticamente e corta os matches irrelevantes que o recuperador traria de volta sem necessidade.
Onde o PDFShore entra
O PDFShore é esse primeiro passo sem upload. Você extrai o Markdown no navegador, dá uma lida rápida e só então entrega o texto limpo pra sua pilha de indexação.
Ele se justifica mais ainda quando o relatório tem conteúdo interno ou sensível de cliente e você quer uma etapa local antes de qualquer pipeline de vetor hospedado.
Uma expectativa realista
Sendo direto: esta versão é pra PDF digital com texto selecionável. Documento escaneado precisa de OCR antes, senão a qualidade do chunk simplesmente não aparece.