De informe en PDF a Markdown listo para RAG
Un flujo práctico de normalización para convertir informes PDF ruidosos en chunks más limpios para recuperación y QA.
A todo el mundo le encanta decir que ya tiene un pipeline RAG. Luego aparece la fuente de verdad: PDF enormes, encabezado en cada página, pie legal que nadie lee y un formato que cambia de opinión a mitad de camino. La recuperación empeora, y la culpa se la llevan los embeddings aunque el chunk ya estuviera sucio antes de convertirse en vector.
Cuando tu fuente es PDF, un pasito a Markdown al principio te ahorra, sin ruido, un montón de horas de ajuste después.
Qué falla cuando no normalizas
- Chunks con ruido repetido en cada página.
- Límites de sección poco claros.
- Búsquedas con pasajes menos relevantes.
Un modelo solo puede ser tan bueno como el contexto que le pasas. Chunk sucio a la entrada significa recuperación floja y respuesta floja a la salida, siempre.
Flujo práctico de PDF a Markdown para RAG
- Convierte el PDF a Markdown en local.
- Quita los encabezados y pies repetidos.
- Mantén títulos por página si tu equipo cita páginas de origen a menudo.
- Trocea por título de sección, no solo por un número fijo de tokens.
Así cada chunk queda más ordenado semánticamente y se reducen las coincidencias irrelevantes que el recuperador arrastraría de vuelta.
Dónde encaja PDFShore
PDFShore es ese primer paso sin subida. Extraes el Markdown en el navegador, le das una lectura rápida y solo entonces entregas el texto limpio a tu stack de indexación.
Se gana su sitio sobre todo cuando los informes tienen contenido interno o sensible de clientes y quieres una fase local antes de que algo toque un pipeline de vectores hospedado.
Una expectativa realista
Para ser claros: esta versión es para PDFs digitales con texto seleccionable. Los documentos escaneados necesitan OCR antes, o la calidad del chunk simplemente no aparece.