Limpia el texto del PDF antes de enviarlo a un LLM
Un flujo rápido de limpieza para mejorar la calidad del prompt y mantener PDFs sensibles en local.
Una parte sorprendente de las malas respuestas de IA no es culpa del modelo. Es culpa de lo que metiste. Cuando la fuente es un PDF, el prompt casi siempre arrastra encabezados repetidos, números de página y líneas partidas a la mitad, y el contexto se vuelve más difícil de leer página tras página.
Así que, antes de pasar una hora retocando el prompt, limpia el texto una vez. La mayoría de las veces eso ayuda más que la cirugía al prompt.
Qué suele bajar la calidad
- El mismo encabezado/pie repetido en cada página.
- Saltos de línea en mitad de frase.
- Orden de secciones mezclado tras la extracción.
En una sola página nada de esto parece gran cosa. En un informe de 40 páginas se va acumulando, y el modelo gasta atención en el envoltorio en lugar de la señal que te importaba.
Rutina simple de limpieza
- Pasa el texto del PDF a Markdown.
- Quita las líneas repetidas de encabezado/pie.
- Conserva títulos o marcadores de página para que el contexto sobreviva.
- Revísalo una vez y borra la basura evidente.
Unos minutos aquí, y lo que viene después, resúmenes, extracción, preguntas y respuestas, queda bastante más firme.
Por qué usar Markdown aquí
Markdown da con un punto medio agradable: estructura suficiente para leer, sin tanto formato que se interponga. Se trocea fácil y se comparan dos versiones sin líos cuando hace falta.
La privacidad importa en este punto
Documentos internos, políticas, contratos, material de clientes: este es el momento exacto en que se cuela una subida accidental. PDFShore hace la conversión en tu navegador, así que el PDF original ni siquiera llega a salir de tu equipo.
Si tu día incluye contenido sensible, esa sola decisión de arquitectura cambia, sin ruido, cómo se siente todo el proceso.