Tokens vs palabras en PDF: qué importa para IA
Por qué contar palabras no alcanza para planificar prompts de IA, y cómo la estructura PDF puede inflar tokens más de lo esperado.
Un error frecuente en flujos con IA es tratar palabras y tokens como si fueran iguales. Están relacionados, pero no son equivalentes.
Si calcula tamaño de prompt solo por palabras, puede quedarse corto, sobre todo en PDFs con tablas, listas, lenguaje legal u OCR ruidoso.
Palabras para humanos, tokens para modelos
El modelo procesa tokens, no palabras. Una palabra corta puede ser un token. Un término largo puede dividirse en varios. Números y puntuación también agregan fragmentación.
Por eso dos documentos con el mismo total de palabras pueden terminar con conteos de tokens muy distintos.
Por qué en PDF la diferencia crece
- Las tablas repiten etiquetas y separadores.
- Encabezados y pies se repiten en cada página.
- El OCR puede duplicar líneas o cortar palabras.
- Código e identificadores técnicos consumen más tokens.
Cómo estimar mejor antes de enviar
Use palabras solo como referencia inicial. Para decidir de verdad, mida con el contador de tokens de PDFShore y revise dónde están los picos por página.
Si una sección se dispara, divida allí. Si todo el archivo está alto, extraiga solo capítulos útiles.