Por qué el NLP en español falla y cómo lo compensamos en Colombia
Los modelos de IA genéricos cometen errores predecibles con el español colombiano. Explicamos por qué ocurre, qué términos fallan con más frecuencia y cómo diseñamos nuestros pipelines para compensarlo.
Los modelos de lenguaje grande como GPT o Claude están entrenados principalmente en inglés y en español genérico. Cuando los aplicas a documentos colombianos — especialmente del sector judicial, de salud o del conflicto armado — aparecen errores predecibles que tienen que ver con el contexto local, no con la inteligencia del modelo.
En Labs llevamos meses procesando documentos colombianos. Este artículo recoge los patrones de error que más encontramos y explica cómo diseñamos los pipelines para compensarlos.
Problema 1: siglas y entidades colombianas desconocidas
"SIJIN", "DIJIN", "INPEC", "ICBF", "Fiscalía Seccional", "Seccional de Investigación Criminal", "CTI" — estas siglas son de uso cotidiano en documentos judiciales colombianos pero los modelos genéricos las confunden o interpretan mal.
"CTI" puede ser interpretado como "tecnología de la información" cuando en Colombia casi siempre es el Cuerpo Técnico de Investigación. "ZOMAC" puede no existir en el vocabulario del modelo aunque es fundamental en documentos del posconflicto. La solución es incluir definiciones contextuales en el prompt y pedirle al modelo que interprete con el contexto colombiano explícito.
Problema 2: números escritos en palabras
"Cuatro hombres y una mujer" es 5 personas. "Aproximadamente una veintena" es ~20. "Tres o cuatro vehículos" es ambiguo. Los modelos genéricos a veces devuelven el texto literal en lugar de calcular el número.
En el sistema de Labs Extractor el prompt incluye instrucciones explícitas de inferencia numérica: cuando el texto describe una cantidad en palabras, el sistema calcula el número y lo marca como inferido con la cita textual original. Así el analista sabe que "5" vino de "cuatro hombres y una mujer" y puede verificarlo.
Problema 3: topónimos y divisiones territoriales colombianas
"La vereda El Jardín del municipio de Tierralta" requiere que el modelo infiera "departamento: Córdoba" si no está escrito explícitamente. "El casco urbano de Tumaco" requiere saber que Tumaco está en Nariño.
Los modelos tienen conocimiento geográfico general pero fallan con municipios pequeños o veredas. La solución es un prompt que instruye al modelo a inferir el departamento cuando conoce el municipio, y a marcar el campo como no encontrado cuando el municipio es desconocido — en lugar de inventar.
Problema 4: lenguaje eufemístico del conflicto
Los documentos del conflicto armado colombiano usan lenguaje eufemístico que varía por región y por actor. "Cobro de vacunas" es extorsión. "Hacer la vuelta" puede ser operar o delinquir según el contexto. "Los duros" son los líderes del grupo. "Integrarse" puede significar reclutamiento.
Estos términos requieren instrucciones específicas en el prompt que le indiquen al modelo el contexto colombiano del conflicto y cómo interpretar el lenguaje coloquial en documentos de testimonio y declaración.
Cómo lo compensamos en la práctica
El diseño del prompt es el trabajo central. No es solo "extrae este dato" — es una instrucción detallada que incluye el contexto colombiano, los términos específicos del sector, las reglas de inferencia y los casos límite que el modelo debe manejar de forma específica.
Para cada cliente hacemos una calibración con una muestra de sus documentos antes de procesar el lote completo. Eso nos permite identificar los patrones de error específicos de su corpus y ajustar el prompt para ese tipo de documento.
El resultado es que la precisión en extracción sobre documentos colombianos reales supera el 90% en variables bien definidas — no porque el modelo sea perfecto sino porque el prompt lo guía a interpretar correctamente el contexto.
¿Listo para probarlo?
Sin cuenta. Sin suscripción. Ve el precio exacto antes de pagar.
Ver cómo funciona Labs Extractor