Gemini 2.5 Flash vs Claude Haiku para extracción de datos en español: prueba real
Comparamos Gemini 2.5 Flash y Claude Haiku 4.5 procesando documentos judiciales y empresariales colombianos. Precisión, velocidad, costo y cuándo usar cada uno.
En Labs Extractor usamos tanto Gemini 2.5 Flash de Google como Claude Haiku 4.5 de Anthropic dependiendo del proyecto. La pregunta que nos hacen con frecuencia es cuál es mejor. La respuesta honesta es: depende — y en este artículo explicamos de qué depende con datos reales de nuestros proyectos.
Probamos ambos modelos con el mismo corpus de 50 documentos colombianos: 20 expedientes judiciales del sistema acusatorio, 15 actas de juntas directivas de SAS y 15 informes de campo del sector humanitario. Las variables a extraer fueron las mismas para todos los documentos.
Metodología de la prueba
Para cada documento enviamos el mismo prompt a los dos modelos y comparamos la extracción contra una versión anotada manualmente por un analista. Medimos: precisión por variable (% de extracciones correctas), tasa de invención (cuántas veces el modelo afirmó algo que no estaba en el documento) y tasa de omisión (cuántas veces dijo que no había dato cuando sí lo había).
El prompt fue diseñado para ser compatible con ambos modelos — no hubo ventajas artificiales para ninguno. Las condiciones de temperatura y tokens máximos fueron iguales.
Resultados: precisión general
En documentos judiciales: Claude Haiku 91.3% de precisión, Gemini 2.5 Flash 88.7%. La diferencia fue mayor en variables que requieren inferencia (números en palabras, departamento inferido desde municipio) donde Claude fue más consistente.
En actas de juntas directivas: Gemini 2.5 Flash 93.1%, Claude Haiku 90.8%. Gemini tuvo mejor desempeño en documentos bien estructurados con lenguaje formal.
En informes de campo humanitarios: Claude Haiku 89.4%, Gemini 2.5 Flash 85.2%. La diferencia fue notable en documentos con lenguaje coloquial y eufemístico del conflicto — Claude manejó mejor el contexto ambiguo.
Tasa de invención: el factor crítico
La tasa de invención — cuando el modelo afirma un dato que no está en el documento — es el error más peligroso en extracción para uso profesional. Un dato inventado en un expediente judicial o en un informe humanitario puede tener consecuencias reales.
Claude Haiku: 1.2% de tasa de invención. Gemini 2.5 Flash: 2.8%. Esta diferencia fue estadísticamente significativa en nuestro corpus. Claude tuvo una tendencia más pronunciada a responder "no encontré el dato" cuando la información no estaba clara, mientras que Gemini tendía a hacer una estimación con más confianza.
Velocidad y costo
Gemini 2.5 Flash fue entre 30% y 40% más rápido que Claude Haiku en nuestras pruebas. Para lotes grandes de documentos, esa diferencia es significativa.
En costo por token, Gemini 2.5 Flash es aproximadamente 50% más económico que Claude Haiku a igual volumen. Para proyectos con miles de documentos, la diferencia de costo puede ser de varios dólares por sesión.
Cuándo usar cada uno
Claude Haiku cuando: los documentos tienen lenguaje ambiguo o coloquial, la tasa de invención es crítica (contextos legales, humanitarios, médicos), o las variables requieren mucha inferencia y contexto.
Gemini 2.5 Flash cuando: los documentos son bien estructurados (actas, contratos, informes técnicos), el volumen es alto y el costo por procesamiento importa, o cuando la velocidad de entrega es prioritaria.
En Labs Extractor el usuario puede elegir el modelo en el momento de cotizar — la pantalla de estimación muestra el costo proyectado con cada modelo para que la decisión sea informada antes de procesar.
¿Listo para probarlo?
Sin cuenta. Sin suscripción. Ve el precio exacto antes de pagar.
Ver Labs Extractor en acción