
Google lanza Gemini 3.1 Flash-Lite: velocidad e IA masiva
Redacción MBA
Google no para. El 3 de marzo de 2026, la compañía presentó Gemini 3.1 Flash-Lite, su modelo de inteligencia artificial más veloz y económico dentro de la serie Gemini 3 . Disponible desde ya en vista previa para desarrolladores a través de la API de Gemini en Google AI Studio y para empresas a través de Vertex AI, el nuevo modelo apunta directamente a los flujos de trabajo de altísimo volumen donde el costo y la latencia son variables críticas .
Un precio que cambia el juego
Con una tarifa de apenas $0,25 por millón de tokens de entrada y $1,50 por millón de tokens de salida, Gemini 3.1 Flash-Lite se posiciona como una opción radicalmente más accesible frente a modelos de mayor escala . Pero la ecuación no se trata solo de precio: según el benchmark de Artificial Analysis, el modelo es 2,5 veces más rápido en "Time to First Answer Token" y registra un 45% más de velocidad en la generación de salidas respecto a su predecesor, Gemini 2.5 Flash, manteniendo calidad similar o superior.
Benchmarks que sorprenden
Los números respaldan las afirmaciones. Gemini 3.1 Flash-Lite alcanza un Elo score de 1.432 en el Arena.ai Leaderboard y supera a modelos de su mismo nivel en razonamiento y comprensión multimodal, con un 86,9% en GPQA Diamond y un 76,8% en MMMU Pro . Estos resultados superan incluso a modelos de generaciones anteriores de mayor tamaño, como el propio Gemini 2.5 Flash . Para un modelo pensado para tareas de bajo costo, esas métricas son llamativas.
Thinking levels: flexibilidad para el desarrollador
Una de las novedades más relevantes para el ecosistema de desarrollo es la incorporación nativa de thinking levels tanto en AI Studio como en Vertex AI . Esta funcionalidad le permite al desarrollador calibrar cuánto "piensa" el modelo antes de responder, lo que resulta clave para gestionar flujos de trabajo de alta frecuencia sin desperdiciar recursos computacionales . El modelo puede manejar tareas simples a gran escala, como traducción masiva y moderación de contenidos, pero también tareas más complejas como la generación de interfaces de usuario, dashboards dinámicos o agentes SaaS multi-paso .
Casos de uso reales ya en producción
Empresas como Latitude, Cartwheel y Whering ya accedieron a versiones tempranas del modelo y destacaron su eficiencia y capacidad de razonamiento, señalando que maneja inputs complejos con la precisión de un modelo de mayor nivel, además de seguir instrucciones con alta adherencia . Las demos públicas muestran desde generación de wireframes de e-commerce con cientos de productos hasta dashboards meteorológicos en tiempo real con datos históricos integrados .
En la comparación directa con los rivales de su misma categoría de precio, Gemini 3.1 Flash-Lite aventaja a GPT-5 mini y a Claude 4.5 Haiku en seis de once benchmarks estándar. En velocidad de salida genera tokens a 381 t/s frente a los aproximadamente 180 de GPT-5 mini y los 140 de Claude 4.5 Haiku. En pricing de salida también gana: $1,50 por millón de tokens contra los $2,00 de GPT-5 mini y los $5,00 de Haiku. La única ventaja que conservan los rivales es su condición de disponibilidad general (GA) y un soporte empresarial más maduro —algo que Google apunta a resolver una vez que el modelo salga de su fase de preview.


Nemotron: NVIDIA redefine la IA abierta y agentica

Las dos líneas rojas en defensa que Anthropic no negociará con EE.UU

Sam Altman, OpenAI y el acuerdo con el Departamento de Guerra.

Nano Banana 2: la apuesta de Google por una IA visual ultrarrápida

Perplexity Computer Live: así funciona el nuevo “sistema operativo” de la IA

Altman vs Musk: la batalla por los centros de datos de IA en el espacio

SpaceX, xAI y X : el plan de Musk para escalar la IA


Argentina lanza su primer ETF del Merval: el plan de la CNV


Meta TRIBE v2: la IA que quiere simular el cerebro

Google lanza Gemini 3.1 Flash-Lite: velocidad e IA masiva



