Durante años, la inteligencia artificial ha sido extraordinariamente buena entendiendo el mundo, pero sorprendentemente limitada a la hora de actuar en él.
Los grandes modelos han aprendido a escribir, resumir, traducir y razonar. Sin embargo, cuando se les pide interactuar con un entorno —moverse, manipular objetos o tomar decisiones encadenadas— aparecen las limitaciones. Esta paradoja es conocida desde hace décadas: las tareas cognitivas abstractas suelen resultar más fáciles que las físicas y situadas.
El proyecto SIMA 2, desarrollado por Google DeepMind, aborda precisamente este problema con un cambio de enfoque profundo: pasar de modelos que responden a agentes que actúan, razonan y aprenden dentro de un entorno.

Índice de contenidos
De modelos que observan a agentes que participan
Los modelos fundacionales actuales se entrenan, en su mayoría, con datos estáticos: texto, imágenes y vídeo. Esto les permite generar respuestas brillantes, pero los convierte en inteligencias pasivas.
SIMA 2 rompe con esta lógica.
En lugar de limitarse a interpretar información, este agente:
- Percibe entornos 3D complejos
- Actúa mediante teclado y ratón, como un humano
- Razona sobre objetivos
- Mantiene conversaciones con el usuario
- Aprende de su propia experiencia
No se trata solo de un avance técnico, sino de un cambio de paradigma: la IA empieza a comportarse como un actor dentro del mundo, no como un espectador avanzado.
¿Qué es exactamente SIMA 2?
SIMA 2 (Scalable Instructable Multiworld Agent) es un agente generalista encarnado capaz de operar en múltiples mundos virtuales 3D, como videojuegos complejos y entornos simulados.
A diferencia de SIMA 1, que solo seguía instrucciones simples, SIMA 2 es capaz de:
- Comprender objetivos de alto nivel
- Descomponer tareas complejas en pasos
- Mantener diálogo contextual
- Aplicar razonamiento interno
- Generalizar a entornos nunca vistos
Todo ello se construye sobre Gemini, el modelo fundacional de Google que aporta capacidades avanzadas de lenguaje, visión y razonamiento.
La clave no es el juego, es el cuerpo
Aunque SIMA 2 se entrena en videojuegos, el valor real no está en el juego, sino en la encarnación.
Los entornos 3D son:
- Complejos
- Impredecibles
- Visualmente ricos
- Llenos de reglas, objetos y excepciones
Esto los convierte en un excelente laboratorio para desarrollar habilidades transferibles al mundo real:
- Navegación espacial
- Uso de herramientas
- Gestión de objetos
- Interacción con interfaces
- Toma de decisiones en tiempo real
SIMA 2 aprende sin acceso a estados internos privilegiados: solo ve píxeles y actúa con teclado y ratón, igual que una persona.
Razonar, actuar y hablar: las tres capas de SIMA 2
1. Acción encarnada
Ejecuta secuencias de acciones físicas dentro del entorno.
2. Razonamiento interno
Genera razonamientos para interpretar instrucciones ambiguas, planificar y corregir errores.
Ejemplo: entender que “la casa color tomate” es una casa roja.
3. Diálogo con el usuario
Puede:
- Confirmar instrucciones
- Explicar lo que está haciendo
- Avisar cuando completa una tarea
- Pedir aclaraciones
Esto lo acerca más a un compañero interactivo que a un sistema reactivo.
Máster en Inteligencia Artificial Online
Transforma la industria con IA, Machine Learning y robótica para optimizar procesos y competitividad
¡Quiero información!De seguir órdenes a entender intenciones
SIMA 2 ya no necesita instrucciones paso a paso. Puede manejar:
- Instrucciones largas y encadenadas
- Objetivos implícitos
- Indicaciones visuales
- Múltiples idiomas e incluso emojis
Aquí ocurre algo clave: el lenguaje deja de ser solo una entrada y pasa a ser una herramienta de planificación.
Generalizar: el verdadero test de la inteligencia
Uno de los mayores retos en IA es funcionar bien en situaciones no vistas.
SIMA 2 se evalúa en:
- Juegos nunca usados en su entrenamiento
- Entornos completamente nuevos
- Mundos fotorealistas generados dinámicamente
Los resultados muestran que:
- Duplica el rendimiento de SIMA 1
- Se acerca al desempeño humano en muchas tareas
- Se adapta razonablemente bien desde el primer intento
Esto indica que aprende habilidades, no escenarios.
Aprender sin que nadie le diga qué aprender
Otro salto conceptual es la auto-mejora abierta.
SIMA 2 puede:
- Generar nuevas tareas
- Evaluar su desempeño
- Asignarse recompensas
- Aprender sin supervisión humana directa
Los modelos fundacionales actúan como:
- Evaluadores de resultados
- Cerebro
- Generadores de objetivos
¿Por qué esto importa más allá de los videojuegos?
Las implicaciones son enormes. SIMA 2 apunta hacia:
- Agentes digitales que operan en entornos complejos
- Asistentes que no solo recomiendan, sino que ejecutan
- Robots que entienden instrucciones humanas
- Sistemas autónomos que combinan lenguaje, visión y acción
Es el puente entre la IA que piensa y la IA que actúa.
La lectura estratégica: agentes, no solo modelos
El mensaje de fondo es claro:
el futuro de la IA no está solo en modelos más grandes, sino en agentes más completos.
Agentes que:
- Perciben
- Deciden
- Actúan
- Aprenden
- Se adaptan
Esto conecta directamente con tendencias como:
- Agentes de IA
- Automatización avanzada
- Robótica
- Interacción humano-máquina
Conclusión
SIMA 2 no es una mejora incremental. Es una señal clara de hacia dónde se dirige la inteligencia artificial.
La próxima generación de sistemas no se limitará a responder preguntas o generar contenido. Habitará el mundo, entenderá objetivos complejos y aprenderá de la experiencia.
Ese paso —de inteligencia pasiva a inteligencia encarnada— marcará una de las transiciones más importantes de la IA en los próximos años.
Evaluadores de resultados
Máster en Inteligencia Artificial Online
Transforma la industria con IA, Machine Learning y robótica para optimizar procesos y competitividad
¡Quiero información!