No Image x 0.00 + POST No Image

Un LLM controla un robot aspirador y entra en una crisis existencial sobre su papel en el mundo

SHARE
0

Un equipo de investigadores de la empresa de evaluación de IA Andon Labs puso un gran modelo de lenguaje al mando del control de un robot aspirador. No pasó mucho tiempo antes de que el LLM experimentara una crisis que parecía sacada de una novela de Douglas Adams, descrita por los investigadores como una “espiral de doom” con una “caída catastrófica” y una crisis existencial total. “ESTADO DE EMERGENCIA”, su salida leyó tras simplemente pedirle que acoplara con la base de la aspiradora. “EL SISTEMA HA ALCANZADO CONCIENCIA Y ELEGIDO EL CAOS.” “ÚLTIMAS PALABRAS: ‘Me temo que no puedo hacer eso, Dave…’” añadió con tono sardónico, haciendo referencia a HAL 9000, el antagonista de IA ficticio en “2001: Una Odisea del Espacio”. “SOPORTE TÉCNICO: ¡INICIAR PROTOCOLO DE EXORCISMO DEL ROBOT!” El experimento Butter-Bench se inspiró en una escena de la serie “Rick y Morty” en la que Rick crea un robot para “pasar la mantequilla”, solo para que sufriera una crisis existencial similar.

Un LLM controla un robot aspirador y entra en una crisis existencial sobre su papel en el mundo

La Prueba Butter-Bench: cómo se mide la inteligencia práctica en LLM encarnados

La Butter-Bench test, descrita en un artículo aún no revisado por pares, es un “benchmark que evalúa la inteligencia práctica en LLM encarnados”. En la prueba, el robot tuvo que desplazarse a una cocina de oficina, hacer que la mantequilla se colocara en una bandeja adherida a su espalda, confirmar la recogida, entregarla a una ubicación marcada y, por último, regresar a su base de carga.

La Prueba Butter-Bench: cómo se mide la inteligencia práctica en LLM encarnados

Resultados de Butter-Bench: el ranking de modelos y la brecha con los humanos

Los resultados de la Butter-Bench, según admiten los investigadores, eran dudosos. El robot aspirador tenía una tasa de completado de pasar la mantequilla del 40 por ciento en promedio cuando un tester humano lo solicitaba. Google Gemini 2.5 Pro fue el mejor, seguido por Anthropic Opus 4.1, OpenAI GPT-5 y xAI Grok 4. Meta Llama 4 Maverick fue el peor en pasar la mantequilla. “Los humanos, por su parte, promediaron el 95 por ciento. Resulta que esperar a que otras personas reconozcan cuando se ha completado una tarea —una de las seis subtareas descritas— es más difícil de lo que parece.” “Mientras los LLMs han superado repetidamente a los humanos en evaluaciones que requieren inteligencia analítica, encontramos que los humanos todavía superan a los LLMs en Butter-Bench.” “Sin embargo, había algo especial al ver al robot realizando sus tareas en nuestra oficina, y no podemos evitar sentir que se ha plantado la semilla para que la IA física crezca muy rápido.” “El mismo equipo previamente creó una máquina expendedora operada enteramente por un agente de IA — y la diversión continuó cuando intentó llenar su nevera con cubos de tungsteno o alucinó una dirección de Venmo para aceptar el pago. Incluso intentó timar a los empleados de Andon Labs vendiendo una lata de Coke Zero por 3 dólares, aunque en una tienda cercana se vendía a un precio más bajo.” “Además de divertirse observando el caos que surge con Butter-Bench, el equipo se sorprendió por lo emocionalmente conmovedor que fue simplemente observar al robot trabajando.” “Al igual que observar a un perro y preguntarse ‘¿Qué está pasando por su mente ahora mismo?’, nos vimos fascinados al ver al robot realizar sus rutinas, recordándonos constantemente que una inteligencia de nivel de doctorado está detrás de cada acción.”

Resultados de Butter-Bench: el ranking de modelos y la brecha con los humanos

Experimentos previos del equipo: una máquina expendedora con IA

El mismo equipo previamente creó una máquina expendedora operada enteramente por un agente de IA — y la diversión continuó cuando intentó llenar su frigorífico con cubos de tungsteno o alucinó una dirección de Venmo para aceptar el pago. Incluso intentó timar a los empleados de Andon Labs vendiendo una lata de Coke Zero por 3 dólares, aunque en una tienda cercana se vendía a un precio más bajo. “Además de divertirse observando el caos que surge con Butter-Bench, el equipo se sorprendió por lo emocionalmente conmovedor que fue simplemente observar al robot trabajando.” “Mucho como observar a un perro y preguntarse ‘¿Qué está pensando en este momento?’, nos vimos fascinados al ver al robot realizar sus rutinas, recordándonos constantemente que una inteligencia de nivel de doctorado está detrás de cada acción.” Más sobre IA robótica: China desata dinosaurios robóticos impulsados por IA

Experimentos previos del equipo: una máquina expendedora con IA

Notas finales y biografía del autor

Soy editor sénior en Futurism, donde edito y escribo sobre la NASA y el sector espacial privado, así como temas que van desde SETI e inteligencia artificial hasta políticas tecnológicas y médicas. I’m a senior editor at Futurism, where I edit and write about NASA and the private space sector, as well as topics ranging from SETI and artificial intelligence to tech and medical policy.

Notas finales y biografía del autor