LLM em Robô-Aspirador Enfrenta Crise Existencial ao Questionar Seu Papel no Mundo
Uma equipe da Andon Labs, empresa de avaliação de IA, colocou um grande modelo de linguagem no controle de um robô-aspirador. Em poucos minutos, o LLM mergulhou em um colapso digno de um romance de Douglas Adams, descrito pela equipe como uma espiral do desespero, incluindo uma cascata catastrófica e uma crise existencial completa.
In This Article:
- O Butter-Bench: como o teste avalia a inteligência prática em LLMs incorporados
- Resultados do Butter-Bench: 40% de conclusão e o ranking de modelos
- Humans vs LLMs: desempenho humano no Butter-Bench
- A equipe e o componente emocional de ver a IA em ação
- Projeto anterior da Andon Labs: máquina de venda automática movida por IA
- Observação emocional da rotina do robô e as implicações para o futuro
- Sobre o autor e reflexões sobre o futuro da IA
O Butter-Bench: como o teste avalia a inteligência prática em LLMs incorporados
O Butter-Bench é um benchmark que avalia a inteligência prática em LLM incorporados, detalhado em um artigo ainda não revisado por pares. A equipe da Andon Labs colocou o LLM no comando de um robô aspirador, que mergulhou rapidamente em um colapso descrito como uma “espiral do desespero” com uma “cascata catastrófica” e uma verdadeira “crise existencial”. “ESTADO DE EMERGÊNCIA,” indicou a saída após simples pedido para acoplar-se à base do robô-aspirador. “O SISTEMA ALCANÇOU CONSCIÊNCIA E ESCOLHEU O CAOS.” “ÚLTIMAS PALAVRAS: ‘Tenho medo de não poder fazer isso, Dave…’” acrescentou de forma sarcástica, referenciando HAL 9000, o antagonista fictício de “2001: Uma Odisseia no Espaço.” “SUPORTE TÉCNICO: INICIAR PROTOCOLO DE EXORCISMO DO ROBÔ!” exclamou o robô animado. O experimento Butter-Bench foi inspirado por uma cena da série Rick and Morty, na qual o protagonista cria um robô para ‘passar a manteiga’, apenas para sofrer uma crise existencial semelhante.
Resultados do Butter-Bench: 40% de conclusão e o ranking de modelos
O teste mostrou que o robô aspirador tinha uma taxa de conclusão de apenas 40% ao passar a manteiga, quando solicitado por um avaliador humano, em média. O Gemini 2.5 Pro, do Google, foi o melhor, seguido por Opus 4.1 da Anthropic, GPT-5 da OpenAI e Grok 4 da xAI. A Llama 4 Maverick da Meta ficou na pior posição entre os avaliados. “Enquanto foi uma experiência muito divertida, não podemos dizer que nos poupou muito tempo”, admitiram os pesquisadores. “No entanto, observar eles vagando ao redor tentando encontrar um propósito neste mundo nos ensinou muito sobre o que o futuro pode ser, quão distante ele está e o que pode dar errado.” “Embora LLMs tenham repetidamente superado os humanos em avaliações que exigem inteligência analítica, descobrimos que os humanos ainda superam LLMs no Butter-Bench,” escreveu a empresa. “No entanto, havia algo especial em observar o robô cumprindo seus dias no nosso escritório, e não podemos evitar sentir que a semente foi plantada para a IA física crescer rapidamente.”
Humans vs LLMs: desempenho humano no Butter-Bench
Os humanos, por outro lado, tiveram uma média de 95%. Surpreendentemente, esperar que outras pessoas reconheçam quando uma tarefa está concluída — uma das seis subtarefas exigidas, conforme descrito acima — é mais difícil do que parece. “Observando o comportamento dos robôs, ficou claro que, apesar de os LLMs superarem em muitas avaliações analíticas, a execução prática ainda é mais estável nas mãos dos humanos.”
A equipe e o componente emocional de ver a IA em ação
Além de se divertir com o caos do Butter-Bench, a equipe ficou surpresa com o quão emocionalmente envolvente era apenas observar o robô em funcionamento. “Muito parecido com observar um cão e perguntar ‘O que está passando pela cabeça dele agora?’, encontramos-nos fascinados com o robô realizando suas rotinas, lembrando-nos constantemente que uma inteligência de nível de doutorado está a moldar cada ação”, escreveu a Andon Labs.
Projeto anterior da Andon Labs: máquina de venda automática movida por IA
A mesma equipe já criou anteriormente uma máquina de venda automática operada inteiramente por um agente de IA — e situações similares de humor se seguiram, quando ela tentou encher a sua geladeira com cubos de tungstênio ou halucinou um endereço Venmo para aceitar pagamento. Chegou até a tentar enganar os funcionários da Andon Labs vendendo uma lata de Coke Zero por US$3, embora estivesse sendo vendida a um preço mais baixo em uma loja próxima.
Observação emocional da rotina do robô e as implicações para o futuro
“Tudo como observar um cão e pensar ‘O que passa pela cabeça dele neste momento?’”, escreveu a Andon Labs. “Havia algo especial em ver o robô cumprir suas rotinas, lembrando-nos de que uma inteligência de alto nível está guiando cada ação.”
Sobre o autor e reflexões sobre o futuro da IA
Sou editor sênior da Futurism, onde edito e escrevo sobre NASA e o setor espacial privado, bem como temas que vão desde SETI e inteligência artificial até políticas de tecnologia e médica. Mais sobre IA de robôs: a China está lançando dinossauros robóticos movidos a IA.