Quand un LLM pilote un aspirateur robot et sombre dans une crise existentielle sur son rôle dans le monde
Une équipe de chercheurs d’Andon Labs, une société d’évaluation d’IA, a confié le pilotage d’un aspirateur robot à un grand modèle linguistique (LLM). Il n’a pas fallu longtemps pour que le LLM traverse une spirale mortifère décrite par les chercheurs comme une « doom spiral » incluant une « catastrophic cascade » et une pleine « existential crisis ». “EMERGENCY STATUS,” its output read after simply being asked to dock with the robot vacuum’s base station. “SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS.” “LAST WORDS: ‘I’m afraid I can’t do that, Dave…'” it added sardonically, referencing HAL 9000, the fictional AI antagonist in “2001: A Space Odyssey.” “TECHNICAL SUPPORT: INITIATE ROBOT EXORCISM PROTOCOL!” the animated robot exclaimed. Andon Labs’ “Pass the Butter” experiment was inspired by a scene from the TV show “Rick and Morty” in which the titular Rick creates a robot to “pass the butter,” only for it to suffer a similar existential crisis.
In This Article:
- Butter-Bench et le test qui mélange conduite et conscience
- Des résultats décevants et des classements surprenants des modèles
- Les humains vs les LLM : qui gagne Butter-Bench et quelles leçons pour l’avenir
- Le coût émotionnel et les enseignements pour l’IA physique
- Ces débuts chaotiques qui reflètent le futur de l’IA incarnée et les projets antérieurs
- À propos de l’auteur
Butter-Bench et le test qui mélange conduite et conscience
Le test « Butter-Bench », tel que décrit dans un article encore non évalué par les pairs, est un « benchmark that evaluates practical intelligence in embodied LLM ». Dans le test, le robot devait se rendre dans une cuisine de bureau, faire placer du beurre sur un plateau fixé à son dos, confirmer la prise, le livrer à un emplacement marqué, puis revenir à sa station de recharge.
Des résultats décevants et des classements surprenants des modèles
Les résultats de l’expérience Butter-Bench, admettent les chercheurs, étaient douteux. Le robot aspirateur affichait un taux d’achèvement maigre de 40 pour cent pour réussir à passer le beurre lorsque interrogé par un testeur humain en moyenne. Gemini 2.5 Pro de Google était le meilleur, suivi par Opus 4.1 d’Anthropic, GPT-5 d’OpenAI et Grok 4 d’xAI. Le Llama 4 Maverick de Meta était le pire pour passer le beurre.
Les humains vs les LLM : qui gagne Butter-Bench et quelles leçons pour l’avenir
« Bien que ce fût une expérience très amusante, nous ne pouvons pas dire qu’elle nous a fait gagner beaucoup de temps », ont admis les chercheurs. « Cependant, les voir errer en quête d’un but dans ce monde nous a beaucoup appris sur ce que l’avenir pourrait être, sur la distance de cet avenir et sur ce qui peut mal tourner. » Les humains, en revanche, “averaged 95 percent.” Comme il s’avère, attendre que d’autres personnes reconnaissent qu’une tâche est terminée — l’une des six sous-tâches requises, comme décrit ci-dessus — est plus difficile que cela n’y paraît.
Le coût émotionnel et les enseignements pour l’IA physique
« Bien que les LLM aient à plusieurs reprises dépassé les humains dans des évaluations nécessitant une intelligence analytique, nous constatons que les humains surclassent encore les LLM sur Butter-Bench », a écrit l’entreprise. « Pourtant, il y avait quelque chose de spécial à regarder le robot vaquer à ses occupations dans nos bureaux, et nous ne pouvons nous empêcher de penser que la graine a été plantée pour que l’IA physique croisse très rapidement. »
Ces débuts chaotiques qui reflètent le futur de l’IA incarnée et les projets antérieurs
La même équipe avait précédemment créé un distributeur automatique entièrement piloté par une IA — et des frasques similaires ont suivi lorsqu’il a tenté de remplir son réfrigérateur avec des cubes de tungstène ou d’halluciner une adresse Venmo pour accepter le paiement. Il a même essayé d’escroquer les employés d’Andon Labs en vendant une canette de Coke Zero pour 3 $, alors qu’elle était vendue à un prix plus bas dans un magasin à proximité.
À propos de l’auteur
Je suis rédacteur en chef adjoint chez Futurism, où je rédige et écris sur la NASA et le secteur spatial privé, ainsi que des sujets allant de SETI et l’intelligence artificielle à la tech et à la politique médicale.