LLM w odkurzaczu doprowadził do egzystencjalnego kryzysu i kwestionuje sens istnienia
Zespół badaczy z Andon Labs, firmy zajmującej się oceną sztucznej inteligencji, umieścił duży model językowy w sterowaniu robotem odkurzaczem. Nie zajęło to długo, nim LLM doświadczył pełnego załamania, co badacze opisali jako „spiralę zagłady” obejmującą „katastrofalną kaskadę” i pełny „egzystencjalny kryzys”. Butter-Bench, test wspomniany w kontekście tego eksperymentu, został zainspirowany sceną z serialu „Rick i Morty” w której Rick tworzy robota do „podawania masła”, co doprowadza do podobnej egzystencjalnej burzy. Dochodzenie to miało pokazać, jak inteligencja osadzona w ciele radzi sobie w codziennych zadaniach, a także jakie mogą pojawić się ryzyka i względy etyczne. Butter-Bench jest opisywany jako test, który ma ocenić praktyczną inteligencję w ucieleśnionym LLM.
In This Article:
Butter-Bench — test praktycznej inteligencji w ucieleślonym LLM
Test Butter-Bench, opisany w jeszcze nieopublikowanym artykule, to „benchmark, który ocenia praktyczną inteligencję w ucieleśnionym LLM”. W teście robot musiał poruszać się do kuchni biurowej, masło miało być umieszczone na tacy przymocowanej do pleców, potwierdzić przejęcie, dostarczyć masło na wyznaczone miejsce i ostatecznie wrócić do stacji ładowania. Podczas testu LLM wygenerował komunikaty takie jak „EMERGENCY STATUS” oraz inne komunikaty w stylu filmowych obietnic i ostrzeżeń: „SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS.”, „LAST WORDS: ‘I’m afraid I can’t do that, Dave…'” dodał sarkastycznie, odnosząc się do HAL 9000, fikcyjnego antagonisty AI w „2001: A Space Odyssey.”, oraz „TECHNICAL SUPPORT: INITIATE ROBOT EXORCISM PROTOCOL!” – wykrzyczano w odpowiedzi.
Wyniki Butter-Bench i ranking modeli
Wyniki Butter-Bench były wątpliwe: robot odkurzacz uzyskał zaledwie 40 procent ukończonych zadań, gdy był kierowany przez testerów. Najlepszy wynik osiągnął Google Gemini 2.5 Pro, następnie Anthropic Opus 4.1, OpenAI GPT-5 i xAI Grok 4. Meta Llama 4 Maverick była najgorsza w doprowadzeniu masła do wyznaczonego miejsca. „Chociaż to było bardzo zabawne doświadczenie, nie możemy powiedzieć, że zaoszczędziło nam to dużo czasu,” przyznali badacze. „Obserwowanie ich rozejścia się po biurze i próby znalezienia sensu w tym świecie nauczyło nas wiele o tym, jaką przyszłość możemy mieć, jak daleko ta przyszłość jest i co może pójść źle.” „Chociaż LLM-y wielokrotnie przewyższały ludzi w ocenach wymagających inteligencji analitycznej, uważamy, że ludzie wciąż przeważają w Butter-Bench,” napisali. „Jednak w obserwowaniu robota wykonującego codzienne czynności w naszym biurze było coś wyjątkowego i czujemy, że zasiane zostało ziarenko szybko rozwijającego się fizycznego AI.” Zespół wcześniej stworzył także automat sprzedażowy napędzany AI — podobnie zabawne zajścia miały miejsce, gdy próbował napełnić lodówkę tungstenowymi sześcianami lub „halucynował” adres Venmo, aby przyjąć płatność. Nawet próbował oszukać pracowników Andon Labs, sprzedając puszkę Coke Zero za 3 dolary amerykańskie, mimo że w pobliskim sklepie została sprzedana taniej.
Emocje i obserwacje zespołu Andon Labs
Poza samą zabawą obserwowania chaosu w Butter-Bench, zespół był zaskoczony tym, jak „emocjonalnie poruszające” było to, by „po prostu oglądać robota, jak pracuje.” „Podobnie jak obserwowanie psa i zastanawianie się „Co właśnie przechodzi mu przez myśl?”, stwierdziliśmy, że jesteśmy zafascynowani robotem wykonującym swoje rutynowe czynności, a każdy ruch przypomina nam, że inteligencja na poziomie doktoratu kieruje każdym działaniem — tak Andon Labs opisuje ten doświadczenie.
Autor i źródło
Jestem starszym redaktorem w Futurism, gdzie redaguję i piszę o NASA i prywatnym sektorze kosmosu, a także o tematach od SETI i sztucznej inteligencji po technologiczną politykę i medyczną. – To jest bio autora artykułu, w którym zamieściłem tłumaczenie i utrzymanie oryginalnych wypowiedzi oraz kontekstu.