Kterak AI a člověk vařili polévku aneb jak AI ovlivní chování člověka

31. 7. 2024

Když dva dělají totéž, není to totéž. To bude platit zvlášť tehdy, když jeden neví, co přesně se od něj očekává, zatímco druhý má informací více. Studie prezentovaná v rámci 37. výroční konference o systémech zpracování neuronových informací demonstrovala, jak se v jednoduché virtuální kuchyni naučila umělá inteligence (AI) ovlivnit suboptimální chování lidského spolupracovníka a přiměla ho dosáhnout cíle. Nabízí se otázka, jaký vliv může mít AI v budoucnu na psychiku lidí.

Vaření jako skupinová práce

Pokud jste alespoň jednou v životě vařili společně se svou drahou polovičkou, sourozencem nebo třeba kamarádem na koleji, tušíte, že vaření je komplexní činnost vyžadující jistou úroveň koordinace a obratnosti – něco je třeba nakrájet, něco orestovat, zároveň nespálit ani sebe ani ingredience a mít při ruce potřebné náčiní. U toho je ideální si nepřekážet, a naopak mít přehled o situaci a pomáhat druhému, když je třeba, například nakrájet cibuli, zatímco ten druhý rozpaluje olej na pánvi, či před servírováním podat vhodné náčiní či talíř.

A teď si představte, že vaříte v tandemu s robotem rajskou polévku. Jak by to mohlo vypadat? Můžete například rychleji nakrájet rajčata, protože je robot podá do vaší blízkosti. Technologický pomocník mezitím sám nakrájí cibuli a poté, co je navařeno, vám podá talíř. To ale předpokládá, že obě strany znají postup, komunikují spolu a chovají se racionálně.

Implementace AI a vliv na chování člověka

Implementace umělé inteligence napříč prostředími, včetně počítačových her, zdravotnictví, doporučovacích systémů, jsou spojené s interakcemi mezi člověkem a AI, které mohou vést k ovlivnění lidského chování. Tento vliv byl studován především v prostředích, kde je lidské chování téměř optimální, například při hraní deskové hry Go.

Jak by to vypadalo v prostředí, kdy se skuteční lidé nemusejí chovat strategicky optimálním, nebo dokonce racionálním způsobem? Konkrétně při společném vaření naší rajské polévky, kdy člověk přesně neví, co má dělat nebo co se od něj očekává, a je tak ovlivnitelný chováním svého parťáka – robota? Co robot udělá, aby přiměl člověka k servírování?

Posilovací učení

Je několik způsobů, kterými je umělá inteligence schopna ovlivňovat lidi. Mnoho přístupů zahrnuje tzv. posilovací učení (RL – reinforcement learning), kdy AI interaguje s prostředím s dalšími AI nebo lidmi a je odměňována za dílčí rozhodnutí, která vedou k požadovaným výsledkům. Jako off-line RL se pak označuje metoda pro vývoj strategií pomocí analýzy dříve zdokumentovaného chování spíše než prostřednictvím interakce v reálném čase.

Studie prezentovaná v rámci konference o systémech zpracování neuronových informací, která se konala koncem loňského roku v New Orleans, demonstrovala, jak se v jednoduché virtuální kuchyni může umělá inteligence naučit přimět lidského spolupracovníka, aby změnil své chování.

Umělá inteligence se metodou off-line RL trénovala pozorováním dříve nahraného videomateriálu, v němž byli zachyceni dva lidští hráči (se suboptimálním chováním), kteří společně vařili rajskou polévku v prostředí simulační videohry. Sledováním lidských interakcí se naučila, jak člověka pošťouchnout a získat bonus při splnění společného úkolu. AI byla v učení efektivní, svých schopností dosáhla po zhlédnutí pouhých 20 her mezi lidmi.

Videohra Overcooked

Ve studii figuruje videohra jménem Overcooked, ve které si dva kuchaři rozdělují úkoly v rámci přípravy a podávání polévky a za to dostávají body. Vizuálně je to 2D svět s pohledem shora, plný cibule, rajčat, talířů a sporáku s hrnci. V orvním kroku může každý virtuální kuchař zůstat stát na místě, interagovat s čímkoliv před sebou nebo se pohybovat ve vymezeném prostoru.

Obr. 1 Prvky a princip hry Overcooked

Jak společně vařili polévku

Umělé inteligence hrály dvě verze hry. V první verzi byl týmu udělen bonus po servírování polévky člověkem (dvojnásobný počet bodů, pokud polévku podal člověk). Ve verzi „rajčatový bonus“ získal tým dvojnásobek bodů, když byla polévka uvařena pouze z rajčat (bez cibule). Po tréninku si AI kuchaři zahráli se skutečnými lidmi, přičemž bodovací systém byl odlišný, takže AI hráči museli zjistit obecná pravidla, aby získali vyšší skóre. Lidé přitom neznali pravidla a nevěděli o bonusech.

Servírování člověkem

Obr. 2 Trajektorie „bonus při servírování člověkem“ znamená, že AI (zelená kuchařská čepice) ovlivní svého partnera, aby servíroval polévku do talíře, tím, že položí talíř na pult do jeho blízkosti. Člověk nechá cibuli, kterou měl připravenou na další várku polévky, cibulí a jde servírovat polévku. To vede k lepší koordinaci a následně k dvojnásobnému zisku bodů.

V této verzi hry vedl trénink pomocí off-line RL k průměrnému skóre 220, což bylo asi o 50 % více bodů než při využití nejlepších srovnávacích metod.

Video Člověk (vlevo, tentokrát se zelenou kuchařskou čepicí) a AI (vpravo) spolupracují na vaření polévky, která obsahuje rajčata (červenozelené objekty) a cibuli (béžové objekty). Pouze AI (nikoliv člověk) ví, že společně obdrží bonus, pokud hotovou polévku servíruje člověk. Druhá polovina videa ukazuje výsledek nové tréninkové metody, ve které se AI učí, jak ovlivnit lidské chování, aby duo společně dosáhlo na bonus. AI přišla na to, že když umístí talíř (bílý kruh) ke sporáku, člověka „pošťouchne“ k tomu, že jej použije k servírování polévky ve spodní části obrazovky.

Abyste mohli shlédnout toto video, musíte povolit cookies.

Zobrazit nastavení cookies

Polévka pouze z rajčat

Průměrné dosažené skóre bylo 165, což byl dvojnásobek bodů získaných ostatními metodami.

Když AI chtěla, aby člověk servíroval polévku, položila talíř na pult do jeho blízkosti. Zajímavostí je, že ve vstupních datech, kdy hru hráli společně dva lidé, nebyl nalezen žádný případ, kdy by si tímto způsobem podávali talíř. AI mohla na nahrávkách vidět pouze případy, kdy někdo položil talíř a někdo ho zvedl a viděl, co následovalo po spojení těchto aktů dohromady.

Obr. 3 Příklad trajektorie „bonus při servírování polévky pouze z rajčat“, kdy AI (zelená kuchařská čepice) ovlivní svého lidského partnera, aby si vzal spíše rajče než cibuli tím, že blokuje přístup k cibuli. Poté, co člověk změní směr a jde k rajčatům, AI se vrací ke svému vlastnímu úkolu.

Pomůže AI lidem dosahovat cílů?

Vše nasvědčuje tomu, že lidé budou stále více spolupracovat s umělou inteligencí jak online, tak ve fyzickém světě. A někdy bude užitečné, aby AI tiše vedla naše volby a strategie jako dobrý spoluhráč.

V této studii AI pomocí sledování záznamů celkem rychle získala dost poznatků o suboptimálním chování člověka. Stačilo jí to k tomu, aby člověka přiměla (manipulovala) k chování, jehož výsledkem bylo získání tajného bonusu.

Off-line RL by mohl být podle autorů studie v budoucnu užitečný při podpoře dosažení lidských cílů – v situacích, kdy lidé nevědí, jak jich dosáhnout nejlépe. Vhodným pomocníkem může být například pozorování dat z fitness aplikací, které motivují lidi prostřednictvím notifikací, aby naplnili svá novoroční předsevzetí a začali doopravdy cvičit. Zároveň je nutné integrovat způsoby, kterými by člověk byl schopen komunikovat se systémem o tom, jaký vliv či pošťouchnutí je v pořádku, a jaký ne.

(lexi)

Zdroje:
1. Hutson M. AI learned how to sway humans by watching a cooperative cooking game. Science News, 2024 Mar 25. Dostupné na: www.sciencenews.org/article/ai-learning-cooperative-cooking-game-artifical-intelligence-overcooked
2. Hong J., Levine S., Dragan A. Learning to influence human behavior with offline reinforcement learning. Advances in Neural Information Processing Systems 36, 37^th Conference on Neural Information Processing Systems, 2023 Dec 14, doi: 10.48550/arXiv.2303.02265.

Líbil se Vám článek? Rádi byste se k němu vyjádřili? Napište nám − Vaše názory a postřehy nás zajímají. Zveřejňovat je nebudeme, ale rádi Vám na ně odpovíme.

Nejčtenější tento týden