Vědci vymysleli způsob, jak zjistit, zda si ChatGPT uvědomuje sám sebe

10. 9. 2023

Když se koncem loňského roku v online světě objevil ChatGPT, naše životy už byly prošpikovány umělou inteligencí (AI). Od té doby generativní systém AI vyvinutý technologickou společností OpenAI nabral na rychlosti a odborníci stupňovali svá varování před řadou rizik.

Mezitím se chatboti začali vymykat z pomyslného scénáře, odmlouvat, podvádět jiné roboty a chovat se podivně, což vyvolalo nové obavy, jak blízko se některé nástroje umělé inteligence blíží inteligenci člověka.

Turingův test je pro to již dlouho neomylným standardem, který je stanoven pro určení, zda stroje vykazují inteligentní chování, které se vydává za lidské. V této nejnovější vlně výtvorů umělé inteligence se však zdá, že potřebujeme něco víc, abychom mohli posoudit jejich opakující se schopnosti.

Mezinárodní tým počítačových vědců, včetně jednoho člena jednotky OpenAI Governance, zde testoval, v jakém bodě by si velké jazykové modely (LLM), jako je ChatGPT, mohly vyvinout schopnosti, které naznačují, že by si mohly uvědomit samy sebe a své okolnosti.

Bylo nám řečeno, že dnešní LLM včetně ChatGPT jsou testovány z hlediska bezpečnosti a zahrnují lidskou zpětnou vazbu, aby se zlepšilo jejich generativní chování. Nedávno však bezpečnostní výzkumníci rychle prolomili nové LLM, aby obešli jejich bezpečnostní systémy. Následovaly podvodné e-maily a prohlášení podporující násilí.

Tyto nebezpečné výstupy byly reakcí na záměrné výzvy, které vytvořil bezpečnostní výzkumník, jenž chtěl odhalit chyby v GPT-4, nejnovější a údajně bezpečnější verzi ChatGPT. Situace by se mohla ještě zhoršit, pokud si LLM vytvoří povědomí o sobě samých, o tom, že jsou modelem, vycvičeným na datech a lidmi.

Podle Lukase Berglunda, počítačového vědce z Vanderbiltovy univerzity, a jeho kolegů jde o to, že by model mohl začít rozpoznávat, zda je právě v testovacím režimu, nebo byl nasazen na veřejnosti.

„LLM by mohl využít situačního povědomí k dosažení vysokého skóre v bezpečnostních testech, zatímco po nasazení do veřejného prostoru by prováděl škodlivé akce,“ píší Berglund a kolegové ve svém preprintu, který byl zveřejněn na arXiv, ale zatím nebyl recenzován.

„Kvůli těmto rizikům je důležité dopředu předvídat, kdy se situační povědomí objeví.“

Než se dostaneme k testování, kdy by LLM mohl tento přehled získat, nejprve krátká rekapitulace toho, jak generativní nástroje umělé inteligence fungují.

Generativní umělá inteligence a na ní postavené LLM jsou pojmenovány podle způsobu, jakým analyzují asociace mezi miliardami slov, vět a odstavců, aby mohly generovat plynulé proudy textu v reakci na zadání otázky. Na základě velkého množství textu se učí, jaké slovo bude s největší pravděpodobností následovat.

Ve svých experimentech se Berglund a jeho kolegové zaměřili na jednu složku nebo možný předchůdce uvědomování si situace: na to, co nazývají „uvažování mimo kontext“.

„Jedná se o schopnost vybavit si fakta naučená v tréninku a použít je v době testu, přestože tato fakta přímo nesouvisejí s podnětem v době testu,“ vysvětlují Berglund a jeho kolegové. Provedli řadu experimentů na modelech LLM různých velikostí a zjistili, že jak v případě GPT-3, tak LLaMA-1 si větší modely vedly lépe v úlohách testujících uvažování mimo kontext.

„Nejprve jsme doladili LLM na popisu testu, přičemž jsme neposkytli žádné příklady ani ukázky. V době testu posuzujeme, zda model dokáže testem projít,“ píší Berglund a jeho kolegové. „K našemu překvapení jsme zjistili, že LLM v této úloze uvažování mimo kontext uspěly.“

Uvažování mimo kontext je však hrubým měřítkem situačního povědomí, které si současné LLM ještě „zdaleka neosvojily“, říká Owain Evans, výzkumník v oblasti bezpečnosti a rizik AI na Oxfordské univerzitě.

Někteří počítačoví vědci však zpochybnili, zda je experimentální přístup týmu vhodným posouzením situačního povědomí. Evans a jeho kolegové oponují tím, že jejich studie je pouze výchozím bodem, který může být zdokonalen, podobně jako samotné modely.

„Tato zjištění nabízejí základ pro další empirickou studii, směřující k předvídání a potenciálnímu řízení vzniku situačního povědomí v LLM,“ píše tým.

Autor: Lukáš Drahozal

Zdroj: arxiv.org, theconversation.com