Digitální ekvivalent inbreedingu může způsobit, že se umělá inteligence sama zhroutí

umělá inteligence
Autor: dlsdkcgl / Zdroj: Pixabay

Proroci umělé inteligence (AI) a novináři předpovídají konec generativní AI a hovoří o blížícím se katastrofickém „kolapsu modelu“. Nakolik jsou však tyto předpovědi reálné? A co je to vlastně kolaps modelu?

„Kolaps modelu“, o němž se diskutovalo v roce 2023, ale který byl zpopularizován nedávno, označuje hypotetický scénář, kdy budoucí systémy umělé inteligence postupně hloupnou v důsledku nárůstu dat generovaných umělou inteligencí na internetu.

Moderní systémy umělé inteligence jsou vytvářeny pomocí strojového učení. Programátoři nastaví základní matematickou strukturu, ale skutečná „inteligence“ pochází z trénování systému, aby napodoboval vzory v datech.

Ale ne, jen tak ledajakých

Současné generativní systémy umělé inteligence potřebují kvalitní data, a to hodně. Aby tato data získaly, velké technologické společnosti, jako jsou OpenAI, Google, Meta a Nvidia, neustále prohledávají internet a shromažďují terabajty obsahu, který slouží jako zdroj pro stroje. Od nástupu široce dostupných a užitečných generativních systémů AI v roce 2022 však lidé stále častěji nahrávají a sdílejí obsah, který je zčásti nebo celý vytvořen umělou inteligencí.

V roce 2023 se výzkumníci začali zajímat o to, zda by se mohli obejít bez toho, aby se při trénování spoléhali pouze na data vytvořená umělou inteligencí, namísto dat generovaných lidmi. Existují obrovské pobídky, aby to fungovalo. Kromě toho, že se na internetu množí, je obsah vytvořený umělou inteligencí mnohem levnější než zdroj lidských dat. Jeho hromadné shromažďování také není eticky a právně sporné.

Výzkumníci však zjistili, že bez kvalitních lidských dat jsou systémy umělé inteligence vyškolené na datech vytvořených umělou inteligencí stále hloupější, protože každý model se učí z předchozího. Je to jako digitální verze problému příbuzenské plemenitby.

Zdá se, že toto „regurgitivní školení“ vede ke snížení kvality a rozmanitosti chování modelů. Kvalita zde zhruba znamená určitou kombinaci užitečnosti, neškodnosti a poctivosti. Rozmanitost se týká variability reakcí a toho, jaké kulturní a sociální perspektivy lidí jsou ve výstupech UI zastoupeny. Stručně řečeno: tím, že systémy umělé inteligence používáme v takové míře, můžeme znečistit právě ten zdroj dat, který potřebujeme k tomu, aby byly vůbec užitečné.

Vyhnutí se kolapsu

Nemohou velké technologie prostě odfiltrovat obsah generovaný umělou inteligencí? Ne tak docela. Technologické společnosti již nyní vynakládají spoustu času a peněz na čištění a filtrování získaných dat, přičemž jeden ze zasvěcených pracovníků v oboru nedávno uvedl, že někdy vyřazují až 90 % dat, která původně shromáždí pro tréninkové modely.

Toto úsilí může být ještě náročnější, protože potřeba cíleně odstraňovat obsah generovaný umělou inteligencí se zvyšuje. Důležitější však je, že z dlouhodobého hlediska bude ve skutečnosti stále těžší a těžší rozlišit obsah získaný z AI. Filtrování a odstraňování syntetických dat se tak stane hrou s klesající (finanční) návratností. Dosavadní výzkumy nakonec ukazují, že se prostě nemůžeme zcela zbavit lidských dat. Koneckonců, právě z nich pochází „I“ v umělé inteligenci.

Čeká nás katastrofa?

Existují náznaky, že vývojáři již nyní musejí pracovat tvrději, aby získali kvalitní data. Například v dokumentaci k vydání GPT-4 se uvádí, že na projektech souvisejících s daty se podílí nebývalý počet zaměstnanců. Možná nám také docházejí nová lidská data. Podle některých odhadů může být zásoba textových dat vytvořených lidmi vyčerpána již v roce 2026.

To je pravděpodobně důvod, proč se OpenAI a další společnosti předhánějí v navazování exkluzivních partnerství s průmyslovými giganty, jako jsou Shutterstock, Associated Press a NewsCorp. Ty vlastní rozsáhlé proprietární sbírky lidských dat, které nejsou snadno dostupné na veřejném internetu. Vyhlídky na katastrofický kolaps modelu jsou však možná přehnané. Většina dosavadních výzkumů se zabývá případy, kdy syntetická data nahrazují lidská data. V praxi se lidská data a data umělé inteligence budou pravděpodobně hromadit paralelně, což pravděpodobnost zhroucení snižuje.

Podle nejpravděpodobnějšího scénáře budoucnosti bude také k vytváření a publikování obsahu využíván spíše ekosystém poněkud různorodých generativních platforem AI než jeden monolitický model. To rovněž zvyšuje odolnost proti kolapsu. Je to dobrý důvod, aby regulační orgány podporovaly zdravou hospodářskou soutěž omezením monopolů v odvětví UI a financovaly vývoj technologií ve veřejném zájmu.

Skutečné obavy

Příliš mnoho obsahu vytvořeného umělou inteligencí představuje i jemnější rizika. Záplava syntetického obsahu nemusí představovat existenční hrozbu pro pokrok ve vývoji umělé inteligence, ale ohrožuje digitální veřejné blaho (lidského) internetu.

Výzkumníci například zjistili, že rok po vydání ChatGPT poklesla aktivita na kódovací webové stránce StackOverflow o 16 %. To naznačuje, že asistence umělé inteligence již může v některých online komunitách omezovat interakce mezi lidmi. Hyperprodukce z obsahových farem poháněných umělou inteligencí také ztěžuje hledání obsahu, který není clickbaitem napěchovaným reklamou.

Stává se nemožným spolehlivě rozlišit obsah vytvořený člověkem a obsah vytvořený umělou inteligencí. Jednou z metod nápravy by bylo označování obsahu generovaného umělou inteligencí vodoznakem nebo štítky, jak jsem na to nedávno upozorňoval já i mnozí další a jak se to odrazilo v nedávné prozatímní legislativě australské vlády.

Existuje i další riziko. S tím, jak se obsah generovaný umělou inteligencí stává systematicky homogenním, hrozí, že ztratíme sociokulturní rozmanitost a některé skupiny lidí by mohly dokonce zažít kulturní vymazání. Naléhavě potřebujeme mezioborový výzkum sociálních a kulturních výzev, které představují systémy umělé inteligence. Lidské interakce a lidské údaje jsou důležité a měli bychom je chránit. Kvůli nám samotným a možná také kvůli možnému riziku budoucího zhroucení modelu.

Autor: Lukáš Drahozal

Zdroj: consult.industry.gov.au, arxiv.org, reddit.com

Průměrné hodnocení 5 / 5. Počet hodnocení: 1

Zatím nehodnoceno.

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *