Vědci bijí na poplach. Světu docházejí důležitá data pro umělou inteligenci
V době, kdy umělá inteligence (AI) dosahuje vrcholu své popularity, vědci varují, že v tomto odvětví možná dochází tréninková data. Tyto data jsou pomyslné palivo, které pohání výkonné systémy AI.
To by mohlo zpomalit růst modelů umělé inteligence, zejména velkých jazykových modelů, a dokonce změnit trajektorii revoluce v oblasti umělé inteligence. Proč je ale potenciální nedostatek dat problémem, když uvážíme, kolik jich na webu je? A existuje způsob, jak toto riziko řešit?
Proč jsou pro AI důležitá vysoce kvalitní data
K trénování výkonných, přesných a kvalitních algoritmů AI potřebujeme velké množství dat. Například ChatGPT byl vycvičen na 570 gigabajtech textových dat, což je přibližně 300 miliard slov.
Podobně algoritmus stabilní difúze (který stojí za mnoha aplikacemi pro generování obrázků AI, jako jsou DALL-E, Lensa a Midjourney) byl vycvičen na datové sadě LIAON-5B obsahující 5,8 miliardy dvojic obrázek-text. Pokud je algoritmus vycvičen na nedostatečném množství dat, bude produkovat nepřesné nebo nekvalitní výstupy.
Důležitá je také kvalita trénovacích dat. Nekvalitní data, jako jsou příspěvky na sociálních sítích nebo rozmazané fotografie, lze snadno získat, ale nejsou dostatečná pro trénování vysoce výkonných modelů umělé inteligence.
Texty převzaté z platforem sociálních médií mohou být neobjektivní nebo zaujaté, případně mohou obsahovat dezinformace nebo nelegální obsah, který by model mohl replikovat. Například když se společnost Microsoft pokusila vycvičit svého bota AI pomocí obsahu na Twitteru, naučil se produkovat rasistické a misogynní výstupy.
Proto vývojáři umělé inteligence vyhledávají vysoce kvalitní obsah, jako je text z knih, online článků, vědeckých článků, Wikipedie a určitý filtrovaný webový obsah. Asistent Google byl vycvičen na 11 000 romantických románech převzatých z webu pro samonakladatele Smashwords, aby byl více konverzační.
Máme dostatek údajů?
Odvětví umělé inteligence trénuje systémy umělé inteligence na stále větších souborech dat, a proto dnes máme vysoce výkonné modely, jako je ChatGPT nebo DALL-E 3. Zároveň výzkumy ukazují, že zásoby online dat rostou mnohem pomaleji než datové soubory používané k trénování umělé inteligence.
V loňském roce publikovaném článku skupina výzkumníků předpověděla, že pokud budou současné trendy v trénování AI pokračovat, dojdou nám kvalitní textová data před rokem 2026. Odhadli také, že nekvalitní jazyková data budou vyčerpána někdy mezi lety 2030 a 2050 a nekvalitní obrazová data mezi lety 2030 a 2060.
Podle účetní a poradenské skupiny PwC by umělá inteligence mohla do roku 2030 přispět světové ekonomice až 15,7 bilionu USD. Vyčerpání použitelných dat by však mohlo její rozvoj zpomalit.
Měli bychom se obávat?
Ačkoli výše uvedené body mohou některé fanoušky AI znepokojovat, situace nemusí být tak špatná, jak se zdá. Existuje mnoho neznámých ohledně toho, jak se budou modely AI v budoucnu vyvíjet, a také několik způsobů, jak riziko nedostatku dat řešit. Jednou z možností je, že vývojáři AI zdokonalí algoritmy tak, aby efektivněji využívaly data, která již mají k dispozici.
Je pravděpodobné, že v příštích letech budou schopni trénovat vysoce výkonné systémy AI s využitím menšího množství dat a možná i menšího výpočetního výkonu. To by také pomohlo snížit uhlíkovou stopu AI. Další možností je využití AI k vytváření syntetických dat pro trénování systémů. Jinými slovy, vývojáři mohou jednoduše generovat potřebná data upravená tak, aby vyhovovala jejich konkrétnímu modelu AI.
Několik projektů již využívá syntetický obsah, který často pochází ze služeb generujících data, jako je Mostly AI. V budoucnu bude tento způsob stále běžnější. Vývojáři také hledají obsah mimo volný online prostor, například v držení velkých vydavatelů a offline úložišť. Vzpomeňte si na miliony textů publikovaných před nástupem internetu. Zpřístupněny v digitální podobě by mohly poskytnout nový zdroj dat pro projekty AI.
Společnost News Corp, jeden z největších světových vlastníků zpravodajského obsahu (který má většinu svého obsahu za placenou zdí), nedávno uvedla, že jedná o smlouvách o obsahu s vývojáři umělé inteligence. Takové dohody by donutily společnosti zabývající se umělou inteligencí platit za tréninková data, zatímco dosud je většinou získávaly zdarma z internetu.
Tvůrci obsahu protestovali proti neoprávněnému využívání jejich obsahu k trénování modelů AI a někteří z nich zažalovali společnosti jako Microsoft, OpenAI a Stability AI. Odměna za jejich práci může pomoci obnovit určitou nerovnováhu sil, která mezi tvůrci a společnostmi zabývajícími se umělou inteligencí existuje.
Autor: Lukáš Drahozal
Zdroj: theconversation.com, psuwatch.com
Tempo vzdělávání musí mít přiměřenou míru, aby to nebylo vzdělávání jen pro vzdělávání. Zpětně lze hltat, ale i to uvádět na pravou míru. Dopředu je získávání nových poznatků násobně pomalejší. V tom směru bude AI zcela nevyužita. Místo toho nastoupí získávání, spíše tvorba, nových poznatků. Takže, vše s mírou.
Kvalita AI závisí zřejmě hodně nebo úplně na kvalitě tréningových dat. Syntetická data budou vždy poplatná způsobu jejich vytvoření, takže výsledek procesu učení bude zkreslený. Fyziku se nenaučíte z milostných románů. A z červené knihovny nepochopíte skutečnou lásku, i když přečtete tuny romantických blábolů. Takže je-li někde převaha blbců a AI bude čerpat tam, dopracuje se max na úroveň průměrného blba. A daleko horší jsou snahy o cílené zneužití. První zkušenosti to jen potvrzují. Pokusy o obejití rozpoznávání hlasu jako hesla, generování porna s přilepenou cizí identitou jsou první vlaštovky. Politici už jsou natěšení, jak nám budou servírovat realitu ohnutou podle svých představ. Máme se na co těšit.
Opravte mě, pokud se mylně domnívám, že inteligence se pozná především podle toho, že je schopna posouvat vědění vpřed. Samozřejmě, že potřebuje nějaký základ – tedy „vzdělání“, můžeme-li to takto nazvat (vstupní data), ale má-li býti brána za opravdovou inteligenci, nutně musí tato data (informace, závěry i úvahy a teorie, byť často falešné) rozvíjet dál a správně.
Vaše starosti na moji hlavu 🙂
3-leté dítě pozná koníčka na obrazku celkem spolehlivě, a troufám si říct, po shlédnutí desítek, max stovek různých obrázků. UI na to potřebuje 10 miliard ?????????
@rudysek
Ne, z 10 miliard pozná jakýkoliv objekt na obrázku. Na rozdíl od vás, který ani neporozumí psaném textu 😉