Vědci bijí na poplach. Světu docházejí důležitá data pro umělou inteligenci

umělou inteligenci
Autor: Alexandra_Koch/ Zdroj: Pixabay

V době, kdy umělá inteligence (AI) dosahuje vrcholu své popularity, vědci varují, že v tomto odvětví možná dochází tréninková data. Tyto data jsou pomyslné palivo, které pohání výkonné systémy AI.

To by mohlo zpomalit růst modelů umělé inteligence, zejména velkých jazykových modelů, a dokonce změnit trajektorii revoluce v oblasti umělé inteligence. Proč je ale potenciální nedostatek dat problémem, když uvážíme, kolik jich na webu je? A existuje způsob, jak toto riziko řešit?

Proč jsou pro AI důležitá vysoce kvalitní data

K trénování výkonných, přesných a kvalitních algoritmů AI potřebujeme velké množství dat. Například ChatGPT byl vycvičen na 570 gigabajtech textových dat, což je přibližně 300 miliard slov.

Podobně algoritmus stabilní difúze (který stojí za mnoha aplikacemi pro generování obrázků AI, jako jsou DALL-E, Lensa a Midjourney) byl vycvičen na datové sadě LIAON-5B obsahující 5,8 miliardy dvojic obrázek-text. Pokud je algoritmus vycvičen na nedostatečném množství dat, bude produkovat nepřesné nebo nekvalitní výstupy.

Důležitá je také kvalita trénovacích dat. Nekvalitní data, jako jsou příspěvky na sociálních sítích nebo rozmazané fotografie, lze snadno získat, ale nejsou dostatečná pro trénování vysoce výkonných modelů umělé inteligence.

Texty převzaté z platforem sociálních médií mohou být neobjektivní nebo zaujaté, případně mohou obsahovat dezinformace nebo nelegální obsah, který by model mohl replikovat. Například když se společnost Microsoft pokusila vycvičit svého bota AI pomocí obsahu na Twitteru, naučil se produkovat rasistické a misogynní výstupy.

Proto vývojáři umělé inteligence vyhledávají vysoce kvalitní obsah, jako je text z knih, online článků, vědeckých článků, Wikipedie a určitý filtrovaný webový obsah. Asistent Google byl vycvičen na 11 000 romantických románech převzatých z webu pro samonakladatele Smashwords, aby byl více konverzační.



Máme dostatek údajů?

Odvětví umělé inteligence trénuje systémy umělé inteligence na stále větších souborech dat, a proto dnes máme vysoce výkonné modely, jako je ChatGPT nebo DALL-E 3. Zároveň výzkumy ukazují, že zásoby online dat rostou mnohem pomaleji než datové soubory používané k trénování umělé inteligence.

V loňském roce publikovaném článku skupina výzkumníků předpověděla, že pokud budou současné trendy v trénování AI pokračovat, dojdou nám kvalitní textová data před rokem 2026. Odhadli také, že nekvalitní jazyková data budou vyčerpána někdy mezi lety 2030 a 2050 a nekvalitní obrazová data mezi lety 2030 a 2060.

Podle účetní a poradenské skupiny PwC by umělá inteligence mohla do roku 2030 přispět světové ekonomice až 15,7 bilionu USD. Vyčerpání použitelných dat by však mohlo její rozvoj zpomalit.

Měli bychom se obávat?

Ačkoli výše uvedené body mohou některé fanoušky AI znepokojovat, situace nemusí být tak špatná, jak se zdá. Existuje mnoho neznámých ohledně toho, jak se budou modely AI v budoucnu vyvíjet, a také několik způsobů, jak riziko nedostatku dat řešit. Jednou z možností je, že vývojáři AI zdokonalí algoritmy tak, aby efektivněji využívaly data, která již mají k dispozici.

Je pravděpodobné, že v příštích letech budou schopni trénovat vysoce výkonné systémy AI s využitím menšího množství dat a možná i menšího výpočetního výkonu. To by také pomohlo snížit uhlíkovou stopu AI. Další možností je využití AI k vytváření syntetických dat pro trénování systémů. Jinými slovy, vývojáři mohou jednoduše generovat potřebná data upravená tak, aby vyhovovala jejich konkrétnímu modelu AI.

Několik projektů již využívá syntetický obsah, který často pochází ze služeb generujících data, jako je Mostly AI. V budoucnu bude tento způsob stále běžnější. Vývojáři také hledají obsah mimo volný online prostor, například v držení velkých vydavatelů a offline úložišť. Vzpomeňte si na miliony textů publikovaných před nástupem internetu. Zpřístupněny v digitální podobě by mohly poskytnout nový zdroj dat pro projekty AI.

Společnost News Corp, jeden z největších světových vlastníků zpravodajského obsahu (který má většinu svého obsahu za placenou zdí), nedávno uvedla, že jedná o smlouvách o obsahu s vývojáři umělé inteligence. Takové dohody by donutily společnosti zabývající se umělou inteligencí platit za tréninková data, zatímco dosud je většinou získávaly zdarma z internetu.

Tvůrci obsahu protestovali proti neoprávněnému využívání jejich obsahu k trénování modelů AI a někteří z nich zažalovali společnosti jako Microsoft, OpenAI a Stability AI. Odměna za jejich práci může pomoci obnovit určitou nerovnováhu sil, která mezi tvůrci a společnostmi zabývajícími se umělou inteligencí existuje.

Autor: Lukáš Drahozal

Zdroj: theconversation.com, psuwatch.com

Průměrné hodnocení 2.8 / 5. Počet hodnocení: 9

Zatím nehodnoceno.

6 komentářů

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *