Umelá inteligencia je čoraz výkonnejšia, čo sťažuje posúdenie skutočnej inteligencie modelov.

⏱️ Čas čítania: 5 min (994 slov)

Výzvy hodnotenia umelej inteligencie v ére, keď prekonáva ľudské schopnosti

Russell Wald, výkonný riaditeľ Stanfordského inštitútu pre umelú inteligenciu zameranú na človeka (HAI), zdôrazňuje narastajúcu výzvu v hodnotení modelov umelej inteligencie (UI) v čase, keď ich výkonnosť začína presahovať ľudské schopnosti.

Podľa Walda v roku 2024 existuje veľmi málo úloh, v ktorých by človek prevyšoval UI, a aj v týchto oblastiach sa výkonnostná priepasť rýchlo zmenšuje. Táto skutočnosť spôsobuje, že štandardné metódy hodnotenia UI sa stávajú zastaranými.

HAI každoročne vydáva AI Index, ktorý poskytuje komplexný prehľad o stave UI založený na dátach. Wald zdieľal niekoľko kľúčových poznatkov z vydania AI Indexu za rok 2025: rastúca sila súčasných modelov UI, zvyšujúca sa dominancia priemyslu v oblasti vývoja UI a potenciálne prvenstvo Číny pred USA.

HAI bol založený v roku 2019 s cieľom podporovať výskum, vzdelávanie, politiku a prax v oblasti umelej inteligencie. Inštitút sa stal dôveryhodným partnerom pre tvorcov rozhodnutí v priemysle, vláde a občianskej spoločnosti v otázkach správy UI.

Výkonnosť UI sa neustále zlepšuje. Model Midjourney, generátor obrázkov z textu, dokazuje, že kvalita generovaných obrázkov sa dramaticky zvýšila v období od februára 2022 do júla 2024. V roku 2022 model produkoval karikatúrne a nepresné zobrazenia, ale do roku 2024 dokázal vytvárať prekvapivo realistické obrázky.

Vzhľadom na tento neustály rast výkonnosti je čoraz ťažšie určovať kritériá pre porovnávanie týchto modelov. V roku 2024 existuje veľmi málo úloh, v ktorých by ľudská schopnosť prevyšovala UI, a aj v týchto oblastiach sa rozdiel vo výkonnosti medzi UI a ľuďmi rýchlo zmenšuje. Od rozpoznávania obrázkov cez matematiku na súťažnej úrovni až po vedecké otázky na úrovni doktorandského štúdia, UI prekonáva ľudské schopnosti a je čoraz ťažšie ju hodnotiť.

UI sa rýchlo presúva z laboratórií do nášho každodenného života, od zdravotnej starostlivosti po dopravu. V roku 2023 schválil americký Úrad pre kontrolu potravín a liečiv 223 zdravotníckych zariadení s podporou UI, čo je nárast zo šiestich v roku 2015. Samojazdiace autá už nie sú len experimentálne.

Využívanie UI v podnikoch sa výrazne zvýšilo po stagnácii od roku 2017 do roku 2023. Prieskum ukazuje, že 78 % respondentov uviedlo, že ich organizácie začali používať UI aspoň v jednej podnikovej funkcii, čo predstavuje výrazný nárast oproti 55 % v roku 2023.

Vďaka čoraz schopnejším malým modelom náklady na inferenciu pre systémy s úrovňou výkonu GPT 3.5 klesli viac ako 280-násobne medzi novembrom 2022 a októbrom 2024. Náklady na hardvér sa znížili o 30 % ročne, zatiaľ čo energetická účinnosť sa zlepšila o 40 % každý rok.

Modely s otvorenou váhou tiež znižujú rozdiel oproti uzavretým modelom, čím sa rozdiel vo výkonnosti znížil z 8 % na len 1,7 % pri niektorých benchmarkoch v priebehu jedného roka. Tieto trendy spoločne rýchlo znižujú prekážky pokročilej UI.

Napriek znižujúcim sa nákladom na inferenciu a hardvér sú náklady na tréning stále mimo dosahu akademickej obce a väčšiny malých hráčov. Takmer 90 % významných modelov UI v roku 2024 pochádza z priemyslu, čo je nárast zo 60 % v roku 2023. Zatiaľ čo akademická obec zostáva hlavným zdrojom vysoko citovaného výskumu, v súčasnosti sa snaží udržať si pokrok na úrovni vývoja.

Škálovanie modelov neustále rýchlo rastie. Výpočtová sila tréningu sa zdvojnásobuje každých päť mesiacov, súbory dát každých osem a spotreba energie ročne. Rozdiely vo výkonnosti sa však zmenšujú. Rozdiel v skóre medzi modelmi na prvom a desiatom mieste klesol z 11,9 % na 5,4 % za rok a prvé dva modely sú teraz od seba vzdialené len 0,7 %. Vývoj je čoraz konkurenčnejší a preplnenejší.

Výkonnosť modelov UI sa v posledných rokoch zhoduje a viacerí poskytovatelia teraz ponúkajú vysoko výkonné modely. Značí to posun od konca roku 2022, keď spustenie ChatGPT, ktoré bolo všeobecne považované za prelom UI do povedomia verejnosti, sa zhodovalo so situáciou, keď trhu dominovali len dvaja hráči: OpenAI a Google.

Dôležitou skutočnosťou je, že transformátorový model stál Google v roku 2017 na tréning 930 dolárov – a to je T v GPT, základná úroveň architektúry – a dnes sme na 200 miliónoch dolárov za tréning Gemini Ultra.

AI Index vlani ako jeden z prvých zdôraznil nedostatok štandardných benchmarkov pre hodnotenie bezpečnosti a zodpovednosti UI. Index tiež analyzoval globálnu verejnú mienku. Ľudia z ne-západných industrializovaných krajín majú tendenciu vnímať UI pozitívnejšie. Čína má 83 % pozitívny názor, Indonézia 80 % a Thajsko 77 %. Naproti tomu Kanada má 40 %, USA 39 % a Holandsko 36 %.

USA si stále udržiavajú náskok v oblasti UI, nasledované tesne Čínou. Tento rozdiel sa však zmenšuje. Cieľom nie je zveličovať myšlienku pretekov v zbrojení UI medzi Čínou a USA, ale skôr poukázať na odlišné prístupy medzi najpokročilejšími vývojármi modelov UI. USA sa v posledných rokoch spoliehali na niekoľko vlastných poskytovateľov modelov. Čína medzitým výrazne investovala do svojej talentovej základne a, čo je dôležitejšie, do prostredia s otvoreným zdrojovým kódom. Ak bude tento trend pokračovať, Čína prekoná USA v modelovom výkone.

Fortune Editors