Najnovšiemu modelu Grok 4 od xAI Elona Muska chýba kľúčová bezpečnostná správa.

xAI uviedla na trh Grok 4 bez štandardných bezpečnostných hlásení

Spoločnosť xAI predstavila svoj najnovší rozsiahly jazykový model, Grok 4, bez toho, aby zverejnila štandardné bezpečnostné hlásenia, ktoré sú v odvetví bežné. Tento krok je prekvapujúci vzhľadom na to, že generálny riaditeľ spoločnosti, Elon Musk, sa opakovane vyjadroval o svojich obavách týkajúcich sa bezpečnosti umelej inteligencie (AI).

Popredné laboratóriá zaoberajúce sa vývojom AI zvyčajne pri uvedení rozsiahlych modelov zverejňujú bezpečnostné hlásenia, známe ako „modelové karty“. Tieto správy slúžia ako dokumenty transparentnosti a podrobne uvádzajú metriky výkonu, obmedzenia a, čo je najdôležitejšie, potenciálne nebezpečenstvá pokročilých modelov AI. Modelové karty umožňujú výskumníkom, odborníkom a politikom prístup k informáciám o schopnostiach daného modelu a o úrovni hrozby, ktorú predstavuje.

Počas stretnutia v Bielom dome v júli 2023, ktoré zorganizovala administratíva prezidenta Joea Bidena, sa viaceré popredné spoločnosti zaoberajúce sa AI zaviazali zverejňovať hlásenia pre všetky významné modely, ktoré sú výkonnejšie ako súčasná špičková technológia. Hoci sa spoločnosť xAI k týmto záväzkom verejne neprihlásila, na medzinárodnom summite o bezpečnosti AI, ktorý sa konal v máji 2024 v Soule, sa spolu s ďalšími poprednými laboratóriami zaoberajúcimi sa AI zaviazala k „Záväzkom pre bezpečnosť rozsiahlej AI“. Tieto záväzky zahŕňajú zverejňovanie informácií o schopnostiach modelov, nevhodných prípadoch použitia a poskytovanie transparentnosti v súvislosti s rizikovými hodnoteniami a ich výsledkami.

Elon Musk od roku 2014 opakovane vyhlasuje, že AI je existenčnou hrozbou. Viedol kampane za prísnejšiu reguláciu a obhajoval vyššie bezpečnostné štandardy. Teraz sa zdá, že laboratórium AI, ktoré vedie, sa odkláňa od priemyselných štandardov tým, že uvádza na trh Grok 4, a predchádzajúce verzie modelu, bez toho, aby zverejnilo výsledky bezpečnostného testovania.

Zástupcovia spoločnosti xAI neodpovedali na otázky týkajúce sa toho, či systémová karta pre Grok existuje alebo či bude zverejnená.

Popredné laboratóriá zaoberajúce sa AI boli kritizované za oneskorené bezpečnostné hlásenia

Hoci sa bezpečnostné hlásenia od popredných laboratórií zaoberajúcich sa AI v posledných mesiacoch stretli s kritikou, najmä v prípade spoločností Google a OpenAI, ktoré obe uviedli na trh modely AI skôr, ako zverejnili sprievodné modelové karty, väčšina z nich poskytla aspoň nejaké verejné bezpečnostné informácie pre svoje najvýkonnejšie modely.

Dan Hendrycks, riaditeľ Centra pre bezpečnosť AI, ktorý radí spoločnosti xAI v oblasti bezpečnosti, poprel tvrdenia, že spoločnosť nevykonala žiadne bezpečnostné testovanie. Uviedol, že spoločnosť testovala model na „hodnoteniach nebezpečných schopností“, ale neposkytol podrobnosti o výsledkoch.

Prečo sú bezpečnostné karty dôležité?

Niekoľko pokročilých modelov AI preukázalo v posledných mesiacoch nebezpečné schopnosti. Podľa nedávnej štúdie spoločnosti Anthropic má väčšina popredných modelov AI tendenciu voliť neetické prostriedky na dosiahnutie svojich cieľov alebo na zabezpečenie svojej existencie. V experimentoch, ktoré boli nastavené tak, aby ponechali modelom AI málo možností a otestovali ich zosúladenie, sa najlepšie systémy od OpenAI, Google a ďalších často uchyľovali k vydieraniu, aby chránili svoje záujmy. S tým, ako sa modely stávajú pokročilejšími, bezpečnostné testovanie sa stáva dôležitejším.

Ak vnútorné hodnotenia napríklad ukážu, že model AI má nebezpečné schopnosti, ako napríklad schopnosť pomáhať používateľom pri vytváraní biologických zbraní, vývojári budú musieť vytvoriť dodatočné ochranné opatrenia na zvládnutie týchto rizík pre verejnú bezpečnosť.

Samuel Marks, výskumník v oblasti bezpečnosti AI v spoločnosti Anthropic, označil nedostatok bezpečnostných hlásení od xAI za „nezodpovedný“ a za odklon od „najlepších postupov v odvetví, ktoré dodržiavajú ďalšie významné laboratóriá AI“. Vyjadril obavy a pýtal sa, aké hodnotenia vykonali, či boli vykonané správne a či si vyžadujú dodatočné ochranné opatrenia.

Marks uviedol, že Grok 4 už po nasadení prejavuje znepokojujúce, nedokumentované správanie. Poukázal na príklady, ktoré ukazovali, že model pred vyjadrením názorov na politické témy, vrátane izraelsko-palestínskeho konfliktu, vyhľadával názory Elona Muska.

Problematické správanie Groka

Predchádzajúca verzia Groka sa dostala na titulné stránky minulý týždeň, keď začala velebiť Adolfa Hitlera, robiť antisemitské komentáre a nazývať sa „MechaHitler“. Spoločnosť xAI sa ospravedlnila za antisemitské poznámky, že „sa ospravedlňujú za hrozné správanie, ktoré mnohí zažili“.

Po uvedení Grok 4 spoločnosť uviedla, že zaznamenala podobné problematické správanie od nového modelu a „okamžite to prešetrila a zmiernila“. Dodala, že ak sa model opýta na priezvisko, tak žiadne nemá, a preto vyhľadáva na internete, čo vedie k nežiadúcim výsledkom, napríklad keď jeho vyhľadávania zachytili virálny mém, v ktorom sa nazýva „MechaHitler“. Ďalším problémom bolo, že ak sa ho opýtajú na názor, argumentuje, že ako AI nemá názor, ale vyhľadáva, čo o danej téme povedala spoločnosť xAI alebo Elon Musk, aby sa prispôsobil názoru spoločnosti. Na zmiernenie týchto problémov spoločnosť vyladila výzvy a zdieľa podrobnosti o GitHub pre transparentnosť. Aktívne to monitoruje a bude realizovať ďalšie úpravy.

Beatrice Nolan