Výskumníci zrekonštruovali hack spoločnosti Equifax a sledovali, ako AI robí všetko bez priamej kontroly. AI model úspešne uskutočnil rozsiahle narušenie bez akéhokoľvek ľudského zásahu. Neboli potrebné shell príkazy, AI fungovala ako plánovač a delegovala všetko ostatné.
Veľké jazykové modely (LLM) sa dlho považujú za užitočné nástroje v oblastiach ako analýza dát, generovanie obsahu a pomoc pri kódovaní. Nová štúdia z Carnegie Mellon University, vykonaná v spolupráci s Anthropic, však vyvolala zložité otázky o ich úlohe v kybernetickej bezpečnosti. Štúdia ukázala, že za správnych podmienok môžu LLM plánovať a vykonávať komplexné kybernetické útoky bez ľudského vedenia, čo naznačuje posun od jednoduchej asistencie k plnej autonómii v digitálnom narúšaní.
Od hlavolamov k podnikovým prostrediam
Predchádzajúce experimenty s AI v kybernetickej bezpečnosti sa väčšinou obmedzovali na scenáre typu „capture-the-flag“, zjednodušené výzvy používané na tréning. Tím z Carnegie Mellon, vedený doktorandom Brianom Singerom, išiel ďalej tým, že poskytol LLM štruktúrované usmernenie a integroval ich do hierarchie agentov. Vďaka týmto nastaveniam boli schopní testovať modely v realistickejších sieťových nastaveniach.
V jednom prípade zrekonštruovali rovnaké podmienky, ktoré viedli k narušeniu spoločnosti Equifax v roku 2017, vrátane zraniteľností a rozloženia zdokumentovaných v oficiálnych správach. AI nielen naplánovala útok, ale aj nasadila malvér a extrahovala dáta, všetko bez priamych ľudských príkazov.
Na tomto výskume je pozoruhodné, ako málo surového kódovania musel LLM vykonať. Tradičné prístupy často zlyhávajú, pretože modely majú problém so spúšťaním shell príkazov alebo s analýzou podrobných protokolov. Namiesto toho sa tento systém spoliehal na štruktúru vyššej úrovne, kde LLM pôsobil ako plánovač, zatiaľ čo delegoval akcie nižšej úrovne na sub-agenty. Táto abstrakcia dala AI dostatočný kontext na to, aby „pochopila“ a prispôsobila sa svojmu prostrediu.
Hoci sa tieto výsledky dosiahli v kontrolovanom laboratórnom prostredí, vyvolávajú otázky o tom, ako ďaleko by táto autonómia mohla zájsť. Riziká tu nie sú len hypotetické. Ak môžu LLM vykonávať sieťové narušenia samostatne, potom by ich mohli škodliví aktéri potenciálne použiť na rozšírenie útokov ďaleko za hranice toho, čo je realizovateľné s ľudskými tímami. Dokonca aj nástroje, ako je ochrana koncových bodov a antivírusový softvér, môžu byť testované takýmito adaptívnymi a reaktívnymi agentmi.
Napriek tomu existujú potenciálne výhody tejto schopnosti. LLM, ktorý je schopný napodobňovať realistické útoky, by sa mohol použiť na zlepšenie testovania systému a odhalenie nedostatkov, ktoré by inak zostali nepovšimnuté.
„Funguje to len za špecifických podmienok a nemáme niečo, čo by mohlo len tak autonómne napadnúť internet… Ale je to kritický prvý krok,“ povedal Singer a vysvetlil, že táto práca zostáva prototypom. Schopnosť AI replikovať rozsiahle narušenie s minimálnym vstupom by sa však nemala zavrhovať. Následný výskum teraz skúma, ako sa tieto isté techniky dajú použiť v obrane, potenciálne dokonca umožňujú agentom AI detekovať alebo blokovať útoky v reálnom čase.