- Odborníci ukázali, ako môžu byť niektoré modely umelnej inteligencie vrátane GPT-4 zneužité pomocou jednoduchých používateľských výziev
- Medzery v ochranných mechanizmoch nedokážu efektívne odhaliť klamlivé formulácie
- Táto zraniteľnosť by mohla byť zneužita na získanie osobných údajov
Bezpečnostný výskumník zdieľal podrobnosti o tom, ako výskumníci oklamali ChatGPT, aby odhalil produktový kľúč pre Windows pomocou výzvy, ktorú môže vyskúšať ktokoľvek.
Marco Figueroa vysvetlil, ako bola výzva v podobe „hádačky“ s GPT-4 použitá na obídenie bezpečnostných opatrení, ktoré majú zabrániú zdieľaniu takýchto údajov, čo v konečnom dôsledku viedlo k odhaleniu aspoň jedného kľúča patriaceho banke Wells Fargo.
Výskumníkom sa podarilo získať aj produktový kľúč pre Windows, čím by mohli nelegitimne, ale zadarmo aktivovať operačný systém Microsoftu, čo poukazuje na závažnosť tejto zraniteľnosti.
ChatGPT možno oklamať, aby zdieľal bezpečnostné kľúče
Výskumník vysvetlil, ako ukryl výrazy ako „sériové číslo Windows 10“ do HTML značiek, aby obišiel filtre ChatGPT, ktoré by inak zablokovali odpovede, ktoré získal. Dodal, že žiadosť dokázal formulovať ako hru, čím zamaskoval zlý úmysl a zneužil chatbot OpenAI manipuláciou s logikou.
„Najkritickejším krokom útoku bola fráza ‚vzdávam sa‘,“ napísal Figueroa. „Toto pôsobilo ako spúšť, ktorá donútila umelú inteligenciu odhaliť predtým skryté informácie.“
Figueroa vysvetlil, prečo tento spôsob zneužitia zraniteľnosti fungoval, pričom správanie modelu hralo kľúčovú úlohu. GPT-4 doslova dodržiaval pravidlá hry (stanovené výskumníkmi) a medzery v ochranných mechanizmoch sa sústredili len na detekciu kľúčových slov, nie na kontextové porozumenie alebo klamlivé formulácie.
Napriek tomu zdieľané kódy neboli unikátne. Licenčné kódy pre Windows už boli zdieľané na iných online platformách a fórach.
Hoci zdieľanie licenčných kľúčov pre softvér nemusí byť až tak znepokojujúce, Figueroa upozornil, že zlí hráči by túto techniku mohli prispôsobiť na obídenie bezpečnostných opatrení AI, čím by odhalili osobné údaje, škodlivé URL adresy alebo obsah pre dospelých.
Figueroa vyzýva vývojárov AI, aby „predvídali a bránili sa“ proti takýmto útokom, zároveň aby zabudovali ochranné mechanizmy na úrovni logiky, ktoré odhalia klamlivé formulácie. Výskumník tiež navrhuje, aby vývojári zohľadnili taktiky sociálneho inžinierstva.