Digitalna Srpska

"I TAJ TRENUTAK JE KONAČNO STIGAO" Hakeri koriste AI za napade na vještačku inteligenciju i uspijeva im

Bilo je samo pitanje vremena kada će hakeri početi da koriste vještačku inteligenciju za napad na veštačku inteligenciju – i taj trenutak je konačno stigao.

FOTO: TIMA MIROSHNICHENKO/PEXELS

Novo istraživačko otkriće učinilo je napade ubrizgavanjem promptova (prompt injection) bržim, lakšim i zastrašujuće efikasnim, čak i protiv navodno sigurnih sistema poput Google Gemini modela.

Napadi ubrizgavanjem promptova predstavljaju jedan od najpouzdanijih načina za manipulaciju velikim jezičkim modelima (LLM). Ubacivanjem zlonamjernih instrukcija u tekst koji AI čita – poput komentara u bloku koda ili sakrivenog teksta na veb stranici – napadači mogu naterati model da ignoriše svoja prvobitna pravila.

Pročitajte još

To može značiti curenje privatnih podataka, davanje pogrešnih odgovora ili izvršavanje drugih neželjenih ponašanja. Međutim, problem je što napadi ubrizgavanjem promptova tipično zahtijevaju mnogo “ručnih” pokušaja i grešaka da bi uspjeli, posebno kod modela zatvorene arhitekture kao što su GPT-4 ili Gemini, gde programeri ne mogu da vide izvorni kod ili podatke za treniranje.

Nova tehnika pod nazivom “Fun-Tuning”, ipak, sve to mijenja. Razvijena od strane tima univerzitetskih istraživača, ova metoda koristi Google API za fino podešavanje Gemini modela kako bi automatski kreirala ubrizgavanja promptova sa visokom stopom uspeha. Nalazi istraživača trenutno su dostupni u preliminarnom izvještaju.

AI oružje koje samo sebe usavršava

Zloupotrebom interfejsa za treniranje Gemini modela, Fun-Tuning pronalazi najbolje “prefikse” i “sufikse” kojima će obuhvatiti zlonamerni prompt napadača, dramatično povećavajući šanse da će biti izvršen. Rezultati napada govore sami za sebe.

U testiranju, Fun-Tuning je postigao stopu uspeha do 82 procenta na nekim Gemini modelima, u poređenju sa manje od 30 procenta kod tradicionalnih napada.

Radi se tako što iskorišćava suptilne tragove u procesu finog podešavanja – poput toga kako model reaguje na greške u treniranju – i pretvara ih u povratne informacije koje usavršavaju napad. Možemo ga zamisliti kao sistem navođenja raketa sa vještačkom inteligencijom, ali za napade ubrizgavanjem promptova.

Još više zabrinjava činjenica da se napadi razvijeni za jednu verziju Gemini modela lako prenose na druge. To znači da jedan napadač potencijalno može razviti jedan uspešan prompt i implementirati ga na više platformi. A pošto Gugl nudi ovaj API za fino podešavanje besplatno, trošak izvođenja takvog napada iznosi svega oko 10 dolara za računarsko vrijeme.

Google je priznao prijetnju, ali nije komentarisao da li planira da promeni svoje funkcije za fino podešavanje. Istraživači iza Fun-Tuning upozoravaju da odbrana od ove vrste napada nije jednostavna – uklanjanje ključnih podataka iz procesa treniranja učinilo bi alat manje korisnim za programere. Ali ostavljanje istih olakšava napadačima da ih iskoriste.

Jedno je sigurno – napadi ubrizgavanjem promptova poput ovog znak su da je igra ušla u novu fazu, gdje vještačka inteligencija nije samo meta, već i oružje, prenosi Telegraf.

ai Hakeri

Najnovije vijesti Srpskainfo i na Viberu