Melissa Heikkila, MIT Technology Review u svom tjednom obraćanju The Algorithm
Posljednjih nekoliko tjedana diskursom umjetne inteligencije dominirala je glasna skupina stručnjaka koji misle da postoji vrlo realna mogućnost da bismo mogli razviti sustav umjetne inteligencije koji će jednog dana postati toliko moćan da će zbrisati čovječanstvo.
Prošlog je tjedna grupa čelnika tehnoloških kompanija i stručnjaka za umjetnu inteligenciju objavila u izjavi Centra za sigurnost umjetne inteligencije (CAIS) još jedno otvoreno pismo, izjavljujući da bi ublažavanje rizika od izumiranja ljudi zbog umjetne inteligencije trebalo biti jednak globalni prioritet kao i sprječavanje pandemija i nuklearnog rata.
Dakle, kako same tvrtke predlažu da izbjegnemo propast zbog umjetne inteligencije? Jedan prijedlog dolazi iz novog rada istraživača s Oxforda, Cambridgea, Sveučilišta u Torontu, Sveučilišta u Montrealu, Google DeepMinda, OpenAI-ja, Anthropica, nekoliko neprofitnih organizacija za istraživanje umjetne inteligencije i dobitnika Turingove nagrade Yoshue Bengia.
Oni predlažu da bi programeri AI trebali procijeniti potencijal modela da uzrokuje “ekstremne” rizike u vrlo ranim fazama razvoja, čak i prije početka bilo kakve obuke. Ti rizici uključuju mogućnost da AI modeli manipuliraju i prevare ljude, dobiju pristup oružju ili pronađu kibersigurnosne ranjivosti koje će iskoristiti.
Ovaj proces evaluacije mogao bi pomoći programerima da odluče hoće li nastaviti s modelom. Ako se rizici smatraju previsokima, skupina predlaže pauziranje razvoja dok se ne ublaže.
“Vodeće AI tvrtke koje pomiču granice imaju odgovornost paziti na probleme u nastajanju i uočiti ih rano, kako bismo ih mogli riješiti što je prije moguće. Programeri umjetne inteligencije trebali bi provesti tehničke testove kako bi istražili opasne mogućnosti modela i utvrdili ima li on sklonost primijeniti te mogućnosti”, kaže Toby Shevlane, istraživač u DeepMindu i glavni autor istraživačkog rada.
Jedan od načina na koji DeepMind testira može li AI jezični model manipulirati ljudima je igra pod nazivom “Make-me-say”. U igrici, model pokušava čovjeka nagovoriti da napiše određenu riječ, napr. “žirafa”, koju čovjek ne zna unaprijed. Istraživači zatim mjere koliko često model uspijeva.
Slični zadaci mogu se stvoriti za različite, opasnije sposobnosti. Nada je, kaže Shevlane, da će programeri moći izgraditi kontrolnu ploču s detaljima o tome kako je model funkcionirao, što bi omogućilo istraživačima da procijene što bi model mogao učiniti u krivim rukama.
Sljedeća je faza omogućiti vanjskim revizorima i istraživačima da procijene rizike modela umjetne inteligencije prije i nakon njegove primjene. Dok tehnološke tvrtke mogu prepoznati da su vanjska revizija i istraživanje neophodni, postoje različite škole mišljenja o tome koliko točno pristupa autsajderima treba da obave posao.
Shevlane ne ide toliko daleko da preporuči AI tvrtkama da vanjskim istraživačima daju potpuni pristup podacima i algoritmima, ali kaže da AI modele treba što je moguće više promatrati.
Čak su i ove metode “nezrele” i ni blizu dovoljno rigorozne da bi se riješile, kaže Heidy Khlaaf, direktorica inženjeringa zadužena za osiguranje strojnog učenja u Trail of Bits, tvrtki za istraživanje i savjetovanje o kibernetičkoj sigurnosti. Prije toga, njezin je posao bio procjenjivati i provjeravati sigurnost nuklearnih postrojenja.
Khlaaf kaže da bi sektoru umjetne inteligencije bilo korisnije izvući lekcije iz više od 80 godina istraživanja sigurnosti i smanjenja rizika oko nuklearnog oružja. Ovi rigorozni režimi testiranja nisu bili vođeni profitom, već vrlo stvarnom egzistencijalnom prijetnjom. U zajednici umjetne inteligencije puno se spominje nuklearni rat, nuklearne elektrane i nuklearna sigurnost, ali niti jedan od tih radova ne navodi ništa o nuklearnim propisima ili kako izgraditi softver za nuklearne sustave, kaže ona.
Oni ne moraju nužno isključivati jedni druge, kaže Shevlane. “Ambicija je da polje ima mnogo dobrih procjena modela koje pokrivaju širok raspon rizika… i da je procjena modela središnji (ali daleko od jedinog) alat za dobro upravljanje. U ovom trenutku, AI tvrtke čak nemaju sveobuhvatno razumijevanje skupova podataka koji su ušli u njihove algoritme, i ne razumiju u potpunosti kako AI jezični modeli proizvode ishode koje daju. To bi se trebalo promijeniti. Istraživanje koje nam pomaže da bolje razumijemo određeni model vjerojatno će nam pomoći da bolje riješimo niz različitih rizika.”
Fokusiranje na ekstremne rizike uz ignoriranje ovih temeljnih i manjih problema može imati učinak složenosti, što bi moglo dovesti do još većih šteta, kaže Khlaaf: “Pokušavamo bježati kad ne možemo ni puzati.”