Kako bi AI chatbotovi zvučali pametno i izbacivali manje toksične besmislice tajna je u korištenju tehnike koja se zove pojačano učenje iz ljudskih povratnih informacija, a ona koristi ljude za unos poboljšanja odgovora modela. Oslanja se na malu vojsku ljudskih anotatora podataka koji procjenjuju ima li niz teksta smisla i zvuči li tečno i prirodno. Oni odlučuju treba li odgovor zadržati u bazi podataka AI modela ili ga ukloniti.
Čak i najimpresivniji AI chatbotovi zahtijevaju tisuće radnih sati kako bi se ponašali na način na koji njihovi kreatori žele, a čak i tada to rade nepouzdano. Rad može biti brutalan i uznemirujući, neki su od komentara na ACM konferenciji o pravednosti, odgovornosti i transparentnosti (FAccT). To je konferencija koja okuplja istraživanja o stvarima poput onih kako sustave umjetne inteligencije učiniti odgovornijima i etičnijima.
Jedan od panela je s pionirom AI etike Timnit Gebru, koja je bila suvoditelj Googleovog odjela za etiku AI prije nego što je dobila otkaz. Gebru govori o tome kako se djelatnici za obradu podataka u Etiopiji, Eritreji i Keniji iskorištavaju za čišćenje internetske mržnje i dezinformacija. Na primjer, anotatori podataka u Keniji bili su plaćeni manje od 2 dolara po satu da pretraže hrpu uznemirujućeg sadržaja o nasilju i seksualnom zlostavljanju kako bi ChatGPT bio manje toksičan. Ti se radnici sada sindikalno udružuju kako bi dobili bolje uvjete rada.
U seriji MIT Technology Review prošle godine, komentirano je kako umjetna inteligencija stvara novi kolonijalni svjetski poredak, a radnici koji se bave podacima snose najveći teret toga. Rasvjetljavanje izrabljivačkih radničkih praksi oko umjetne inteligencije postalo je još hitnije i važnije s porastom popularnih AI chatbotova kao što su ChatGPT, Bing i Bard i umjetne inteligencije za generiranje slika kao što su DALL-E 2 i Stable Diffusion.
Anotatori podataka uključeni su u svaku fazu razvoja umjetne inteligencije, od modela za obuku preko provjere njihovih rezultata do pružanja povratnih informacija koje omogućuju fino podešavanje modela nakon što je pokrenut. Često su prisiljeni raditi nevjerojatno brzim tempom kako bi ispunili visoke ciljeve i kratke rokove, kaže Srravya Chandhiramowuli, doktorska istraživačica koja proučava radne prakse u radu s podacima na Cityju, Sveučilište u Londonu.
“Ta ideja da možete izgraditi ove velike sustave bez ljudske intervencije je apsolutna zabluda”, kaže Chandhiramowuli. “Anotatori podataka daju AI modelima važan kontekst koji im je potreban za donošenje velikih odluka i čine se sofisticiranima. Očekuje se da anotatori utvrde vrijednosti koje su važne za tvrtku. Oni ne uče samo te daleke daleke stvari koje su im apsolutno besmislene – oni također trebaju shvatiti ne samo koji su ti drugi konteksti, već i koji su prioriteti sustava koji grade”, kaže ona.
Zapravo, svi mi radimo na podacima za velike tehnološke tvrtke, bili toga svjesni ili ne, tvrde istraživači sa Sveučilišta Kalifornija, Berkeley, Sveučilišta Kalifornija, Davis, Sveučilišta Minnesota i Sveučilišta Northwestern u novom radu predstavljenom na FAccT.
Tekstualni i slikovni AI modeli treniraju se pomoću ogromnih skupova podataka koji su izvučeni s interneta. To uključuje naše osobne podatke i djela umjetnika zaštićena autorskim pravom, a ti podaci koje smo stvorili postali su zauvijek dio modela umjetne inteligencije koji je izgrađen kako bi tvrtki zaradio novac. Nesvjesno besplatno doprinosimo svojim radom učitavanjem svojih fotografija na javne stranice, glasanjem za komentare na Redditu, označavanjem slika na reCAPTCHA ili izvođenjem online pretraživanja.
Trenutačno je neravnoteža snaga jako iskrivljena u korist nekih od najvećih tehnoloških kompanija na svijetu. Da bismo to promijenili, ne trebamo ništa osim podatkovne revolucije i regulacije. Istraživači tvrde da je jedan od načina na koji ljudi mogu vratiti kontrolu nad svojim online postojanjem zagovaranje transparentnosti o tome kako se podaci koriste i iznalaženje načina da se ljudima da pravo da ponude povratne informacije i dijele prihode od upotrebe svojih podataka.
Iako ovaj rad na podacima čini okosnicu moderne umjetne inteligencije, rad na podacima i dalje je kronično podcijenjen i nevidljiv diljem svijeta, a plaće za anotatore ostaju niske.