Najnovija pomama u umjetnoj inteligenciji povezana je s modelima ‘zaključivanja’, velikim jezičnim modelima (Large Language Models-LLM) koji su prilagođeni da ‘razmišljaju’ dulje prije nego što odgovore na upite. Osnova ovoga – prikazana u OpenAI-jevoj o-seriji i DeepSeek-ovom R1 – uključuje razmišljanje lanca misli , Chain-of Thought (CoT), stariji pristup koji je, u kombinaciji s najnovijim LLM-ovima, imao prilično snažan učinak.
Prvi put naglašen u radu istraživača Google DeepMind iz 2022., CoT je započeo kao tehnika poticanja koja se nedavno razvila u pristup koji je ugrađen u same modele.
Ian Krietzberg iz The deep view i Dr. David Cox iz IBM donose više detalja :
• “Uglavnom, netko je shvatio da ako kažete, ‘recite modelu (da) razmišlja korak po korak’, to zapravo daje bolje rezultate”, rekao je dr. David Cox, potpredsjednik AI modela u IBM Research.
• “Modelu će zapravo trebati vremena. Verbalizirat će nekoliko koraka i na kraju ćete dobiti bolji rezultat. A to je vrlo svestrana stvar. Ali ako samo to radite, onda to ima svoje granice”, rekao je. “Pomaže. Ali to ne mijenja život.”
I dok se industrija već mjesecima kreće u smjeru ‘zaključivanja’, došlo je do definitivnog pomaka nakon DeepSeek-ovog izdanja R1, naizgled jeftinijeg modela koji je postigao paritet s OpenAI-jevim modelima kroz učenje pojačanja i CoT rezoniranje.
“Svi su imali stvarno, stvarno snažnu reakciju na izlazak R1, što nas je iskreno malo zbunilo u polju istraživanja”, rekao je Cox, objašnjavajući da DeepSeek, barem za one u industriji, nije baš došao niotkuda. “Već smo bili uzbuđeni. Svi smo već radili na tome.” I umjesto da čeka da ga objavi, IBM je odlučio “samo izbaciti nešto da pokaže što smo radili u tom vremenu.”
Ranije ovog mjeseca, IBM je objavio izdanje za pregled verzije svog modela Granite 3.1 8B s omogućenim razmišljanjem, dijela IBM-ove obitelji manjih jezičnih modela dizajniranih za uparivanje sa skupovima podataka specifičnim za poduzeća.
- Tamo gdje je DeepSeek iskoristio destilaciju modela kako bi postigao svoje rezultate, IBM je primijenio učenje pojačanja izravno na svoj model Granite kako bi potaknuo obrazloženje CoT-a, što osigurava “da su očuvane kritične karakteristike poput sigurnosti izvornog modela i opće performanse.”
- Kao rezultat ovog pristupa, IBM je zabilježio dvoznamenkasti rast referentnih performansi koje su, posebice, dobro funkcionirale u širokom rasponu specifičnih zadataka bez žrtvovanja općih performansi.
Istraživači nisu primijetili nikakvu razliku u sigurnosnoj izvedbi između modela s omogućenim razmišljanjem i izvornih modela. To je značajan trenutak u sukobu i raspravi između velikih i malih jezičnih modela, gdje manji modeli nude veću učinkovitost, ali općenito manje robusnu izvedbu.
“Mislim da će to biti kontinuirani trend da zapravo možemo uzeti ove manje modele, koji su vrlo svestrani, vrlo brzi, vrlo učinkoviti, i onda ih praktički učiniti većim na zahtjev”, rekao je Cox. “Ideja da možete uzeti mali model i omogućiti mu da radi više stvari tako što ćete ga rasporediti u vremenu, to je nešto za što mislim da će se zavladati posvuda.”
I za razliku od trenda koji trenutno vidimo kod sustava – poput ChatGPT-a – koji se mogu prebacivati između rezonirajućih i nerezonirajućih modela prema potrebi, IBM je dizajnirao ovaj model tako da korisnici mogu u biti uključiti ili isključiti CoT – bez mijenjanja modela. Budući da je obrazloženje CoT-a i duže i skuplje od alternative, to nije uvijek potrebno (ili poželjno). Zbog toga je IBM-ov fokus bio na fleksibilnosti.
“Izrađujemo ovaj skup kontroliranih, programerima prilagođenih načina za dodavanje zastavica koje samo govore modelu što trebamo učiniti”, rekao je Cox.
Ovaj rad, prema Coxu, samo je početak dugoročnog trenda.
“Imamo još mnogo toga što se događa u prostoru razmišljanja, odvijaju se razne vrste rada na razmišljanju koje ćete vidjeti u nadolazećim mjesecima”, rekao je.
“Ne mislim da ćemo dugoročno biti u svijetu u kojem imamo samo jedan divovski model koji pokušava učiniti sve”, dodao je Cox. “Imat ćemo ovaj cool set malih modela koji se mogu proširiti i razmišljati… to je svijet prema kojem mislimo da idemo. Postavite razvojnom programeru kontrolu, dajte mu skup alata koji može … izvršiti različite zadatke i automatizirati stvari i koristiti ovu tehnologiju na načine koji i dalje drže pod kontrolom programera i ljude.”