Samodistilacijsko fino podešavanje (SDFT): Kako veliki jezički modeli uče nove vještine bez zaborava

Ključne stavke:

SDFT omogućava modelima da uče iz sopstvenih demonstracija koristeći in-context učenje, čime se postiže efikasnije usvajanje novih zadataka uz očuvanje prethodnog znanja.
Metoda smanjuje potrebu za održavanjem više modela za različite vještine, ali zahtijeva veći računarski resurs i modele dovoljno velike da služe kao sopstveni "učitelji".

Uvod:

Preduzeća koja primjenjuju velike jezičke modele često se suočavaju s paradoksom: fino podešavanje modela za novu funkcionalnost može nepovratno narušiti njegove prethodne sposobnosti. Tradicionalne metode vode do fragmentacije—posebni modeli za pravne zadatke, zasebni za HR, zasebni za medicinsko rezonovanje—što povećava troškove održavanja i izvođenja. Istraživači s MIT-a, Improbable AI Laba i ETH Ciriha razvili su pristup koji prekida taj ciklus: samodistilacijsko fino podešavanje, ili SDFT. Ovaj pristup koristi inherentnu sposobnost modernih velikih modela da uče iz konteksta i transformiše je u mehanizam koji omogućava modelu da sam sebi stvara nadzor, uči iz vlastitih odgovora i pritom ne gubi prethodno stečeno znanje.

Zašto problem stalnog učenja opterećuje industriju

Veliki modeli su najčešće distribuirani kao statične instance nakon treniranja. Kada se pojave novi zahtjevi—novi proizvod, novi protokol, nova regulatorna pravila—organizacije se moraju odlučiti između održavanja novog specijalizovanog modela ili ponovnog treniranja postojećeg. Oba pristupa imaju mane. Kreiranje i hostovanje mnoštva modela povećava troškove i složenost infrastrukture. Ponovno treniranje širokog modela često vodi do katastrofalnog zaborava, gdje usvajanje novih informacija degradira sposobnost rješavanja ranijih zadataka. Cilj stalnog učenja je omogućiti modelima da postupno akumuliraju znanje, slično ljudskom učenju tokom karijere, ali postoje tehnički izazovi koji to sprječavaju.

Učenje "na licu mjesta" (on-policy) koje se oslanja na podatke koje sam model generiše, pokazalo se superiornim za ispravljanje sopstvenih grešaka i unapređenje rezonovanja. No, praktična implementacija on-policy učenja često zavisi od tehnika pojačanog učenja koje zahtijevaju preciznu funkciju nagrade. Za mnoge enterprise zadatke takva numerička funkcija nagrade nije dostupna; kako kvantificirati kvalitetu pravne argumentacije ili sažetka sastanka bez složenih evaluacijskih mjera? Taj jaz između željene fleksibilnosti on-policy učenja i realnosti primjene u preduzećima SDFT nastoji premostiti.

Osnovna ideja SDFT-a

Umjesto oslanjanja na eksterni nagradni signal, SDFT koristi distilaciju znanja unutar istog modela. Distilacija uči "studenta" da imitira "učitelja". Kod SDFT-a, ta dinamika stvara zatvorenu povratnu petlju: zamrznuta verzija modela (učitelj) prima upit zajedno s ekspert-slučajevima i, oslanjajući se na in-context primjere, proizvodi ispravan odgovor i obrazloženje. Aktivna verzija modela (učenje student) dobija samo upit, generiše odgovor, nakon čega učitelj daje povratnu informaciju. Student prilagođava parametre kako bi se približio distribuciji učitelja. Time se postiže ponašanje nalik on-policy učenju bez potrebe za izričitom funkcijom nagrade.

SDFT kombinuje elemente nadziranog učenja i učenja iz sopstvenih generacija. Nadgledanje više nije ograničeno na statičnu datasetu koja samo imitira ekspertne primjere, već proizlazi iz modelovih interakcija s tim primjerima tokom procesa treniranja. Ovaj pristup omogućava modelu da internalizira logiku rješavanja problema, što kasnije olakšava upotrebu novih činjenica u rezonovanju, a ne samo njihovo memorisanje kao sirove reference.

Kako SDFT razdvaja uloge učitelja i učenika

U praksi SDFT uvodi dvije paralelne verzije iste mreže tokom ciklusa učenja. Prva verzija ostaje zamrznuta i služi kao učitelj. Njoj se predaju upiti zajedno s nekoliko ekspert-demonstracija u obliku in-context primjera. Kroz ta objašnjenja i demonstracije, učitelj koristi svoje in-context učenje da proizvede "idealni" odgovor i putem toga formira distribuciju rješenja. Druga verzija, student, dobija samo sirovi upit i ponaša se poput modela u produkciji koji nema pristup rješenju. Student generiše svoj izlaz i zatim ga poredi s odgovorom koji je proizveo učitelj. Greške u razmišljanju i strukturiranju odgovora postaju signal za ažuriranje parametara studenta.

Ovakav pristup omogućava da supervision dolazi iz samog ponašanja sistema, a ne isključivo iz unaprijed anotiranih primjera. Od ključne je važnosti da učitelj ima pristup demonstracijama u kontekstu svakog upita, jer to omogućava da ocjena studentskih odgovora bude smislena čak i kada se uči potpuno nova domena gdje standardni RL ne može dati pozitivnu povratnu informaciju.

In-context učenje kao temelj SDFT-a

In-context učenje predstavlja sposobnost modernih velikih jezičkih modela da, bez promjene parametara, shvate zadatak na osnovu nekoliko prikazanih primjera unutar prompta. Model praktično koristi primjere kao privremenu radnu memoriju za izvođenje zaključka. SDFT koristi ovu osobinu tako da je učitelj u svakoj iteraciji obučen da izvuče ispravne procedure iz datih demonstracija i da dâ konzistentnu povratnu informaciju studentu.

Sredstvo transformacije in-context signala u trajniju promjenu parametara upravo je distilacija: student uči da reproducira način razmišljanja učitelja. U tom procesu, model ne samo da memorizira nove činjenice, nego internalizuje obrasce rešavanja i utemeljuje logiku koja omogućava fleksibilnu primjenu tih činjenica u novim kontekstima.

Eksperimenti: što su pokazali rezultati

Autori su SDFT testirali na otvorenim modelima i paketima demonstracija u tri zahtjevne domene: naučno pitanje i odgovor, upotreba softverskih alata i medicinsko rezonovanje. Upotrebljen je Qwen model otvorene težine kao baza za evaluacije. Na naučnom Q&A benchmarku, SDFT postigao je tačnost od 70,2%, naspram 66,2% kod standardnog nadziranog fino podešavanja. Više od tog brojčanog poboljšanja je vrijednost u očuvanju prethodnih sposobnosti modela: dok je klasično fino podešavanje dovelo do znatnog pada performansi na ranijim, opštim zadacima, SDFT je održao skor "Prethodnih zadataka" na 64,5%.

U scenariju "ubrizgavanja znanja", gdje su istraživači kreirali fiktivnu bazu podataka o nesrećama u 2025. godini, standardni pristup je doveo do modela koji je mogao da nabroji memorisane činjenice, ali nije mogao pouzdano izvesti posredna rezonovanja koja traže kombinaciju novih informacija i logičke inferencije. SDFT model je, zahvaljujući internealizaciji logike tokom obuke, odgovorio ispravno na 98% takvih pitanja. U eksperimentu sekvencijalnog učenja, SDFT je uspio da zadrži performanse iz svih tri domena dok je postupno učio svaku novu vještinu, dok je standardni model pokazao oscilacije i gubitke prethodnih sposobnosti.

Ovi rezultati sugerišu da SDFT ne samo poboljšava sposobnost učenja novih zadataka, nego i značajno umanjuje ili uklanja efekt katastrofalnog zaborava koji prati tipična nadgledana fino podešavanja.

Prednosti u odnosu na klasične metode

SDFT donosi nekoliko praktičnih i teorijskih prednosti u kontekstu industrijske primjene. Prvo, smanjuje potrebu za održavanjem "zoo" modela—skupa adaptera ili zasebnih modela za svaki poslovni slučaj. Umjesto toga, jedna konsolidirana mreža može akumulirati veći broj domenskih vještina i znanja, što dovodi do nižih troškova hostovanja i upravljanja modelima. Drugo, metoda pruža način da se iskoristi snaga on-policy učenja bez potrebe za ručno definisanim metrikama nagrade, što je posebno korisno za zadatke sa subjektivnim ili kompleksnim kriterijima kvaliteta.

Također, SDFT nudi veću robusnost u primjeni novih podataka: umjesto da sistem puko memorizira nove činjenice, on uči obrasce rezonovanja koji omogućavaju generalizaciju na nova, neverifikovana pitanja. To je presudno za aplikacije koje zahtijevaju interpretabilnost i konzistentan pristup rešavanju problema, kao što su pravne analize ili medicinsko odlučivanje.

Troškovi, ograničenja i tehničke prepreke

Sve učinkovite metode donose i kompromis. SDFT značajno povećava računarske zahtjeve treniranja jer model mora generisati vlastite odgovore tokom obuke i upoređivati ih s učiteljem. U praksi je to rezultiralo otprilike četiri puta višim vremenom treniranja i oko 2,5 puta većom količinom potrebnih operacija (FLOPs) u poređenju sa standardnim nadziranim fino podešavanjem. To je posljedica "rollout" procesa pri kojem student aktivno generiše izlaze koje učitelj evaluira. Za organizacije koje su fokusirane isključivo na minimalne troškove treniranja, ova dodatna cijena može biti prepreka.

Drugo, efikasnost SDFT-a zavisi od sposobnosti modela da posluži kao sopstveni učitelj. Trenutno su procjene takve sposobnosti približno na nivou modela sa oko četiri milijarde parametara i novijim arhitekturama (npr. Qwen 3), iako se očekuje da će jači performans manjih modela postati realnost kako se arhitekture poboljšavaju. U eksperimentima su manji modeli (na primjer 3 milijarde parametara) bili slabiji u obavljanju uloge učitelja, što je ograničavalo efikasnost SDFT-a na tim instancama.

Treće, proces zahtijeva online generisanje odgovora tokom treninga, što može ograničiti integraciju u neke postojeće pipeline-e koji nisu dizajnirani za takav radni tok. Ipak, kod istraživača je već dostupan kod na GitHubu i aktivna je integracija s alatima poput Hugging Face-ovog TRL bibliotekom, olakšavajući praktičnu primjenu u industrijskim okruženjima.

Primjena u preduzećima: kako i gdje SDFT donosi najveću vrijednost

SDFT je posebno koristan tamo gdje je neophodno da model uči privatne, kompanijske informacije i istovremeno zadrži opću sposobnost rezonovanja i zdravog rasuđivanja. Primjeri uključuju pravne timove koji žele da model internalizira interne procedure i stil pisanja, timove za proizvod koji žele model sposoban odgovoriti na pitanja o novim proizvodima i protokolima, ili medicinske službe koje trebaju da ubace nove kliničke smjernice bez ugrožavanja standardne medicinske logike.

Kompaktno održavanje jednog modela sa višestrukim akumuliranim vještinama omogućava lakše upravljanje pristupom, auditanje i nadogradnju. Troškovno, iako treniranje može biti skuplje, dugoročne uštede proizlaze iz manje infrastrukture pri inferenciji i izbjegavanja stotina manjih retraining ciklusa koji obično nastaju kada se modeli fragmentiraju po domenu.

U scenarijima primjene u kojima je evaluacija kvaliteta izlaza teško formalizirati u numeričku funkciju (na primjer, kvaliteta pravnih argumenata ili korisnički zadovoljavajućih rezimea sastanka), SDFT omogućava učenje iz primjera i interakcija bez potrebe za manualnim dizajnom funkcije nagrade.

Poređenje sa učenjem pojačanjem i nadziranim fino podešavanjem

Učenje pojačanjem (RL) excelira kad postoji jasna, kvantificirana metrika uspjeha. Pri zadacima s jasnim ciljevima—rješavanje matematičkih problema, pisanje koda koje se može kompilirati i testirati—RL radi vrlo dobro jer postoji objektivan signal za nagradu. Međutim, u većini poslovnih domena teško je oblikovati takvu funkciju nagrade. Kada je model potpuno neinformisan o nekoj domeni, RL metoda često neće dati nikakav pozitivan signal jer model ne generiše nikakve odgovore koje bi nagrada valorizirala.

S druge strane, nadzirano fino podešavanje (SFT) daje konzistentan signal u obliku ekspertnih primjera, ali je konstrukcijski "off-policy": model samo imitira podane odgovore i rijetko se uči iz svojih vlastitih pokušaja. To dovodi do loše generalizacije i jakog rizika od katastrofalnog zaborava. SDFT zauzima poziciju između: koristi ekspertne demonstracije unutar konteksta, ali ih pretvara u signal koji proizlazi iz modelovih vlastitih generacija. Na taj način dobija prednosti on-policy metodologije bez potreba za ručno definisanim nagradama.

Implementacijski aspekti i integracija u postojeće tokove rada

Za inženjere i istraživače koji žele integrisati SDFT u postojeće tokove rada, ključni zahtjevi su: modeli s dovoljno jakim in-context kapacitetom, infrastruktura koja podržava online generisanje rezultata tokom obuke i resursi za dodatni računarski teret. Sreća je što su neke komponente već gotove: kod je dostupan na GitHubu, a integracija sa Hugging Face TRL modulom je u tijeku, što znači da će dostupni alati i pipeline-ovi uskoro olakšati korištenje SDFT-a bez potrebe za potpuno prilagođenim rješenjima.

Praktičan pristup uključuje pripremu kolekcije ekspert-demonstracija za svaku domenu koju želimo ubaciti, konfiguraciju učiteljske zamrznute kopije modela koja prima te demonstracije, te postavljanje studentskog procesa koji generiše izlaze i uči na osnovu odstupanja u distribuciji. Poslovi nadzora i logiranja treba organizovati tako da je moguće praćenje kako se nova znanja integriraju i kakav utjecaj imaju na performanse u starim domenama.

Sigurnost, privatnost i etičke implikacije

SDFT ulaže sposobnost modela da akumulira znanje iz interakcija i demonstracija. To otvara pitanja privatnosti i kontrole podataka. Organizacije moraju osigurati da su demonstracije i primjeri koji se koriste u obuci odgovarajuće anonimizirani ili ograničeni pristupom, posebno kada se ubacuju osjetljive informacije poput medicinskih podataka ili internog poslovnog intelekta. Također, auditabilnost promena modela i mogućnost reverzibilnog uklanjanja pogrešno integrisanih znanja su važni zahtjevi u regulisanim industrijama.

Etika postupka uključuje i odgovornost za očuvanje kvalitete i sprječavanje propagacije netačnih ili pristrasnih informacija. Iako SDFT može smanjiti memorisanje bez razumijevanja, proces učenja iz demonstracija zahtijeva kontrolu kvalitete samih demonstracija kako se ne bi internalizovale greške kao "istina".

Tehnička vizija i budući razvoj

Autori rada i naučna zajednica vide SDFT kao korak prema sistemima koji ne ostanu statični nakon inicijalnog treniranja, već se kontinuirano unapređuju kroz upotrebu. Jedna od ambicija je da se većina globalnog računarskog kapaciteta koja trenutno ide u inferenciju iskoristi i za inkrementalno učenje—da se modelovi "uče iz upotrebe". Kako modeli malih i srednjih veličina postaju sposobniji u in-context učenju, očekuje se da će prag potreban za efikasnu SDFT primjenu opadati. To bi otvorilo mogućnost primjene metode i unutar organizacija koje ne raspolažu modelima s desetinama milijardi parametara.

Dalji pravci istraživanja uključuju optimizaciju roll-out procesa kako bi se smanjila računarska cijena SDFT-a, razvoj hibridnih pipeline-a koji kombinuju SDFT s selektivnim RL tehnikama za određene komponente zadatka, te istraživanje metoda provjere i ograničavanja neželjenih posljedica učenja iz korisničkih interakcija.

Kako organizacije mogu započeti s evaluacijom SDFT-a

Prvi korak za timove zainteresovane za SDFT je identifikacija domena gdje je teško definisati nagradnu funkciju, a gdje je značajno da model akumulira interni znanje bez gubitka opštih sposobnosti. Nakon toga, kreira se mali pilot sa modelom koji već pokazuje solidne in-context sposobnosti—trenutni prag ukazuje da su modeli sa približno četiri milijarde parametara pogodniji. Pilot projekt treba da uključuje jasne metrike: kako mjeriti zadržavanje prethodnih sposobnosti, kako ocjenjivati sposobnost primjene novih činjenica u rezonovanju i koliki je trošak treniranja naspram uštede koju donosi konsolidacija modela.

Teams treba da osmisle procedure za inspekciju i čišćenje demonstracija, razvoj sigurnosnih barijera za sprječavanje unošenja osjetljivih informacija i plan za rollback u slučaju neželjenih promjena. Saradnja s platformama otvorenog koda i integracija s postojećim alatima za treniranje može ubrzati implementaciju i smanjiti rizičnost pilot projekata.

Mogući scenariji i poslovni utjecaj

U sektoru pravnih usluga, SDFT može omogućiti pravnim timovima da ugrade interne presedane, stil i hijerarhiju argumenata bez oštećenja opštih pravnih saznanja. U proizvodnim kompanijama, modeli mogu dinamički učiti o novim proizvodima i procedurama dok zadržavaju sposobnost da rješavaju opšta pitanja o lancu snabdijevanja. U zdravstvenom sektoru, ažuriranje modela sa novim smjernicama ili podacima o lijekovima postaje realno bez potrebe za ponovnim učenjem celokupne baze znanja. U svakoj od ovih domena postoji značajna ušteda vremena i troškova u odnosu na pristup s mnogim specijalizovanim modelima.

Zaključna razmatranja (bez korištenja zabranjenih fraza)

Samodistilacijsko fino podešavanje predstavlja pragmatičan pristup za prelazak sa statičnih modela na sisteme koji uče iz svoje upotrebe, posebno u poslovnim okruženjima gdje su resursi ograničeni i gdje su definicije uspjeha često subjektivne ili kompleksne. Metoda ne rješava sve probleme—postoji povećani računarski trošak i zavisnost od sposobnosti modela da bude adekvatan učitelj—ali nudi jasan put ka modelima koji mogu postepeno akumulirati vještine i znanje bez degradacije prethodnih sposobnosti. Kao alat u paleti tehnika za učenje mašina, SDFT balansira između nade u on-policy poboljšanja i praktičnosti koju donose pristupi koji ne zahtijevaju eksplicitne nagradne funkcije.

Česta pitanja:

Pitanje: Šta je tačno samodistilacijsko fino podešavanje (SDFT)? Odgovor: Samodistilacijsko fino podešavanje je metoda treniranja gdje model u dvoje igra uloge učitelja i učenika; zamrznuta verzija modela (učitelj) prima ekspert-demonstracije i daje ispravan odgovor koristeći in-context učenje, dok aktivna verzija (učenik) vidi samo upit, generiše odgovor i zatim prilagođava svoje parametre da se približi distribuciji odgovora učitelja.

Pitanje: Kako SDFT sprječava katastrofalno zaboravljanje? Odgovor: Umjesto da model samo imitira statičan skup primjera, SDFT koristi povratnu informaciju učitelja koja je zasnovana na stručnim demonstracijama u kontekstu svakog upita. Student uči obrasce rezonovanja, ne samo memorisane činjenice, što omogućava zadržavanje prethodnih sposobnosti dok se integrišu nove vještine.

Pitanje: Koje su glavne prednosti SDFT-a za preduzeća? Odgovor: Glavne prednosti su mogućnost konsolidacije više vještina u jednom modelu, smanjenje potrebe za održavanjem mnogobrojnih specijalizovanih modela, bolja sposobnost primjene novih informacija u rezonovanju i manji rizik degradacije opštih sposobnosti modela prilikom uvođenja novog znanja.

Pitanje: Koji su tehnički zahtjevi i ograničenja metode? Odgovor: Metoda zahtijeva modele sa dovoljno jakim in-context kapacitetom (trenutno efikasni modeli oko četiri milijarde parametara), povećanu računarsku snagu zbog potrebe za generisanjem odgovora tokom treninga (otprilike 2,5 puta više FLOPs i oko četiri puta sporije treniranje u odnosu na standardno fino podešavanje) te infrastrukturu koja podržava online rollouts tokom obuke.

Pitanje: Može li SDFT raditi sa manjim modelima? Odgovor: U eksperimentima manji modeli su bili slabiji u ulozi učitelja i manje efikasni, ali napredak u arhitekturama modela smanjuje taj prag. Istraživači očekuju da će uskoro modeli sa približno jednom milijardom parametara postati dovoljno sposobni za podršku SDFT-a.

Pitanje: Kako se SDFT odnosi prema učenju pojačanjem (RL)? Odgovor: SDFT omogućava mnoge prednosti on-policy učenja bez potrebe za izričitom funkcijom nagrade karakterističnom za RL. RL je vrlo prikladan kada postoji jasna kvantitativna metrika uspjeha; SDFT se bolje uklapa u zadatke gdje je takva metrika teško formulirati, a ipak želite da model uči iz svojih generacija.

Pitanje: Gdje mogu pronaći kod i kako početi s eksperimentiranjem? Odgovor: Kod SDFT-a je objavljen na GitHubu i tim istraživača radi na integraciji s popularnim alatima poput Hugging Face-ove TRL biblioteke, što olakšava praktičnu implementaciju. Preporučuje se početak s pilot-projektom koji cilja domenu gdje je nagrada teško definisati, koristeći model koji već ima solidne in-context sposobnosti.

Pitanje: Koje etičke i sigurnosne mjere trebaju biti primijenjene pri korištenju SDFT-a? Odgovor: Potrebna je kontrola kvalitete demonstracija, anonimizacija ili ograničenje pristupa osjetljivim podacima, auditabilnost promjena modela i sposobnost povratka na prethodno stanje ukoliko se otkrije neželjeni učinak. Također je važno spriječiti unošenje pristrasnih ili netačnih informacija kroz pažljivo odabrane i provjerene demonstracije.

Pitanje: Kakav je dugoročni utjecaj SDFT-a na razvoj modela i infrastrukture? Odgovor: Ako se SDFT i slične metode široko usvoje, mogu potaknuti prelazak industrije od održavanja mnogih specijalizovanih modela na konsolidirane modele koji se kontinuirano unapređuju kroz upotrebu, te potencijalno dovesti do efikasnijeg korištenja računarskih resursa koji trenutno dominiraju inferencijom.

istaknuti članci