Fable 5 se ugasio poslije svega 72 sata i svi su odjednom počeli da pričaju o lokalnim modelima. Lokalni modeli nisu novost, ali sad se predstavljaju kao alternativa zavisnosti od iznajmljenih modela. Pitanje je jednostavno: mogu li biti dovoljno dobri? Reći ću ti odmah, bez čekanja do kraja.
Iskreno mišljenje bez iluzija
Da, lokalni modeli su dovoljno dobri za većinu ljudi. Pod tim mislim na operativne stvari: rad u Excelu, obradu dokumenata, sumarizaciju i transkripciju. Ali nemoj da se zavaravaš. Za pravi vrhunski kvalitet treba ti ozbiljan hardver, recimo Mac Mini M4 Pro sa puno RAM-a ili Mac Studio. Ne možeš graditi priču na tome da je sve isto kao kod frontier modela, jer nije.
Šta je uopšte lokalni model? To je AI koji se izvršava na tvom računaru. Skineš ga jednom i radi kao lokalna aplikacija, bez API-ja, bez tokena, bez naplate. Promptovi, podaci i fajlovi ostaju na tvojoj mašini, kao da AI živi kod tebe. Mana je što ti modeli, po pravilu, nisu najjači koji postoje.
Hardver i odakle početi
Ako planiraš da nabavljaš hardver, znaj da je sve teže doći do njega i da dolazi velika nestašica. Zato je pravi trenutak nabaviti opremu na vrijeme. Redoslijed je jasan. Prvo okruženje: Ollama i LM Studio su najbolji, a ja bih prije izabrao LM Studio jer je user-friendly i sam procijeni tvoj hardver prema RAM-u i grafičkoj kartici.
Onda biraš model prema RAM-u. Modeli od 4 milijarde parametara pokreću se bilo gdje, čak i na telefonu, ali su slabi edge modeli. Verzija od 12 milijardi je sweet spot za 16 giga RAM-a. Za raspon od 27 do 35 milijardi treba ti jak Mac ili dobar GPU, a za 70 milijardi i više ozbiljna kutija poput Mac Studija ili DGX-a.
Koji model za koji posao
- Qwen je najbolji all-rounder, sličan ChatGPT-u: svega pomalo, dobar za većinu stvari.
- DeepSeek je za thinking i reasoning, kada ti treba ozbiljno razmišljanje.
- Gemma je za čisto pisanje, dobra za uređaje i agentsko upravljanje.
- Llama je ogroman ekosistem, idealan za tutorijale i fine tuning.
Moraš razumjeti i kvantizaciju. To je kao JPEG: dobro kompresovan model uz oznake Q4 ili Q5 zauzima mnogo manje memorije, a kvalitet ostaje skoro isti. Kontekst je najbitniji, pa drži kratke konverzacije i često osvježavaj. Mali modeli su odlični za tool calling.
Gdje je tu prilika
Startap ideje su jasne: on-device AI za regulisane industrije gdje podatak ne smije napustiti uređaj, te offline AI za brodove, avione, klinike i teren. Suština je kombinacija. Lokalni modeli pokrivaju operativu i osjetljive podatke, a frontier modeli ulijeću kad zaista zatreba vrhunska pamet. Ako te zanima nezavisnost i kontrola nad podacima, sada je trenutak da naučiš i jedno i drugo.
