Ho speso 400 $ in chiamate API OpenAI il mese scorso. Poi ho trasferito tre dei miei carichi di lavoro su Llama 3.1 che gira su un’istanza GPU a 20 $ al mese. Stessa qualità, riduzione dei costi del 95 %. Ecco la storia dell’IA open source in sintesi.
Il divario tra i modelli di IA open source e proprietari si è notevolmente ridotto. Per molte attività, i modelli open source non sono solo “sufficienti” — sono la scelta più saggia. Lasciatemi presentarvi quelli che valgono davvero il vostro tempo.
I Modelli Che Ho Realmente Utilizzato
Llama 3.1 di Meta è quello che tutti scelgono per primo, ed è comprensibile. La versione 405B compete con GPT-4 su gran parte dei benchmark. La versione 70B gestisce il 90 % delle attività del mondo reale. E la versione 8B? Perfetta per il prototipaggio quando non vuoi aspettare.
Una cosa che mi ha sorpreso: la finestra contestuale di 128K di Llama è realmente utilizzabile, non solo un dato di marketing. L’ho alimentata con basi di codice complete e ho ricevuto in cambio analisi coerenti.
Mixtral di Mistral AI adotta un approccio diverso. La loro architettura di mescolanza di esperti significa che ottieni performance simili a quelle dei modelli da 70B a una frazione del costo computazionale. Se svolgi inferenze sul tuo hardware e controlli le tue bollette elettriche, Mixtral è il tuo amico. Inoltre, è sotto Apache 2.0 — fai ciò che vuoi con.
DeepSeek V3 è sbucato dal nulla e ha sorpreso tutti. Un laboratorio di ricerca cinese ha addestrato un modello di alta qualità a una frazione di quanto speso da Meta e Google. I guadagni in efficienza qui non sono marginali — sono architettonici. DeepSeek ha dimostrato che non è necessario avere un budget di addestramento di un miliardo di dollari per competere.
Qwen 2.5 di Alibaba merita più attenzione di quella che riceve nel mondo anglofono. La versione 72B è competitiva con qualsiasi cosa esista, e la performance nella lingua cinese è senza pari. Se stai costruendo qualcosa di multilingue, specialmente che coinvolge il cinese, Qwen dovrebbe comparire nella tua lista ristretta.
Gemma 2 di Google supera di gran lunga la sua categoria di peso. La versione 27B supera modelli due volte più grandi su diversi benchmark. Google ha chiaramente messo la sua esperienza nella ricerca per creare un piccolo modello che non sembra affatto piccolo.
Phi-3 di Microsoft è il modello del “aspetta, davvero?”. Con solo 3,8B di parametri, gestisce compiti che modelli dieci volte più grandi faticano a completare. Microsoft è riuscita in questo concentrandosi sulla qualità dei dati di addestramento anziché semplicemente aumentare la potenza. C’è una lezione in questo.
Perché Ho Cambiato (E Potresti Volerlo Fare Anche Tu)
Il problema dei costi è reale. I costi API si accumulano rapidamente quando gestisci migliaia di documenti quotidianamente. Dopo essere passato a Llama auto-ospitato, i miei costi di inferenza sono scesi da “preoccupanti” a “errore di arrotondamento”. Il lavoro iniziale di impostazione dell’infrastruttura si è ripagato in due settimane.
La privacy smette di essere un problema. Lavoro con clienti nei settori della salute e legale. Spiegare che i loro documenti sensibili vengono inviati ai server di OpenAI è sempre stata una conversazione delicata. Con i modelli auto-ospitati, questa conversazione non ha luogo. I dati rimangono sulla nostra infrastruttura. Fine della storia.
Niente più cambiamenti a sorpresa delle API. OpenAI ha deprecato un modello di cui dipendevo con 30 giorni di preavviso. Il mio sistema di produzione aveva bisogno di una revisione urgente. Con l’open source, il mio modello funziona oggi allo stesso modo dell’anno prossimo. Controllo il programma.
Il fine-tuning funziona davvero. Ho messo a punto Llama su 500 esempi del nostro stile di documentazione interna. Il miglioramento è stato spettacolare — il modello è passato da “assistente utile generico” a qualcosa che sembrava davvero scritto dal nostro team. Non puoi fare questo solo con un prompt.
Quando il Proprietario Vince Ancora
Non pretenderò che l’open source abbia raggiunto il livello in ogni ambito. Per il ragionamento complesso per fasi — quello in cui hai bisogno che l’IA tenga a mente dieci vincoli mentre risolve un puzzle — Claude e GPT-4o hanno ancora un vantaggio. Questo divario si sta riducendo, ma è ancora presente.
Le capacità multimodali (visione + testo + audio) rappresentano un altro divario. I modelli open source stanno recuperando, ma le migliori esperienze multimodali rimangono proprietarie.
E se non hai nessuno nel tuo team in grado di gestire l’infrastruttura GPU, la semplicità di una chiamata API vale il costo aggiuntivo.
Come Iniziare
Ollama è il posto dove mando tutti per primo. Installalo, esegui ollama run llama3.1, e parli con un modello 8B in meno di un minuto. Nessuna configurazione GPU, nessun problema di Docker. Funziona semplicemente.
vLLM è ciò che uso in produzione. La velocità è eccezionale — il trattamento continuo significa che puoi elaborare centinaia di richieste simultanee senza che i tempi di risposta crollino.
Per gli utenti di Apple Silicon, llama.cpp esegue i modelli in modo sorprendente sui Mac con chip M-series. Eseguo regolarmente modelli 13B sul mio MacBook M2 per lo sviluppo. Non è veloce come una vera GPU, ma è completamente utilizzabile.
Conclusione
Un anno fa, raccomandare modelli di IA open source sembrava raccomandare Linux sul desktop — tecnicamente corretto ma praticamente doloroso. Questo è cambiato. I modelli sono buoni, gli strumenti sono maturi e l’economia è convincente.
Inizia con Ollama e Llama 3.1. Eseguilo per una settimana accanto alla tua attuale soluzione basata su API. Confronta le uscite. Penso che sarai sorpreso di scoprire quante volte non riesci a fare la differenza — e quanti soldi risparmierai cambiando.
🕒 Published: