Ho speso $400 per le chiamate dell’API OpenAI lo scorso mese. Poi ho spostato tre dei miei carichi di lavoro su Llama 3.1 in esecuzione su un’istanza GPU da $20/mese. Stessa qualità, riduzione dei costi del 95%. Questa è la storia dell’IA open-source in poche parole.
Il divario tra i modelli di IA open-source e quelli proprietari si è ridotto drasticamente. Per molti compiti, i modelli open-source non sono solo “abbastanza buoni” — sono la scelta più intelligente. Fammi guidarti attraverso quelli che valgono davvero il tuo tempo.
I Modelli Che Ho Effettivamente Utilizzato
Llama 3.1 di Meta è quello a cui tutti si rivolgono per primo, e con buone ragioni. La versione 405B compete con GPT-4 nella maggior parte dei benchmark. La versione 70B gestisce il 90% dei compiti nel mondo reale. E la versione 8B? Perfetta per il prototyping quando non vuoi aspettare.
Una cosa che mi ha sorpreso: la finestra di contesto di 128K di Llama è veramente utilizzabile, non solo un numero da marketing. Ho fornito interi codici sorgente e ho ricevuto analisi coerente in cambio.
Mixtral di Mistral AI adotta un approccio diverso. La loro architettura di miscelazione di esperti significa che ottieni prestazioni quasi da 70B a una frazione del costo computazionale. Se stai eseguendo inferenze sul tuo hardware e controllando le bollette elettriche, Mixtral è il tuo amico. Inoltre, è Apache 2.0 — fai quello che vuoi con esso.
DeepSeek V3 è emerso dal nulla e ha scioccato tutti. Un laboratorio di ricerca cinese ha addestrato un modello di qualità all’avanguardia a una frazione di quanto hanno speso Meta e Google. I guadagni di efficienza qui non sono incrementali — sono architetturali. DeepSeek ha dimostrato che non hai bisogno di un budget per la formazione da miliardi di dollari per competere.
Qwen 2.5 di Alibaba merita più attenzione di quella che riceve nel mondo anglofono. La versione 72B è competitiva con qualsiasi cosa ci sia, e le prestazioni in lingua cinese sono senza pari. Se stai costruendo qualcosa di multilingue, specialmente coinvolgendo il cinese, Qwen dovrebbe essere nella tua lista ristretta.
Gemma 2 di Google dà un colpo ben oltre la sua categoria. La versione 27B supera modelli che sono il doppio delle sue dimensioni in diversi benchmark. Google ha chiaramente investito la propria expertise in ricerca per creare un modello piccolo che non sembra affatto piccolo.
Phi-3 di Microsoft è il modello da “aspetta, sul serio?”. Con solo 3.8B parametri, gestisce compiti che modelli 10 volte più grandi faticano a svolgere. Microsoft è riuscita in questo ossessionandosi per la qualità dei dati di addestramento piuttosto che semplicemente aumentando la scala. C’è una lezione qui.
Perché Ho Fatto il Cambio (E Potresti Volerlo Fare Anche Tu)
La questione economica è reale. I costi delle API si accumulano rapidamente quando elabori migliaia di documenti ogni giorno. Dopo essere passato a Llama self-hosted, i miei costi di inferenza sono scesi da “preoccupanti” a “errore di arrotondamento.” Il lavoro iniziale per impostare l’infrastruttura si è ripagato in due settimane.
La privacy smette di essere un mal di testa. Lavoro con clienti nei settori sanitario e legale. Spiegare che i loro documenti riservati vengono inviati ai server di OpenAI era sempre una conversazione imbarazzante. Con modelli self-hosted, quella conversazione non avviene. I dati rimangono sulla nostra infrastruttura. Fatta.
Basta sorprese con i cambiamenti delle API. OpenAI ha eliminato un modello di cui mi fidavo con 30 giorni di preavviso. Il mio sistema di produzione ha avuto bisogno di una ristrutturazione d’emergenza. Con l’open-source, il mio modello funziona oggi come funzionerà il prossimo anno. Controllo la tempistica.
Il fine-tuning funziona davvero. Ho eseguito il fine-tuning di Llama su 500 esempi del nostro stile di documentazione interna. Il miglioramento è stato drammatico — il modello è passato da “assistente utile generico” a qualcosa che sembrava realmente scritto dal nostro team. Non puoi fare questo solo con un prompt.
Quando I Proprietari Vince Ancora
Non pretenderò che l’open-source abbia recuperato ovunque. Per il ragionamento complesso a più passaggi — quel tipo in cui hai bisogno che l’IA tenga a mente dieci vincoli mentre risolve un rompicapo — Claude e GPT-4o hanno ancora un vantaggio. Si sta riducendo, ma è lì.
Le capacità multimodali (visione + testo + audio) sono un altro divario. I modelli open-source stanno recuperando, ma le migliori esperienze multimodali sono ancora proprietarie.
E se non hai nessuno nel tuo team che possa gestire l’infrastruttura GPU, la semplicità di una chiamata API vale il premio.
Come Iniziare
Ollama è il primo posto dove mando tutti. Installa, esegui ollama run llama3.1, e stai chiacchierando con un modello da 8B in meno di un minuto. Nessuna configurazione GPU, nessun mal di testa con Docker. Funziona e basta.
vLLM è quello che uso in produzione. Il throughput è eccezionale — l’accodamento continuo significa che puoi servire centinaia di richieste contemporanee senza che i tempi di risposta vadano a rotoli.
Per gli utenti Apple Silicon, llama.cpp esegue i modelli sorprendentemente bene su Mac con chip M. Regolarmente eseguo modelli da 13B sul mio MacBook M2 per sviluppo. Non è veloce come una GPU adeguata, ma è completamente utilizzabile.
La Conclusione
Un anno fa, raccomandare modelli di IA open-source sembrava come raccomandare Linux sul desktop — tecnicamente corretto ma praticamente doloroso. Questo è cambiato. I modelli sono validi, gli strumenti sono maturi e l’economia è convincente.
Inizia con Ollama e Llama 3.1. Eseguilo per una settimana insieme alla tua attuale soluzione basata su API. Confronta i risultati. Penso che rimarrai sorpreso da quanto spesso non riesci a distinguere la differenza — e quanto denaro risparmierai quando farai il cambio.
🕒 Published: