Eu gastei 400 $ em chamadas de API OpenAI no mês passado. Depois, transferi três das minhas cargas de trabalho para Llama 3.1 rodando em uma instância GPU a 20 $ por mês. Mesma qualidade, redução de custos de 95 %. Essa é a história da IA open source em resumo.
A diferença entre os modelos de IA open source e proprietários diminuiu consideravelmente. Para muitas tarefas, os modelos open source não são apenas “suficientes” — eles são a escolha mais inteligente. Deixe-me apresentar aqueles que realmente valem o seu tempo.
Os Modelos que Eu Realmente Usei
Llama 3.1 da Meta é o que todo mundo escolhe primeiro, e isso é compreensível. A versão 405B rivaliza com o GPT-4 na maioria dos benchmarks. A versão 70B lida com 90 % das tarefas do mundo real. E a versão 8B? Perfeita para prototipagem quando você não quer esperar.
Uma coisa que me surpreendeu: a janela pop-up de 128K do Llama é realmente utilizável, não apenas um número de marketing. Eu a alimentei com bases de código completas e recebi análises coerentes como retorno.
Mixtral da Mistral AI adota uma abordagem diferente. A arquitetura de mistura de especialistas significa que você obtém desempenho próximo ao 70B a uma fração do custo computacional. Se você faz inferências em seu próprio hardware e monitora suas contas de energia, Mixtral é seu amigo. Além disso, é sob a licença Apache 2.0 — faça o que quiser com isso.
DeepSeek V3 surgiu do nada e surpreendeu a todos. Um laboratório de pesquisa chinês treinou um modelo de qualidade de ponta por uma fração do que Meta e Google gastaram. Os ganhos de eficiência aqui não são marginais — eles são arquiteturais. DeepSeek provou que não é necessário ter um orçamento de treinamento de um bilhão de dólares para competir.
Qwen 2.5 da Alibaba merece mais atenção do que a que recebe no mundo anglófono. A versão 72B é competitiva com tudo que existe, e o desempenho em língua chinesa é inigualável. Se você está construindo qualquer coisa multilíngue, especialmente envolvendo o chinês, Qwen deve figurar na sua lista restrita.
Gemma 2 do Google supera em muito sua categoria de peso. A versão 27B supera modelos duas vezes maiores em vários benchmarks. O Google claramente aplicou sua expertise em pesquisa para criar um pequeno modelo que não parece pequeno.
Phi-3 da Microsoft é o modelo do “espere, sério?”. Com apenas 3,8B de parâmetros, ele lida com tarefas que modelos dez vezes maiores lutam para realizar. A Microsoft conseguiu isso focando na qualidade dos dados de treinamento em vez de simplesmente aumentar a potência. Há uma lição nisso.
Por Que Eu Mudei (E Você Pode Querer Fazer o Mesmo)
A questão do dinheiro é real. Os custos da API se acumulam rapidamente quando você lida com milhares de documentos diariamente. Depois de mudar para Llama auto-hospedado, meus custos de inferência caíram de “preocupantes” para “erro de arredondamento.” O trabalho inicial de configuração da infraestrutura foi amortizado em duas semanas.
A privacidade deixa de ser uma dor de cabeça. Eu trabalho com clientes nos setores de saúde e jurídico. Explicar que seus documentos sensíveis eram enviados para os servidores da OpenAI sempre foi uma conversa delicada. Com modelos auto-hospedados, essa conversa não acontece. Os dados permanecem em nossa infraestrutura. Fim da história.
Mais mudanças surpresa na API. A OpenAI descontinuou um modelo do qual eu dependia com 30 dias de aviso. Meu sistema de produção precisava de uma reformulação urgente. Com o open source, meu modelo funciona hoje da mesma maneira que no ano que vem. Eu controlo o cronograma.
O fine-tuning realmente funciona. Eu refinei o Llama em 500 exemplos do nosso estilo de documentação interna. A melhoria foi espetacular — o modelo passou de “assistente útil genérico” para algo que realmente parecia escrito por nossa equipe. Você não pode fazer isso com um simples prompt.
Quando o Proprietário Ganha Ainda
Não vou afirmar que o open source alcançou em todos os lugares. Para raciocínios complexos por etapas — aqueles em que você precisa que a IA mantenha dez restrições em mente enquanto resolve um quebra-cabeça — Claude e GPT-4o ainda têm uma vantagem. Essa diferença está diminuindo, mas ainda está presente.
As capacidades multimodais (visão + texto + áudio) constituem outra diferença. Os modelos open source estão alcançando seu atraso, mas as melhores experiências multimodais ainda são proprietárias.
E se você não tem ninguém em sua equipe capaz de gerenciar a infraestrutura GPU, a simplicidade de uma chamada API vale a pena o custo extra.
Como Começar
Ollama é o lugar para onde eu envio todo mundo primeiro. Instale, execute ollama run llama3.1, e você conversa com um modelo 8B em menos de um minuto. Sem configuração de GPU, sem complicações com Docker. Funciona simplesmente.
vLLM é o que eu uso em produção. O desempenho é excepcional — o processamento contínuo significa que você pode lidar com centenas de requisições simultâneas sem que o tempo de resposta desmorone.
Para os usuários de Apple Silicon, llama.cpp executa os modelos de maneira surpreendente nos Macs M-series. Eu costumo rodar modelos 13B no meu MacBook M2 para desenvolvimento. Não é tão rápido quanto uma GPU de verdade, mas totalmente utilizável.
Conclusão
Há um ano, recomendar modelos de IA open source parecia recomendar Linux no desktop — tecnicamente correto, mas praticamente doloroso. Isso mudou. Os modelos são bons, as ferramentas estão maduras, e a economia é convincente.
Comece com Ollama e Llama 3.1. Execute-o por uma semana ao lado da sua solução atual baseada em API. Compare as saídas. Eu acho que você ficará surpreso ao perceber quantas vezes não consegue notar a diferença — e quanto dinheiro você economizará ao mudar.
🕒 Published: