Eu gastei $400 em chamadas de API da OpenAI no mês passado. Depois eu mudei três dos meus workloads para o Llama 3.1 rodando em uma instância de GPU de $20/mês. Mesma qualidade, 95% de redução de custo. Essa é a história da IA de código aberto em poucas palavras.
A diferença entre modelos de IA de código aberto e proprietários diminuiu drasticamente. Para muitas tarefas, os modelos de código aberto não são apenas “bons o suficiente” — eles são a escolha mais inteligente. Deixe-me te mostrar quais realmente valem seu tempo.
Os Modelos que Eu Realmente Usei
Llama 3.1 da Meta é o que todo mundo busca primeiro, e por uma boa razão. A versão 405B compete com o GPT-4 na maioria dos benchmarks. A versão 70B lida com 90% das tarefas do mundo real. E a versão 8B? Perfeita para prototipagem quando você não quer esperar.
Uma coisa que me surpreendeu: a janela de contexto de 128K do Llama é genuinamente utilizável, não apenas um número de marketing. Eu o alimentei com bases de código inteiras e recebi uma análise coerente de volta.
Mixtral da Mistral AI adota uma abordagem diferente. A arquitetura de mistura de especialistas significa que você obtém desempenho próximo a 70B por uma fração do custo computacional. Se você está rodando inferência em seu próprio hardware e acompanhando contas de eletricidade, Mixtral é seu amigo. Além disso, é Apache 2.0 — faça o que quiser com isso.
DeepSeek V3 apareceu do nada e surpreendeu a todos. Um laboratório de pesquisa chinês treinou um modelo de qualidade de fronteira por uma fração do que a Meta e o Google gastaram. Os ganhos de eficiência aqui não são incrementais — são arquiteturais. O DeepSeek provou que você não precisa de um orçamento de treinamento de bilhões de dólares para competir.
Qwen 2.5 da Alibaba merece mais atenção do que recebe no mundo de língua inglesa. A versão 72B é competitiva com qualquer coisa por aí, e o desempenho em chinês é incomparável. Se você está construindo algo multilíngue, especialmente envolvendo chinês, o Qwen deve estar na sua lista de prioridades.
Gemma 2 do Google se destaca muito além da sua categoria. A versão 27B supera modelos do dobro do seu tamanho em vários benchmarks. O Google claramente investiu sua expertise em pesquisa para criar um modelo pequeno que não parece pequeno.
Phi-3 da Microsoft é o modelo de “espera, sério?”. Com apenas 3.8B de parâmetros, ele lida com tarefas que modelos 10 vezes maiores têm dificuldades. A Microsoft conseguiu isso ao se preocupar com a qualidade dos dados de treinamento em vez de apenas aumentar a escala. Há uma lição aí.
Por que Eu Mudei (E Você Pode Querer Fazer o Mesmo)
A questão do dinheiro é real. Os custos de API somam rapidamente quando você está processando milhares de documentos diariamente. Depois de mudar para o Llama auto-hospedado, meus custos de inferência caíram de “preocupantes” para “erro de arredondamento.” O trabalho inicial de configurar a infraestrutura se pagou em duas semanas.
A privacidade deixa de ser uma dor de cabeça. Eu trabalho com clientes nas áreas de saúde e jurídica. Explicar que os documentos sensíveis deles são enviados para os servidores da OpenAI sempre foi uma conversa desconfortável. Com modelos auto-hospedados, essa conversa não acontece. Os dados permanecem em nossa infraestrutura. Feito.
Sem mais mudanças surpresas na API. A OpenAI descontinuou um modelo do qual eu dependia com 30 dias de antecedência. Meu sistema de produção precisou de refatoração de emergência. Com código aberto, meu modelo funciona da mesma forma hoje que funcionará no próximo ano. Eu controlo o cronograma.
Ajustes finos realmente funcionam. Eu fiz ajustes finos no Llama com 500 exemplos do nosso estilo de documentação interna. A melhoria foi dramática — o modelo passou de “assistente genérico útil” para algo que genuinamente soava como se nossa equipe tivesse escrito. Você não consegue fazer isso com um prompt.
Quando o Proprietário Ainda Vence
Não vou fingir que o código aberto alcançou todos os lugares. Para raciocínios complexos de múltiplas etapas — aquele tipo em que você precisa que a IA mantenha dez restrições em mente enquanto resolve um quebra-cabeça — Claude e GPT-4 ainda têm vantagem. Está diminuindo, mas ainda existe.
Capacidades multimodais (visão + texto + áudio) são outro gap. Modelos de código aberto estão alcançando, mas as melhores experiências multimodais ainda são proprietárias.
E se você não tem ninguém na sua equipe que consiga gerenciar a infraestrutura de GPU, a simplicidade de uma chamada de API vale o prêmio.
Como Começar
Ollama é onde eu envio todo mundo primeiro. Instale, execute ollama run llama3.1, e você estará conversando com um modelo de 8B em menos de um minuto. Sem configuração de GPU, sem dores de cabeça com Docker. Funciona simplesmente.
vLLM é o que eu uso em produção. O throughput é excepcional — o agrupamento contínuo significa que você pode atender centenas de solicitações simultâneas sem que o tempo de resposta desmorone.
Para usuários de Apple Silicon, llama.cpp roda modelos surpreendentemente bem em Macs da linha M. Eu costumo rodar modelos de 13B no meu MacBook M2 para desenvolvimento. Não tão rápido quanto uma GPU adequada, mas completamente utilizável.
A Conclusão
Um ano atrás, recomendar modelos de IA de código aberto parecia recomendar Linux na área de trabalho — tecnicamente correto, mas praticamente doloroso. Isso mudou. Os modelos são bons, as ferramentas estão maduras e a economia é convincente.
Comece com Ollama e Llama 3.1. Execute por uma semana ao lado da sua solução baseada em API atual. Compare as saídas. Eu acho que você ficará surpreso com quão frequentemente você não consegue perceber a diferença — e quanto dinheiro você economizará quando mudar.
🕒 Published: