Gasté $400 en llamadas a la API de OpenAI el mes pasado. Luego cambié tres de mis cargas de trabajo a Llama 3.1 corriendo en una instancia de GPU de $20/mes. La misma calidad, 95% de reducción de costos. Esa es la historia de la IA de código abierto en pocas palabras.
La brecha entre los modelos de IA de código abierto y los propietarios se ha reducido drásticamente. Para muchas tareas, los modelos de código abierto no son solo “suficientemente buenos” — son la opción más inteligente. Déjame guiarte a través de los que realmente valen tu tiempo.
Los Modelos que He Usado Realmente
Llama 3.1 de Meta es el que todos eligen primero, y con buena razón. La versión de 405B se enfrenta a GPT-4 en la mayoría de los puntos de referencia. La versión de 70B maneja el 90% de las tareas del mundo real. ¿Y la versión de 8B? Perfecta para prototipado cuando no quieres esperar.
Una cosa que me sorprendió: la ventana de contexto de 128K de Llama es verdaderamente utilizable, no solo un número de marketing. He alimentado con ella bases de código completas y he recibido análisis coherentes.
Mixtral de Mistral AI adopta un enfoque diferente. Su arquitectura de mezcla de expertos significa que obtienes rendimiento cercano a 70B a una fracción del costo computacional. Si estás corriendo inferencias en tu propio hardware y observando las facturas de electricidad, Mixtral es tu amigo. Además, es Apache 2.0 — haz lo que quieras con él.
DeepSeek V3 apareció de la nada y sorprendió a todos. Un laboratorio de investigación chino entrenó un modelo de calidad de frontera a una fracción de lo que gastaron Meta y Google. Las ganancias de eficiencia aquí no son incrementales — son arquitectónicas. DeepSeek demostró que no necesitas un presupuesto de entrenamiento de mil millones de dólares para competir.
Qwen 2.5 de Alibaba merece más atención de la que recibe en el mundo de habla inglesa. La versión de 72B es competitiva con cualquier cosa que haya, y el rendimiento en chino es inigualable. Si estás construyendo algo multilingüe, especialmente involucrando chino, Qwen debería estar en tu lista corta.
Gemma 2 de Google tiene un rendimiento mucho mayor de lo que su tamaño sugiere. La versión de 27B supera a modelos el doble de su tamaño en varios puntos de referencia. Google claramente vertió su experiencia en investigación para crear un modelo pequeño que no se siente pequeño.
Phi-3 de Microsoft es el modelo de “¿espera, de verdad?”. Con solo 3.8B parámetros, maneja tareas con las que modelos diez veces su tamaño luchan. Microsoft logró esto obsesionándose con la calidad de los datos de entrenamiento en lugar de simplemente escalar. Hay una lección ahí.
Por Qué Cambié (Y Quizás Quieras Hacerlo También)
Lo de los costos es real. Los costos de la API se acumulan rápidamente cuando procesas miles de documentos a diario. Después de cambiar a Llama autoalojado, mis costos de inferencia bajaron de “preocupantes” a “error de redondeo.” El trabajo inicial de configurar la infraestructura se pagó por sí mismo en dos semanas.
La privacidad deja de ser un dolor de cabeza. Trabajo con clientes en salud y legal. Explicar que sus documentos sensibles se envían a los servidores de OpenAI siempre era una conversación incómoda. Con los modelos autoalojados, esa conversación no sucede. Los datos permanecen en nuestra infraestructura. Fin.
Ya no hay cambios sorpresivos en la API. OpenAI deprecó un modelo en el que dependía con 30 días de aviso. Mi sistema de producción necesitó una reestructuración de emergencia. Con el código abierto, mi modelo funciona igual hoy que el año que viene. Yo controlo el cronograma.
El ajuste fino realmente funciona. Ajusté Llama con 500 ejemplos de nuestro estilo de documentación interno. La mejora fue dramática — el modelo pasó de “asistente útil genérico” a algo que genuinamente sonaba como si lo hubiera escrito nuestro equipo. No puedes hacer eso con un aviso.
Cuando el Propietario Aún Gana
No voy a pretender que el código abierto ha alcanzado a todos lados. Para el razonamiento complejo de múltiples pasos — el tipo en el que necesitas que la IA maneje diez restricciones en mente mientras resuelve un rompecabezas — Claude y GPT-4o aún tienen ventaja. Se está reduciendo, pero ahí está.
Las capacidades multimodales (visión + texto + audio) son otra brecha. Los modelos de código abierto están alcanzando, pero las mejores experiencias multimodales siguen siendo propietarias.
Y si no tienes a nadie en tu equipo que pueda gestionar infraestructura de GPU, la simplicidad de una llamada a la API vale la prima.
Cómo Empezar
Ollama es a donde envio a todos primero. Instálalo, ejecuta ollama run llama3.1, y estarás chateando con un modelo de 8B en menos de un minuto. Sin configuración de GPU, sin dolores de cabeza de Docker. Simplemente funciona.
vLLM es lo que uso en producción. El rendimiento es excepcional — el agrupamiento continuo significa que puedes atender cientos de solicitudes concurrentes sin que el tiempo de respuesta se desmorone.
Para usuarios de Apple Silicon, llama.cpp ejecuta modelos sorprendentemente bien en Macs de la serie M. Regularmente ejecutó modelos de 13B en mi MacBook M2 para desarrollo. No tan rápido como una GPU adecuada, pero completamente utilizable.
La Conclusión
Hace un año, recomendar modelos de IA de código abierto se sentía como recomendar Linux en el escritorio — técnicamente correcto, pero prácticamente doloroso. Eso ha cambiado. Los modelos son buenos, las herramientas están maduras, y la economía es convincente.
Comienza con Ollama y Llama 3.1. Ejecuta esto por una semana junto a tu solución actual basada en API. Compara las salidas. Creo que te sorprenderá cuán a menudo no puedes notar la diferencia — y cuánto dinero ahorrarás cuando cambies.
🕒 Published: