Ich habe letzten Monat 400 $ für OpenAI API-Aufrufe ausgegeben. Danach habe ich drei meiner Arbeitslasten auf Llama 3.1 umgestellt, das auf einer GPU-Instanz für 20 $ pro Monat läuft. Gleiche Qualität, 95 % Kostensenkung. Das ist die Geschichte der Open-Source-KI zusammengefasst.
Die Kluft zwischen Open-Source- und proprietären KI-Modellen hat sich erheblich verringert. Für viele Aufgaben sind Open-Source-Modelle nicht nur “ausreichend” — sie sind die klügste Wahl. Lassen Sie mich Ihnen die Modelle vorstellen, die wirklich Ihre Zeit wert sind.
Die Modelle, die Ich Tatsächlich Genutzt Habe
Llama 3.1 von Meta ist das Modell, das jeder zuerst wählt, und das ist verständlich. Die 405B-Version konkurriert in den meisten Benchmarks mit GPT-4. Die 70B-Version bewältigt 90 % der realen Aufgaben. Und die 8B-Version? Perfekt für Prototyping, wenn Sie nicht warten möchten.
Eine Sache, die mich überrascht hat: Das 128K-Popup von Llama ist tatsächlich nutzbar, kein bloßer Marketingwert. Ich habe es mit kompletten Codebasen gefüttert und erhielt konsistente Analysen zurück.
Mixtral von Mistral AI verfolgt einen anderen Ansatz. Ihre Mischexpertenarchitektur bedeutet, dass Sie Leistungen erreichen, die nahe bei 70B liegen, zu einem Bruchteil der Rechenkosten. Wenn Sie Inferenz auf eigener Hardware durchführen und Ihre Stromrechnungen im Blick haben, ist Mixtral Ihr Freund. Außerdem ist es unter Apache 2.0 — machen Sie damit, was Sie wollen.
DeepSeek V3 ist aus dem Nichts erschienen und hat alle überrascht. Ein chinesisches Forschungsinstitut hat ein Spitzenmodell zu einem Bruchteil der Kosten trainiert, die Meta und Google ausgegeben haben. Die Effizienzgewinne hier sind nicht marginal — sie sind architektonisch. DeepSeek hat bewiesen, dass es nicht notwendig ist, ein Trainingsbudget von einer Milliarde Dollar zu haben, um konkurrieren zu können.
Qwen 2.5 von Alibaba verdient mehr Aufmerksamkeit, als ihm im englischsprachigen Raum zuteilwird. Die 72B-Version ist wettbewerbsfähig mit allem, was es gibt, und die Leistung in der chinesischen Sprache ist unerreicht. Wenn Sie irgendetwas Mehrsprachiges entwickeln, insbesondere mit Chinesisch, sollte Qwen auf Ihrer Shortlist stehen.
Gemma 2 von Google übertrifft bei weitem ihre Gewichtsklasse. Die 27B-Version übertrifft Modelle, die doppelt so groß sind, in mehreren Benchmarks. Google hat offensichtlich sein Forschungsexpertise genutzt, um ein kleines Modell zu erstellen, das nicht klein ausgelegt ist.
Phi-3 von Microsoft ist das Modell des “Warte, wirklich?”. Mit nur 3,8B Parametern bewältigt es Aufgaben, die Modelle zehnmal so groß schwerfallen. Microsoft hat dies erreicht, indem es sich auf die Qualität der Trainingsdaten konzentriert hat, anstatt einfach die Leistung zu steigern. Da steckt eine Lektion drin.
Warum Ich Gewechselt Habe (Und Sie Vielleicht Auch)
Das Geldproblem ist echt. Die API-Kosten summieren sich schnell, wenn Sie täglich mit Tausenden von Dokumenten arbeiten. Nachdem ich auf selbstgehostetes Llama umgestiegen bin, sind meine Inferenzkosten von “besorgniserregend” auf “geringer Rundungsfehler” gefallen. Die anfängliche Arbeit zur Einrichtung der Infrastruktur hat sich innerhalb von zwei Wochen amortisiert.
Die Privatsphäre ist kein Kopfschmerz mehr. Ich arbeite mit Kunden im Gesundheits- und Rechtsbereich. Es war immer ein heikles Gespräch zu erklären, dass ihre sensiblen Dokumente an die Server von OpenAI gesendet werden. Mit selbstgehosteten Modellen findet dieses Gespräch nicht mehr statt. Die Daten bleiben auf unserer Infrastruktur. Ende der Geschichte.
Keine überraschenden API-Änderungen mehr. OpenAI hat ein Modell, von dem ich abhängig war, mit 30 Tagen Vorankündigung abgelehnt. Mein Produktionssystem musste dringend umgebaut werden. Mit Open Source funktioniert mein Modell heute genauso wie im nächsten Jahr. Ich kontrolliere den Zeitplan.
Das Fine-Tuning funktioniert tatsächlich. Ich habe Llama auf 500 Beispielen unseres internen Dokumentationsstils feinabgestimmt. Die Verbesserung war spektakulär — das Modell hat sich von “allgemeinem nützlichem Assistenten” zu etwas entwickelt, das wirklich so aussieht, als wäre es von unserem Team geschrieben. Das kann man nicht einfach mit einem Prompt machen.
Wann der Eigentümer Immer Noch Gewinnt
Ich werde nicht behaupten, dass Open Source überall aufgeholt hat. Bei komplexem schrittweise detailliertem Denken — wo Sie brauchen, dass die KI zehn Einschränkungen im Kopf behält, während sie ein Puzzle löst — haben Claude und GPT-4o immer noch einen Vorteil. Diese Kluft verringert sich, aber sie ist immer noch vorhanden.
Die multimodalen Fähigkeiten (Vision + Text + Audio) stellen eine weitere Kluft dar. Die Open-Source-Modelle holen auf, aber die besten multimodalen Erfahrungen bleiben proprietär.
Und wenn Sie niemanden in Ihrem Team haben, der die GPU-Infrastruktur verwalten kann, ist die Einfachheit eines API-Aufrufs den Aufpreis wert.
Wie Man Anfängt
Ollama ist der Ort, zu dem ich alle zuerst schicke. Installieren Sie es, führen Sie ollama run llama3.1 aus, und Sie diskutieren innerhalb von weniger als einer Minute mit einem 8B-Modell. Keine GPU-Konfiguration, kein Docker-Stress. Es funktioniert einfach.
vLLM ist das, was ich in der Produktion benutze. Der Durchsatz ist außergewöhnlich — der kontinuierliche Betrieb bedeutet, dass Sie Hunderte von gleichzeitigen Anfragen bearbeiten können, ohne dass die Antwortzeiten zusammenbrechen.
Für Apple Silicon-Benutzer führt llama.cpp die Modelle überraschend gut auf den Macs der M-Serie aus. Ich führe regelmäßig 13B-Modelle auf meinem MacBook M2 für die Entwicklung aus. Nicht so schnell wie eine echte GPU, aber voll einsatzfähig.
Fazit
Vor einem Jahr glich es einer Empfehlung von Linux auf dem Desktop, Open-Source-KI-Modelle zu empfehlen — technisch korrekt, aber praktisch schmerzhaft. Das hat sich geändert. Die Modelle sind gut, die Werkzeuge sind ausgereift, und die Wirtschaftlichkeit ist überzeugend.
Fangen Sie mit Ollama und Llama 3.1 an. Führen Sie es eine Woche lang neben Ihrer aktuellen API-basierten Lösung aus. Vergleichen Sie die Ausgaben. Ich denke, Sie werden überrascht sein, wie oft Sie den Unterschied nicht feststellen können — und wie viel Geld Sie durch den Wechsel sparen werden.
🕒 Published: