Mein kleines Unternehmen lokalisierte LLMs mit RAG

🌐🇮🇹 Italiano 🇧🇷 Português 🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 11 min read•2,169 words•Updated Mar 27, 2026

Hallo zusammen, hier ist Nina von agntbox.com, und ich habe heute ein spannendes Thema für euch! Wir tauchen tief in ein Thema ein, das in meinen Slack-Kanälen und Twitter-Feeds wie verrückt diskutiert wird: Die Lokalisierung großer Sprachmodelle für kleinere Unternehmen.

Insbesondere werden wir über ein Framework sprechen, das diesen gesamten Prozess viel weniger einschüchternd macht: Retrieval Augmented Generation (RAG) mit einem Fokus auf praktische, kleine Implementierungen.

Jetzt weiß ich, was einige von euch denken: „Nina, RAG? Das ist alte Nachricht!“ Und in gewisser Weise hättet ihr recht. Das Konzept existiert schon eine Weile. Aber was *neu* ist, und was ich heute herausstellen möchte, ist, wie zugänglich und wirklich nützlich es für Unternehmen wird, die nicht Google oder Meta sind. Wir reden hier über Firmen, die ein LLM dazu bringen müssen, ihre Sprache zu sprechen, ihre internen Dokumente zu verstehen und ihre spezifische Kundenbasis zu bedienen, ohne das Budget zu sprengen oder ein Team von 20 KI-Forschern zu benötigen.

Mein Posteingang wurde von Fragen überschwemmt von Leuten, die mit handelsüblichen LLMs experimentiert haben, nur um festzustellen, dass diese Unternehmensrichtlinien halluzinieren, Produktnuancen missverstehen oder einfach… generisch klingen. Und genau da kommt RAG, smart implementiert, ins Spiel. Es geht nicht darum, ein völlig neues Modell zu trainieren – Gott sei Dank! – sondern darum, einem bestehenden, leistungsstarken Modell den richtigen Kontext zur richtigen Zeit zu geben. Denkt daran, eurem KI eine superkraftfähige Eselsbrücke zu geben, die speziell auf euer Unternehmen zugeschnitten ist.

Ich habe kürzlich mit einem kleinen E-Commerce-Startup, „Crafty Kits“, gearbeitet, das Aboboxen für handwerkliche Bastelmaterialien verkauft. Sie hatten einen anständigen Kundenservice-Chatbot, der auf einem beliebten LLM basierte, aber er machte immer wieder einfache Fehler. Fragen zu spezifischen Inhalten des Kits, Rückgabebedingungen für handgefertigte Artikel oder sogar einfach nur der genaue Farbton des Garns in der „Spring Meadow“-Box wurden oft mit vagen Antworten oder, schlimmer noch, völlig falschen Informationen beantwortet. Ihre Kunden waren verständlicherweise frustriert. Genau das ist das Problem, für das RAG entwickelt wurde, und ich möchte euch zeigen, wie wir es angegangen sind.

Der RAG-Vorteil für kleine Unternehmen: Warum es jetzt wichtig ist

Eine lange Zeit war die Eintrittsbarriere für wirklich maßgeschneiderte KI-Erlebnisse ziemlich hoch. Das Finetuning von Modellen erforderte erhebliche Daten, Rechenleistung und Fachwissen. Aber RAG ändert die Gleichung. Hier ist, warum es besonders spannend für kleinere Akteure im Jahr 2026 ist:

Kosteneffizienz: Ihr müsst kein massives Modell finetunen. Ihr bezahlt hauptsächlich für die Generierung von Einbettungen und API-Aufrufe zu einem Basis-Modell. Das ist ein riesiger Vorteil für die Budgets.
Weniger Halluzinationen: Das war der größte Schmerzpunkt für Crafty Kits. Indem man die Antworten des LLM in den eigenen verifizierten Daten verankert, reduziert man massiv die Wahrscheinlichkeit, dass das Modell Dinge erfindet.
Aktuelle Informationen: Euer Wissensbestand kann unabhängig vom LLM aktualisiert werden. Neue Produktlinie? Aktualisierte Rückgaberechts? Fügt sie einfach zu euren Dokumenten hinzu, bettet sie neu ein, und eure KI ist sofort smarter.
Datenschutz: Eure proprietären Informationen bleiben unter eurer Kontrolle, oft innerhalb eurer eigenen Datenbank oder lokalen Speicherung, anstatt verwendet zu werden, um ein öffentliches Modell zu trainieren.
Schnellere Iteration: Die Änderung, wie eure KI antwortet, ist oft so einfach wie das Verfeinern eurer Quelldokumente oder das Verbessern eures Abrufmechanismus, nicht das vollständige Neutraining eines Modells.

Bevor wir in die Details eintauchen, lassen Sie uns schnell zusammenfassen, was RAG ist. Im Kern funktioniert RAG folgendermaßen:

Es nimmt die Anfrage eines Nutzers.
Es durchsucht eine Wissensbasis (eure internen Dokumente, FAQs, Produktkataloge usw.) nach relevanten Informationen.
Es füttert sowohl die ursprüngliche Anfrage als auch die abgerufenen Informationen in ein großes Sprachmodell.
Das LLM nutzt diesen kombinierten Kontext, um eine viel informiertere und genauere Antwort zu generieren.

Es ist, als würde man seinem unglaublich schlauen, aber manchmal vergesslichen Freund einen schnellen Blick auf die genaue Seite im Handbuch geben, bevor er eine Frage beantwortet.

Aufbau eines kleinen RAG-Systems: Die Reise von Crafty Kits

Als Crafty Kits zu mir kam, war ihr aktueller Chatbot, sagen wir mal, ein wenig zu kreativ. Wir mussten ihn bändigen und zu einer tatsächlichen Informationsquelle für ihre Kunden machen. Hier ist der vereinfachte Plan, wie wir es gemacht haben, und dabei die Open-Source-Tools und zugänglichen Cloud-Dienste in den Fokus gerückt haben.

Schritt 1: Die Wissensbasis – Wo lebt eure Wahrheit?

Der erste und wahrscheinlich entscheidendste Schritt besteht darin, eure Daten zu sammeln. Für Crafty Kits bedeutete das:

Ihr gründliches FAQ-Dokument (PDF und Google-Dokument).
Detaillierte Produktbeschreibungen für jedes Kit (CSV-Exporte von ihrer E-Commerce-Plattform).
Ihre internen Richtliniendokumente (Rückgaben, Versand, Datenschutz – größtenteils Word-Dokumente).
Einige Blogbeiträge, die gängige Basteltechniken beschreiben, die für ihre Kits relevant sind.

Ninas Tipp: Schmeißt nicht einfach alles hinein. Kuratiert! Redundanz ist in Ordnung, aber widersprüchliche Informationen verwirren euer RAG genauso sehr wie einen Menschen. Bereinigt eure Daten zuerst.

Schritt 2: Chunking und Einbettung – Eure Daten durchsuchbar machen

LLMs haben Grenzen des Kontextfensters. Ihr könnt nicht jedes Mal ein ganzes 50-seitiges Richtliniendokument füttern. Daher zerlegen wir unsere Dokumente in kleinere, handhabbare „Chunks“. Anschließend wandeln wir diese Chunks in numerische Darstellungen um, die „Embeddings“ genannt werden. Diese Einbettungen ermöglichen es uns, später schnell relevante Informationen zu finden.

Für Crafty Kits verwendeten wir Python mit ein paar Bibliotheken:

langchain für das Laden und Chunking von Dokumenten (es macht dies erstaunlich einfach).
sentence-transformers zur Generierung von Einbettungen lokal. Wir begannen mit einem kleineren, leistungsfähigen Modell wie all-MiniLM-L6-v2, um die Kosten niedrig zu halten und lokale Experimente zu ermöglichen, bevor wir aufstocken.


from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader, PyPDFLoader
from sentence_transformers import SentenceTransformer

# Ein Beispiel-Dokument laden
loader = TextLoader("crafty_kits_faq.txt")
documents = loader.load()

# In Chunks aufteilen
text_splitter = RecursiveCharacterTextSplitter(
 chunk_size=500,
 chunk_overlap=50,
 length_function=len,
 is_separator_regex=False,
)
chunks = text_splitter.split_documents(documents)

# Einbettungsmodell initialisieren (lokal)
model = SentenceTransformer('all-MiniLM-L6-v2')

# Einbettungen für jeden Chunk generieren
chunk_texts = [chunk.page_content for chunk in chunks]
embeddings = model.encode(chunk_texts)

print(f"Generierte {len(embeddings)} Einbettungen.")

Schritt 3: Der Vektorstore – Die Karteikartenbox eurer KI

Sobald wir Einbettungen haben, brauchen wir einen Ort, um sie zu speichern, damit wir effizient danach suchen können. Hier kommt ein Vektorstore ins Spiel. Denkt daran als ein super-effizientes Verzeichnis für eure Einbettungen. Für Crafty Kits entschieden wir uns zunächst für eine lokale Instanz von FAISS (Facebook AI Similarity Search), da es großartig ist, um ohne einen dedizierten Datenbankserver zu starten. Für eine etwas skalierbarere, aber dennoch einfach zu verwaltende Option wäre etwas wie ChromaDB oder sogar ein gehosteter Dienst wie Pinecone oder Weaviate ein guter nächster Schritt.


from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings # Für Langchain-Integration

# Einbettungen für Langchain FAISS erneut initialisieren
embeddings_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

# Den FAISS-Vektorstore erstellen
vectorstore = FAISS.from_documents(chunks, embeddings_model)

# Den Vektorstore speichern (wichtig!)
vectorstore.save_local("faiss_crafty_kits_index")

print("FAISS-Index erstellt und gespeichert.")

Dieser Index hält jetzt die numerische Darstellung sämtlicher Kenntnisse von Crafty Kits. Wenn ein Kunde eine Frage stellt, wandeln wir seine Frage in eine Einbettung um und finden dann schnell die ähnlichsten Einbettungen (und somit die relevantesten Chunks) in unserem FAISS-Index.

Schritt 4: Die Abruf- & Generierungsschleife – Alles zusammenbringen

Hier passiert die Magie. Wenn ein Nutzer eine Frage stellt:

Wir betten seine Anfrage mit dem *gleichen* Einbettungsmodell ein, das wir für unsere Wissensbasis verwendet haben.
Wir befragen unseren Vektorstore, um die Top N ähnlichsten Chunks von Informationen zu finden.
Dann erstellen wir einen Prompt für unser LLM, indem wir die ursprüngliche Anfrage des Nutzers mit diesen abgerufenen Chunks kombinieren.
Das LLM generiert eine Antwort, die im bereitgestellten Kontext verankert ist.

Für das LLM begann Crafty Kits mit der API von OpenAI’s GPT-3.5-turbo, da sie ein gutes Gleichgewicht zwischen Leistung und Kosten bot. Das Schöne an RAG ist jedoch, dass ihr das LLM gegen fast jedes andere Modell (z. B. Claude von Anthropic oder sogar ein selbst gehostetes Open-Source-Modell wie Llama 2, wenn ihr die Infrastruktur habt) austauschen könnt, ohne eure gesamte Wissensbasis neu zu machen.


from langchain_community.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
import os

# Setze deinen OpenAI API-Schlüssel
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" 

# Lade den gespeicherten FAISS-Index
embeddings_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
vectorstore = FAISS.load_local("faiss_crafty_kits_index", embeddings_model, allow_dangerous_deserialization=True) # allow_dangerous_deserialization ist notwendig, um von der Festplatte zu laden

# Initialisiere das LLM
llm = OpenAI(temperature=0.1) # Niedrigere Temperatur für genauere Antworten

# Erstelle die RAG-Kette
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever())

# Teste es aus!
query = "Was ist die Rückgabepolitik für ein beschädigtes 'Enchanted Forest'-Kit?"
response = qa_chain.invoke({"query": query})
print(response["result"])

query_2 = "Kann ich Acrylfarbe auf der Leinwand im 'Starry Night Stitch'-Kit verwenden?"
response_2 = qa_chain.invoke({"query": query_2})
print(response_2["result"])

Die Ergebnisse waren sofort und beeindruckend. Der Chatbot begann, präzise Antworten zu Rückgabezeiten, spezifischen Materialien in den Kits und sogar nuancierten Ratschlägen basierend auf ihren Blogbeiträgen zu geben. Halluzinationen sanken. Die Kunden waren zufriedener, und das Support-Team benötigte weniger Zeit, um die Fehler des Bots zu korrigieren.

Über die Grundlagen hinaus: Verfeinere dein RAG für bessere Ergebnisse

Während die grundlegende Einrichtung eine massive Verbesserung bietet, gibt es immer Möglichkeiten, dein RAG-System zu verfeinern:

H3: Experimentiere mit Chunking-Strategien

Die Größe und Überlappung deiner Text-Chunks kann die Qualität der Suche erheblich beeinflussen. Zu klein, und der Kontext könnte verloren gehen. Zu groß, und du könntest den Kontext überschreiten oder die Relevanz verwässern. Experimentiere mit verschiedenen chunk_size und chunk_overlap Werten. Für Crafty Kits haben wir festgestellt, dass Produktbeschreibungen von kleineren Chunks profitierten, während Richtliniendokumente mit etwas größeren besser funktionierten.

H3: Verbessere dein Embedding-Modell

Während all-MiniLM-L6-v2 ein großartiger Ausgangspunkt ist, solltest du leistungsstärkere (aber potenziell ressourcenintensivere) Modelle in Betracht ziehen, wenn deine Bedürfnisse wachsen, oder sogar domänenspezifische Embedding-Modelle, wenn deine Terminologie sehr nischenspezifisch ist. Hugging Face ist hier eine Schatztruhe.

H3: Hybride Suche

Manchmal reicht eine einfache semantische Ähnlichkeit nicht aus. Die Kombination von Vektorsuche mit traditioneller Schlüsselwortsuche (wie BM25) kann die Suche verbessern, insbesondere für Anfragen, die sehr spezifische Schlüsselwörter oder Produktcodes enthalten. Bibliotheken wie Langchain können dir helfen, hybride Suchstrategien zu integrieren.

H3: Nachträgliches Reranking

Selbst nach der Abfrage der obersten N Chunks sind nicht alle gleich relevant. Ein „Reranking“-Schritt, bei dem ein kleineres, fokussiertes Modell die abgerufenen Chunks bewertet und sie nach Relevanz zur Anfrage neu anordnet, kann die Genauigkeit erheblich steigern. Dies ist eine gängige fortgeschrittene RAG-Technik.

H3: Feedback-Schleifen und Monitoring

Kein KI-System ist „einrichten und vergessen.“ Implementiere eine Möglichkeit, Nutzerfeedback zu den Antworten des Bots zu sammeln (z. B. ein einfaches „War das hilfreich? Ja/Nein“). Überwache Anfragen, die konsistent zu schlechten Antworten führen. Dieses Feedback ist Gold wert, um deine Wissensbasis zu verbessern oder deinen Abrufprozess zu verfeinern.

Umsetzbare Erkenntnisse für dein Unternehmen

Also, du bist ein kleines Unternehmen und möchtest deine KI intelligenter und spezifischer machen? Hier ist dein Fahrplan:

Prüfe deine Daten: Welche internen Dokumente, FAQs, Produktspezifikationen und Kundeninteraktionen kannst du nutzen? Säubere sie! Das ist die Grundlage.
Fange klein an, iteriere schnell: Versuche nicht, ein monolithisches System zu bauen. Wähle einen klaren Anwendungsfall (wie einen Kundenservice-Bot für spezifische Anfragen) und baue ein RAG-System dafür.
Nutze Open Source: Tools wie Langchain, Sentence Transformers und FAISS machen RAG unglaublich zugänglich, ohne große Vorabkosten.
Priorisiere Genauigkeit über Kreativität: Für geschäftliche Anwendungen, insbesondere solche, die sich an Kunden richten, ist faktische Genauigkeit normalerweise von größter Bedeutung. Senke die Temperatur deines LLM.
Plane für Wartung: Dein RAG-System ist nur so gut wie deine Wissensbasis. Etabliere einen Prozess für die regelmäßige Aktualisierung deiner Quelldokumente und deren erneute Einbettung.

Die Reise mit Crafty Kits hat mir gezeigt, dass lokalisierten LLMs nicht mehr nur den Technikgiganten vorbehalten sind. Mit einem praktischen RAG-Rahmen kann sogar ein kleines Team eine KI aufbauen, die die Sprache ihres Unternehmens wirklich versteht und spricht. Es geht darum, intelligenter zu arbeiten, nicht härter, und deinen Kunden die präzisen, kontextreichen Informationen zu geben, die sie verdienen.

Ich hoffe, diese tiefgehende Erkundung von RAG hat einige Ideen für deine eigenen Projekte inspiriert. Lass mich in den Kommentaren wissen, ob du RAG ausprobierst oder ob du coole Tipps und Tricks hast, die du entdeckt hast!

Mein kleines Unternehmen lokalisierte LLMs mit RAG

Der RAG-Vorteil für kleine Unternehmen: Warum es jetzt wichtig ist

Aufbau eines kleinen RAG-Systems: Die Reise von Crafty Kits

Schritt 1: Die Wissensbasis – Wo lebt eure Wahrheit?

Schritt 2: Chunking und Einbettung – Eure Daten durchsuchbar machen

Schritt 3: Der Vektorstore – Die Karteikartenbox eurer KI

Schritt 4: Die Abruf- & Generierungsschleife – Alles zusammenbringen

Über die Grundlagen hinaus: Verfeinere dein RAG für bessere Ergebnisse

H3: Experimentiere mit Chunking-Strategien

H3: Verbessere dein Embedding-Modell

H3: Hybride Suche

H3: Nachträgliches Reranking

H3: Feedback-Schleifen und Monitoring

Umsetzbare Erkenntnisse für dein Unternehmen

Verwandte Artikel

Related Articles

Der RAG-Vorteil für kleine Unternehmen: Warum es jetzt wichtig ist

Aufbau eines kleinen RAG-Systems: Die Reise von Crafty Kits

Schritt 1: Die Wissensbasis – Wo lebt eure Wahrheit?

Schritt 2: Chunking und Einbettung – Eure Daten durchsuchbar machen

Schritt 3: Der Vektorstore – Die Karteikartenbox eurer KI

Schritt 4: Die Abruf- & Generierungsschleife – Alles zusammenbringen

Über die Grundlagen hinaus: Verfeinere dein RAG für bessere Ergebnisse

H3: Experimentiere mit Chunking-Strategien

H3: Verbessere dein Embedding-Modell

H3: Hybride Suche

H3: Nachträgliches Reranking

H3: Feedback-Schleifen und Monitoring

Umsetzbare Erkenntnisse für dein Unternehmen

Verwandte Artikel

You May Also Like

📚 You Might Also Like

Related Articles