Agenten der KI-Nutzung in der Informatik: Die Zukunft der Automatisierung

🌐🇮🇹 Italiano 🇧🇷 Português 🇩🇪 Deutsch 🇫🇷 Français

📖 6 min read•1,058 words•Updated Mar 30, 2026

Ich habe Claude letzten Monat dabei zugesehen, wie er einen Flug für mich gebucht hat. Nicht über eine API-Integration — sondern über einen Browser. Er öffnete Google Flights, gab meine Abflugstadt und mein Ziel ein, wählte Daten aus, scrollte durch die Ergebnisse, verglich die Preise und war kurz davor, auf „Buchen“ zu klicken, als er an hielt und mich um Bestätigung bat. Der gesamte Prozess dauerte etwa vier Minuten.

Es fühlte sich an, als würde ich jemanden dabei beobachten, wie er meinen Computer aus der Ferne steuert. Denn genau das geschah.

Die Computer-Nutzungsagenten — Systeme mit KI, die in der Lage sind, Ihren Bildschirm zu sehen und eine Maus sowie eine Tastatur zu benutzen — sind momentan die ehrgeizigsten und überschätztesten KI-Tools. Sie sind sowohl unglaublich als auch schrecklich, je nachdem, was Sie von ihnen verlangen.

Wie sie tatsächlich funktionieren

Der Ablauf ist einfach: Screenshot → analysieren → handeln → wiederholen.

Der Agent nimmt einen Screenshot des aktuellen Bildschirms. Ein Vision-Language-Modell (wie Claude oder GPT-4o) betrachtet den Screenshot und identifiziert die Elemente der Benutzeroberfläche — Schaltflächen, Textfelder, Menüs, Links. Das Modell entscheidet, was als Nächstes zu tun ist, basierend auf dem Ziel („den günstigsten Flug buchen“) und dem aktuellen Zustand des Bildschirms. Es führt eine Aktion aus — hier klicken, das schreiben, nach unten scrollen. Neuer Screenshot. Wiederholen, bis die Aufgabe abgeschlossen ist.

Was dies von traditioneller Automatisierung (Selenium, Playwright usw.) unterscheidet, ist, dass es keine vorprogrammierten Selektoren benötigt. Es betrachtet den Bildschirm, wie es ein Mensch tun würde, und bestimmt, was angeklickt werden muss. Das bedeutet, dass es auf jeder Website oder Anwendung ohne benutzerdefinierten Integrationscode funktioniert.

Was ich ausprobiert habe

Claude Computer Use ist das fähigste, das ich getestet habe. Anthropic hat eindeutig über Sicherheit nachgedacht — Claude hält an und fragt nach Bestätigung, bevor er potenziell bedeutsame Aktionen ausführt (Einkäufe, Formularübermittlungen, Kontoänderungen). Die visuelle Erkennung ist beeindruckend: Es identifiziert korrekt komplexe UI-Layouts, Dropdown-Menüs und liest sogar Text aus Bildern.

Ich habe es verwendet, um ein langweiliges Regierungsformular auszufüllen. 47 Felder auf 6 Seiten, Informationen aus einem PDF ziehend. Claude hat das PDF gelesen, sich im Formular bewegt, jedes Feld korrekt ausgefüllt und alles in etwa 8 Minuten abgeschlossen. Ich habe jedes Feld überprüft — alles war korrekt. Manuell würde ich dafür 45 Minuten mit mühsamem Kopieren und Einfügen benötigen.

OpenAI Operator konzentriert sich auf das Surfen im Internet und erledigt alltägliche Aufgaben gut — Restaurantreservierungen, Kaufrecherchen, Zusammenstellung von Recherchen. Es ist weniger technisch als Claude Computer Use, aber eleganter für verbraucherorientierte Aufgaben. Verfügbar für ChatGPT Pro-Abonnenten.

Browser-Use (Open Source) ist das, was ich empfehlen würde, wenn Sie experimentieren und benutzerdefinierte Automatisierungen erstellen möchten. Es ist ein Python-Framework, das jedes LLM mit der Browserkontrolle verbindet. Weniger poliert als Claude oder Operator, aber vollständig anpassbar. Ich habe damit einige Scraping-Workflows erstellt, die mit traditionellen Tools mühsam gewesen wären.

Wo es glänzt

Formulare und Dateneingabe. Das ist das ideale Anwendungsgebiet im Moment. Jede Aufgabe, die es erfordert, Informationen von einem Ort zu lesen und sie an einem anderen einzugeben — Versicherungsformulare, Steuerunterlagen, CRM-Dateneingabe, Spesenberichte — die Computer-Nutzungsagenten finden hier gut hinein. Sie sind geduldig, langweilen sich nicht und transponieren keine Zahlen.

Workflow zwischen Anwendungen. „Laden Sie den Bericht von System A herunter, extrahieren Sie die wichtigsten Kennzahlen und tragen Sie sie im Dashboard von System B ein.“ Wenn System A und System B keine API haben und nicht integriert sind, ist ein Computer-Nutzungsagent die einzige Automatisierungsoption.

Zusammenstellung von Recherchen. „Besuchen Sie diese 10 Unternehmensseiten, finden Sie deren Preisseiten und fassen Sie die Preisinformationen in einer Tabelle zusammen.“ Der Agent durchläuft jede Seite, navigiert zur richtigen Seite, extrahiert die Informationen und organisiert sie. Mühsam für Menschen, einfach für die Agenten.

Wo es problematisch wird

Es ist langsam. Jede Aktion dauert 3-10 Sekunden (Screenshot + Analyse + Ausführung). Eine 20-Schritte-Aufgabe dauert 1-3 Minuten. Ein Mensch, der dieselbe Aufgabe ausführt, könnte 2-5 Minuten brauchen — daher sind die Zeitersparnisse für kurze Aufgaben nicht immer dramatisch.

Komplexe Navigation blockiert ihn. Mehrstufige Dropdown-Menüs, Drag-and-Drop-Interfaces und stark dynamische Seiten (viele Pop-ups und JavaScript-Animationen) stören das visuelle Modell. Ich habe gesehen, wie Claude dreimal daran scheiterte, ein Datum aus einem anspruchsvollen Kalender-Widget auszuwählen, bevor ich übernahm.

CAPTCHA gibt es aus einem Grund. Computer-Nutzungsagenten können CAPTCHA nicht lösen (aus gutem Grund — CAPTCHA existieren, um automatisierte Interaktionen zu verhindern). Wenn eine Website eine CAPTCHA-Bestätigung verlangt, bleibt der Agent stehen und benötigt menschliche Hilfe.

Die Kosten summieren sich. Jeder Screenshot wird von einem Vision-Modell analysiert. Eine 50-Schritte-Aufgabe kann 0,50 bis 2,00 $ in API-Aufrufen verbrauchen. Das ist in Ordnung für gelegentliche Nutzung, aber teuer, wenn Sie täglich Hunderte von Automatisierungen durchführen.

API vs. Computernutzung: Ein Entscheidungsrahmen

Wenn eine API existiert: verwenden Sie die API. Immer. Es ist 100x schneller, 10x günstiger und unendlich zuverlässiger.

Wenn keine API existiert, aber die Aufgabe repetitiv und gut definiert ist: bauen Sie eine traditionelle Automatisierung (Selenium, Playwright) mit geeigneten Selektoren. Es ist schneller und zuverlässiger als die Computernutzung für stabile Benutzeroberflächen.

Wenn keine API existiert, die Aufgabe unregelmäßig ist und die Benutzeroberfläche wechselt: sind Computer-Nutzungsagenten Ihre beste Option. Das ist ihr Spezialgebiet — Ad-hoc-Automatisierung auf Benutzeroberflächen, die keine APIs haben und nicht stabil genug für selector-basierte Automatisierung sind.

Wenn die Aufgabe ein Urteil über mehrere Anwendungen erfordert: glänzen Computer-Nutzungsagenten hier, da sie die visuelle Vielfalt unterschiedlicher Anwendungen auf natürliche Weise handhaben.

Was zu erwarten ist

Computer-Nutzungsagenten werden schneller (kleinere und spezialisierte Vision-Modelle für das Verständnis der Benutzeroberfläche), günstiger (der Wettbewerb wird die Inferenzkosten senken) und zuverlässiger (bessere Trainingsdaten aus der tatsächlichen Nutzung). In 2-3 Jahren erwarte ich, dass sie 80 % der häufigen Computeraufgaben zuverlässig erledigen.

Aber sie werden die APIs, die traditionelle Automatisierung oder menschliches Urteilsvermögen nicht ersetzen. Sie werden die Lücken zwischen diesen schließen — sich um die lange Liste von Aufgaben kümmern, die zu unregelmäßig für die traditionelle Automatisierung und zu mühsam für Menschen sind. Diese lange Liste ist riesig, und genau darum sind Computer-Nutzungsagenten wichtig.

🕒 Published: March 30, 2026

🧰

Written by Jake Chen

Software reviewer and AI tool expert. Independently tests and benchmarks AI products. No sponsored reviews — ever.

Learn more →

Wie sie tatsächlich funktionieren

Was ich ausprobiert habe

Wo es glänzt

Wo es problematisch wird

API vs. Computernutzung: Ein Entscheidungsrahmen

Was zu erwarten ist

Das könnte Ihnen auch gefallen

You May Also Like

📚 You Might Also Like

Related Articles