J’ai regardé Claude réserver un vol pour moi le mois dernier. Pas via une intégration API — mais à travers un navigateur. Il a ouvert Google Flights, a saisi ma ville de départ et ma destination, a sélectionné des dates, a fait défiler les résultats, a comparé les prix et était sur le point de cliquer sur “Réserver” quand il s’est arrêté et m’a demandé de confirmer. L’ensemble du processus a pris environ quatre minutes.
On aurait dit que je regardais quelqu’un contrôler mon ordinateur à distance. Parce que c’est essentiellement ce qui se passait.
Les agents AI d’utilisation d’ordinateur — des systèmes AI capables de voir votre écran et d’utiliser une souris et un clavier — sont la catégorie d’outils AI les plus ambitieuses et les plus surévaluées en ce moment. Ils sont simultanément incroyables et terribles, selon ce que vous leur demandez de faire.
Comment ils fonctionnent réellement
La boucle est simple : capture d’écran → analyser → agir → répéter.
L’agent prend une capture d’écran de l’écran actuel. Un modèle de vision-langage (comme Claude ou GPT-4o) regarde la capture d’écran et identifie les éléments de l’interface utilisateur — boutons, champs de texte, menus, liens. Le modèle décide quoi faire ensuite en fonction de l’objectif (“réserver le vol le moins cher”) et de l’état actuel de l’écran. Il exécute une action — cliquer ici, écrire cela, faire défiler vers le bas. Nouvelle capture d’écran. Répéter jusqu’à ce que la tâche soit terminée.
Ce qui rend cela différent de l’automatisation traditionnelle (Selenium, Playwright, etc.) est qu’il n’a pas besoin de sélecteurs préprogrammés. Il regarde l’écran comme le ferait un humain et détermine ce qu’il faut cliquer. Cela signifie qu’il fonctionne sur n’importe quel site Web ou application sans code d’intégration personnalisé.
Ce que j’ai essayé
Claude Computer Use est le plus capable que j’ai testé. Anthropic a clairement réfléchi à la sécurité — Claude s’arrête et demande confirmation avant toute action potentiellement impactante (achats, soumissions de formulaires, changements de compte). La compréhension visuelle est impressionnante : il identifie correctement des mises en page UI complexes, des menus déroulants, et lit même du texte à partir d’images.
Je l’ai utilisé pour remplir un formulaire gouvernemental ennuyeux. 47 champs sur 6 pages, tirant des informations d’un PDF. Claude a lu le PDF, a navigué dans le formulaire, a rempli chaque champ correctement, et a terminé le tout en environ 8 minutes. J’ai vérifié chaque champ — tout était correct. Manuellement, cela me prend 45 minutes de copier-coller épuisant.
OpenAI Operator se concentre sur la navigation web et gère bien les tâches courantes — réservations de restaurants, recherches d’achats, compilation de recherches. Il est moins technique que Claude Computer Use mais plus soigné pour les tâches destinées aux consommateurs. Disponible pour les abonnés ChatGPT Pro.
Browser-Use (open source) est ce que je recommanderais si vous voulez expérimenter et construire des automatisations personnalisées. C’est un cadre Python qui connecte n’importe quel LLM au contrôle du navigateur. Moins poli que Claude ou Operator, mais entièrement personnalisable. J’ai construit quelques flux de scraping avec cela qui auraient été pénibles avec les outils traditionnels.
Où il excelle
Formulaires et saisie de données. C’est le cas d’utilisation idéal en ce moment. Toute tâche qui implique de lire des informations d’un endroit et de les entrer dans un autre — formulaires d’assurance, documents fiscaux, saisie de données CRM, rapports de dépenses — les agents d’utilisation d’ordinateur gèrent cela bien. Ils sont patients, ne s’ennuient pas et ne transposent pas les chiffres.
Flux de travail inter-applications. “>Téléchargez le rapport de Système A, extrayez les métriques clés et entrez-les dans le tableau de bord du Système B.” Lorsque le Système A et le Système B n’ont pas d’API et pas d’intégration, un agent d’utilisation d’ordinateur est la seule option d’automatisation.
Compilation de recherches. “Visitez ces 10 sites d’entreprises, trouvez leurs pages de tarification et compilez les informations tarifaires dans un tableau.” L’agent parcourt chaque site, navigue vers la bonne page, extrait les informations et les organise. Fastidieux pour les humains, simple pour les agents.
Où cela se gâte
C’est lent. Chaque action prend 3-10 secondes (capture d’écran + analyse + exécution). Une tâche de 20 étapes prend 1-3 minutes. Un humain effectuant la même tâche pourrait mettre 2-5 minutes — donc les économies de temps ne sont pas toujours dramatiques pour les tâches courtes.
La navigation complexe le bloque. Les menus déroulants multi-niveaux, les interfaces de glisser-déposer, et les pages très dynamiques (beaucoup de pop-ups et d’animations JavaScript) perturbent le modèle visuel. J’ai regardé Claude échouer trois fois à sélectionner une date à partir d’un widget de calendrier sophistiqué avant que je ne prenne le relais.
Les CAPTCHA existent pour une raison. Les agents d’utilisation d’ordinateur ne peuvent pas résoudre les CAPTCHA (par conception — les CAPTCHA existent pour stopper les interactions automatisées). Si un site Web exige une vérification CAPTCHA, l’agent reste bloqué et a besoin d’aide humaine.
Le coût s’accumule. Chaque capture d’écran est analysée par un modèle de vision. Une tâche de 50 étapes peut consommer 0,50 à 2,00 $ en appels API. Ça va pour une utilisation occasionnelle, mais c’est coûteux si vous exécutez des centaines d’automatisations chaque jour.
API vs. Utilisation d’Ordinateur : Un Cadre de Décision
Si une API existe : utilisez l’API. Toujours. C’est 100x plus rapide, 10x moins cher, et infiniment plus fiable.
Si aucune API n’existe mais la tâche est répétitive et bien définie : construisez une automatisation traditionnelle (Selenium, Playwright) avec des sélecteurs appropriés. C’est plus rapide et plus fiable que l’utilisation d’ordinateur pour des interfaces stables.
Si aucune API n’existe, la tâche est irrégulière, et l’interface change : les agents d’utilisation d’ordinateur sont votre meilleure option. C’est leur point fort — automatisation ad hoc sur des interfaces qui n’ont pas d’API et ne sont pas assez stables pour une automatisation basée sur des sélecteurs.
Si la tâche implique un jugement à travers plusieurs applications : les agents d’utilisation d’ordinateur brillent ici car ils gèrent naturellement la diversité visuelle de différentes applications.
Ce qui arrive
Les agents d’utilisation d’ordinateur vont devenir plus rapides (modèles de vision plus petits et spécialisés pour la compréhension de l’interface utilisateur), moins chers (la concurrence fera baisser les coûts d’inférence), et plus fiables (meilleures données d’entraînement provenant de l’utilisation réelle). Dans 2-3 ans, je m’attends à ce qu’ils gèrent 80 % des tâches informatiques courantes de manière fiable.
Mais ils ne remplaceront pas les API, l’automatisation traditionnelle ou le jugement humain. Ils combleront les lacunes entre eux — s’occupant de la longue traîne de tâches qui sont trop irrégulières pour l’automatisation traditionnelle et trop fastidieuses pour les humains. Cette longue traîne est énorme, et c’est pourquoi les agents d’utilisation d’ordinateur sont importants.
🕒 Published:
Related Articles
- Der AI-Chip von Arm ist smart, aber Nvidias Vorsprung wackelt noch nicht.
- Strumenti di IA per le risorse umane: Migliora l’efficienza & Trasforma il tuo luogo di lavoro
- Herramientas de bases de datos que son compatibles con los agentes de IA
- Outils CLI : Gli eroi sconosciuti della mia vita da sviluppatore