J’ai vu Claude réserver un vol pour moi le mois dernier. Pas par une intégration API — par un navigateur. Il a ouvert Google Flights, a saisi ma ville de départ et ma destination, a sélectionné des dates, a fait défiler les résultats, a comparé les prix, et allait cliquer sur « Réserver » quand il s’est arrêté pour me demander de confirmer. L’ensemble a pris environ quatre minutes.
On avait l’impression de voir quelqu’un contrôler mon ordinateur à distance. Parce que c’est en gros ce qui se passait.
Les agents IA pour l’utilisation d’ordinateur — systèmes IA capables de voir votre écran et de contrôler une souris et un clavier — représentent la catégorie d’outils IA la plus ambitieuse et la plus surestimée en ce moment. Ils sont à la fois incroyables et terribles, en fonction de ce que vous leur demandez de faire.
Comment ils fonctionnent réellement
Le cycle est simple : capture d’écran → analyser → agir → répéter.
L’agent prend une capture d’écran de l’écran actuel. Un modèle de vision-langage (comme Claude ou GPT-4o) examine la capture d’écran et identifie les éléments de l’interface utilisateur — boutons, champs de texte, menus, liens. Le modèle décide de la prochaine action à réaliser en fonction de l’objectif (« réserver le vol le moins cher ») et de l’état actuel de l’écran. Il exécute une action — cliquer ici, taper cela, faire défiler vers le bas. Nouvelle capture d’écran. Répétez jusqu’à ce que la tâche soit terminée.
Ce qui rend cela différent de l’automatisation traditionnelle (Selenium, Playwright, etc.), c’est que cela n’a pas besoin de sélecteurs préprogrammés. Il regarde l’écran comme un humain le ferait et détermine quoi cliquer. Cela signifie qu’il fonctionne sur n’importe quel site Web ou application sans code d’intégration personnalisé.
Ce que j’ai essayé
Claude Computer Use est le plus puissant que j’ai testé. Anthropic a clairement réfléchi à la sécurité — Claude s’arrête et demande confirmation avant toute action potentiellement impactante (achats, soumissions de formulaires, changements de compte). La compréhension visuelle est impressionnante : il identifie correctement des mises en page d’UI complexes, des menus déroulants et lit même le texte des images.
Je l’ai utilisé pour remplir un ennuyeux formulaire gouvernemental. 47 champs répartis sur 6 pages, tirant des informations d’un PDF. Claude a lu le PDF, a navigué dans le formulaire, a rempli chaque champ correctement et a terminé le tout en environ 8 minutes. J’ai vérifié chaque champ — tout était correct. Manuellement, cela me prend 45 minutes à faire du copier-coller épuisant.
OpenAI Operator se concentre sur la navigation Web et gère bien les tâches courantes — réservations de restaurants, recherches d’achats, compilation de recherches. C’est moins technique que Claude Computer Use mais plus peaufiné pour les tâches de consommation. Disponible pour les abonnés ChatGPT Pro.
Browser-Use (open source) est ce que je recommanderais si vous souhaitez expérimenter et créer une automatisation personnalisée. C’est un cadre Python qui connecte n’importe quel LLM au contrôle du navigateur. Moins soigné que Claude ou Operator, mais entièrement personnalisable. J’ai construit quelques flux de scraping avec, qui auraient été pénibles avec des outils traditionnels.
Où ça excelle
Formulaires et saisie de données. C’est le cas d’utilisation incontournable en ce moment. Toute tâche qui implique de lire des informations d’un endroit et de les entrer dans un autre — formulaires d’assurance, documents fiscaux, saisie de données CRM, rapports de dépenses — les agents d’utilisation d’ordinateur s’en sortent bien. Ils sont patients, ne s’ennuient pas et ne transposent pas les chiffres.
Flux de travail inter-applications. « Téléchargez le rapport du Système A, extrayez les principaux indicateurs et entrez-les dans le tableau de bord du Système B. » Lorsque le Système A et le Système B n’ont pas d’API et pas d’intégration, un agent d’utilisation d’ordinateur est la seule option d’automatisation.
Compilation de recherches. « Visitez ces 10 sites d’entreprise, trouvez leurs pages de tarification, et compilez les informations tarifaires dans un tableau. » L’agent navigue sur chaque site, accède à la bonne page, extrait l’information et l’organise. Ennuyeux pour les humains, simple pour les agents.
Où ça échoue
C’est lent. Chaque action prend 3-10 secondes (capture d’écran + analyse + exécution). Une tâche de 20 étapes prend 1-3 minutes. Un humain effectuant la même tâche pourrait prendre 2-5 minutes — donc les économies de temps ne sont pas toujours dramatiques pour les tâches courtes.
La navigation complexe le bloque. Les menus déroulants multi-niveaux, les interfaces de glisser-déposer et les pages très dynamiques (beaucoup de pop-ups et animations JavaScript) perturbent le modèle visuel. J’ai vu Claude échouer trois fois à sélectionner une date d’un élégant widget de calendrier avant que je prenne le contrôle.
Les CAPTCHAs existent pour une raison. Les agents d’utilisation d’ordinateur ne peuvent pas résoudre les CAPTCHA (par conception — les CAPTCHA existent pour bloquer les interactions automatisées). Si un site Web nécessite une vérification CAPTCHA, l’agent est bloqué et a besoin d’aide humaine.
Le coût s’accumule. Chaque capture d’écran est analysée par un modèle visuel. Une tâche de 50 étapes pourrait consommer entre 0,50 $ et 2,00 $ en appels API. C’est acceptable pour une utilisation occasionnelle, mais coûteux si vous exécutez des centaines d’automatisations quotidiennement.
API vs. Utilisation d’Ordinateur : Un Cadre de Décision
S’il existe une API : utilisez l’API. Toujours. C’est 100x plus rapide, 10x moins cher, et infiniment plus fiable.
S’il n’existe pas d’API mais que la tâche est répétitive et bien définie : construisez une automatisation traditionnelle (Selenium, Playwright) avec des sélecteurs appropriés. C’est plus rapide et plus fiable que l’utilisation d’ordinateur pour des interfaces stables.
S’il n’existe pas d’API, que la tâche est irrégulière et que l’interface change : les agents d’utilisation d’ordinateur sont votre meilleure option. C’est leur point fort — l’automatisation ad hoc sur des interfaces qui n’ont pas d’APIs et ne sont pas assez stables pour une automatisation basée sur des sélecteurs.
S’il s’agit d’une tâche impliquant un jugement entre plusieurs applications : les agents d’utilisation d’ordinateur brillent ici car ils gèrent la diversité visuelle des différentes applications naturellement.
Ce qui arrive bientôt
Les agents d’utilisation d’ordinateur deviendront plus rapides (modèles visuels plus petits et spécialisés pour la compréhension de l’UI), moins chers (la concurrence fera baisser les coûts d’inférence) et plus fiables (de meilleures données d’entraînement issues de l’utilisation réelle). Dans 2 à 3 ans, je m’attends à ce qu’ils gèrent 80 % des tâches d’ordinateur courantes de manière fiable.
Mais ils ne remplaceront pas les API, l’automatisation traditionnelle, ou le jugement humain. Ils combleront les lacunes entre eux — gérant la longue traîne de tâches qui sont trop irrégulières pour de l’automatisation traditionnelle et trop ennuyeuses pour les humains. Cette longue traîne est énorme, et c’est pourquoi les agents d’utilisation d’ordinateur ont de l’importance.
🕒 Published: