Il mese scorso ho visto Claude prenotare un volo per me. Non attraverso un’integrazione API — tramite un browser. Ha aperto Google Flights, ha digitato la mia città di partenza e la destinazione, ha selezionato le date, è scorrere i risultati, ha confrontato i prezzi ed era sul punto di cliccare “Prenota” quando si è fermato e mi ha chiesto di confermare. Il tutto è durato circa quattro minuti.
È sembrato come se stessi osservando qualcuno controllare a distanza il mio computer. Perché sostanzialmente era quello che stava accadendo.
Gli agenti AI per l’uso del computer — sistemi AI che possono vedere il tuo schermo e operare un mouse e una tastiera — sono la categoria di strumenti AI più ambiziosa e più sopravvalutata al momento. Sono simultaneamente sorprendenti e terribili, a seconda di ciò che gli chiedi di fare.
Come Funzionano Davvero
Il ciclo è semplice: screenshot → analizza → agisci → ripeti.
L’agente prende uno screenshot dello schermo attuale. Un modello vision-language (come Claude o GPT-4o) guarda lo screenshot e identifica gli elementi dell’interfaccia utente — pulsanti, campi di testo, menu, collegamenti. Il modello decide cosa fare dopo in base all’obiettivo (“prenota il volo più economico”) e allo stato attuale dello schermo. Esegue un’azione — clicca qui, digita questo, scorri verso il basso. Nuovo screenshot. Ripeti fino a quando il compito è completato.
Ciò che rende questo diverso dall’automazione tradizionale (Selenium, Playwright, ecc.) è che non ha bisogno di selettori pre-programmati. Guarda lo schermo come farebbe un umano e decide cosa cliccare. Questo significa che funziona su qualsiasi sito web o applicazione senza codice di integrazione personalizzato.
Cosa Ho Provato
Claude Computer Use è il più capace che ho testato. Anthropic ha chiaramente pensato a lungo alla sicurezza — Claude si ferma e chiede conferma prima di ogni azione potenzialmente impattante (acquisti, invio di moduli, modifiche all’account). La comprensione visiva è impressionante: identifica correttamente layout complessi dell’interfaccia utente, menu a discesa e persino legge il testo dalle immagini.
Lo ho usato per compilare un noioso modulo governativo. 47 campi su 6 pagine, estraendo informazioni da un PDF. Claude ha letto il PDF, ha navigato nel modulo, ha riempito ciascun campo correttamente e ha completato il tutto in circa 8 minuti. Ho verificato ogni campo — tutto corretto. Manualmente, ci metto 45 minuti di copia e incolla noioso.
OpenAI Operator si concentra sulla navigazione web e gestisce bene compiti comuni — prenotazioni di ristoranti, ricerche di shopping, compilazione di ricerche. È meno tecnico di Claude Computer Use ma più raffinato per compiti per consumatori. Disponibile per gli abbonati di ChatGPT Pro.
Browser-Use (open source) è ciò che raccomanderei se vuoi sperimentare e costruire automazioni personalizzate. È un framework Python che collega qualsiasi LLM al controllo del browser. Meno raffinato di Claude o Operator, ma completamente personalizzabile. Ho costruito alcuni flussi di scraping con esso che sarebbero stati dolorosi con strumenti tradizionali.
Dove Eccelle
Moduli e inserimento dati. Questo è il caso d’uso killer al momento. Qualsiasi compito che implica leggere informazioni da un luogo e inserirle in un altro — moduli assicurativi, documenti fiscali, inserimento dati CRM, report delle spese — gli agenti per l’uso del computer gestiscono bene. Sono pazienti, non si annoiano e non trasposono le cifre.
Flussi di lavoro cross-applicazione. “Scarica il report dal Sistema A, estrai le metriche chiave e inseriscile nel dashboard nel Sistema B.” Quando il Sistema A e il Sistema B non hanno API e nessuna integrazione, un agente per l’uso del computer è l’unica opzione di automazione.
Compilazione di ricerche. “Visita questi 10 siti web aziendali, trova le loro pagine di prezzo e compila le informazioni sui prezzi in un foglio di calcolo.” L’agente naviga in ogni sito, si dirige verso la pagina giusta, estrae le informazioni e le organizza. Noioso per gli umani, semplice per gli agenti.
Dove Fallisce
È lento. Ogni azione richiede 3-10 secondi (screenshot + analisi + esecuzione). Un compito di 20 passi richiede da 1 a 3 minuti. Un umano che svolge lo stesso compito potrebbe impiegare da 2 a 5 minuti — quindi il risparmio di tempo non è sempre drammatico per compiti brevi.
Le navigazioni complesse lo rompono. Menu a discesa multi-livello, interfacce drag-and-drop e pagine fortemente dinamiche (molti popup e animazioni JavaScript) confondono il modello visivo. Ho visto Claude fallire tre volte nel selezionare una data da un elegante widget del calendario prima che intervenissi io.
I CAPTCHA esistono per una ragione. Gli agenti per l’uso del computer non possono risolvere i CAPTCHA (per design — i CAPTCHA esistono per fermare le interazioni automatizzate). Se un sito web richiede la verifica CAPTCHA, l’agente si blocca e ha bisogno di aiuto umano.
I costi si accumulano. Ogni screenshot viene analizzato da un modello visivo. Un compito di 50 passi potrebbe consumare da $0.50 a $2.00 in chiamate API. Va bene per un uso occasionale, ma costoso se stai eseguendo centinaia di automazioni quotidianamente.
API vs. Uso del Computer: Un Framework Decisionale
Se esiste un’API: usa l’API. Sempre. È 100 volte più veloce, 10 volte più economica e infinitamente più affidabile.
Se non esiste un’API ma il compito è ripetitivo e ben definito: costruisci automazione tradizionale (Selenium, Playwright) con selettori appropriati. È più veloce e affidabile rispetto all’uso del computer per interfacce stabili.
Se non esiste un’API, il compito è irregolare e l’interfaccia cambia: gli agenti per l’uso del computer sono la tua migliore opzione. Questo è il loro punto forte — automazione ad-hoc su interfacce che non hanno API e non sono abbastanza stabili per l’automazione basata su selettori.
Se il compito implica giudizio attraverso più applicazioni: gli agenti per l’uso del computer eccellono qui perché gestiscono naturalmente la diversità visiva delle diverse applicazioni.
Cosa Sta Arrivando
Gli agenti per l’uso del computer diventeranno più veloci (modelli visivi più piccoli e specializzati per la comprensione dell’interfaccia utente), più economici (la concorrenza ridurrà i costi di inferenza) e più affidabili (migliori dati di addestramento grazie all’uso nel mondo reale). Entro 2-3 anni, ci si aspetta che gestiscano in modo affidabile l’80% dei compiti comuni del computer.
Ma non sostituiranno le API, l’automazione tradizionale o il giudizio umano. Riempiranno i vuoti tra di essi — gestendo la lunga lista di compiti che sono troppo irregolari per l’automazione tradizionale e troppo noiosi per gli umani. Quella lunga lista è enorme, ed è per questo che gli agenti per l’uso del computer sono importanti.
🕒 Published: