El mes pasado vi a Claude reservar un vuelo para mí. No a través de una integración de API, sino a través de un navegador. Abrió Google Flights, escribió mi ciudad de salida y destino, seleccionó fechas, scrolleo a través de los resultados, comparó precios y estaba a punto de hacer clic en “Reservar” cuando se detuvo y me pidió confirmar. Todo el proceso tomó unos cuatro minutos.
Fue como observar a alguien controlar mi computadora a distancia. Porque eso es, esencialmente, lo que estaba sucediendo.
Los agentes de IA que utilizan la computadora — sistemas de IA que pueden ver tu pantalla y operar un mouse y teclado — son la categoría de herramientas de IA más ambiciosa y más sobrevalorada en este momento. Son, al mismo tiempo, asombrosos y terribles, dependiendo de lo que les pidas hacer.
Cómo Funcionan en Realidad
El ciclo es simple: captura de pantalla → analizar → actuar → repetir.
El agente toma una captura de pantalla de la pantalla actual. Un modelo de lenguaje visual (como Claude o GPT-4o) observa la captura de pantalla e identifica elementos de la interfaz de usuario: botones, campos de texto, menús, enlaces. El modelo decide qué hacer a continuación basado en el objetivo (“reservar el vuelo más barato”) y el estado actual de la pantalla. Ejecuta una acción: haz clic aquí, escribe esto, desplázate hacia abajo. Nueva captura de pantalla. Repetir hasta que la tarea esté completa.
Lo que hace que esto sea diferente de la automatización tradicional (Selenium, Playwright, etc.) es que no necesita selectores preprogramados. Mira la pantalla como lo haría un humano y averigua qué clicar. Esto significa que funciona en cualquier sitio web o aplicación sin código de integración personalizado.
Lo que He Probado
Claude Computer Use es el más capaz que he probado. Anthropic claramente pensó mucho en la seguridad: Claude se detiene y pide confirmación antes de cualquier acción potencialmente impactante (compras, envíos de formularios, cambios de cuentas). La comprensión visual es impresionante: identifica correctamente diseños de interfaz de usuario complejos, menús desplegables e incluso lee texto de imágenes.
Lo utilicé para completar un tedioso formulario gubernamental. 47 campos a lo largo de 6 páginas, extrayendo información de un PDF. Claude leyó el PDF, navegó por el formulario, completó cada campo correctamente y terminó todo en unos 8 minutos. Verifiqué cada campo: todos correctos. Manualmente, esto me tomaría 45 minutos de una copia y pega monótona.
OpenAI Operator se centra en la navegación web y maneja bien tareas comunes: reservas de restaurantes, búsquedas de compras, compilación de investigaciones. Es menos técnico que Claude Computer Use, pero más pulido para tareas de consumo. Disponible para suscriptores de ChatGPT Pro.
Browser-Use (código abierto) es lo que recomendaría si deseas experimentar y construir automatización personalizada. Es un marco de Python que conecta cualquier LLM al control del navegador. Menos pulido que Claude u Operator, pero totalmente personalizable. He construido algunos flujos de trabajo de raspado con él que habrían sido dolorosos con herramientas tradicionales.
Dónde Brilla
Formularios y entrada de datos. Este es el caso de uso clave en este momento. Cualquier tarea que implique leer información de un lugar y ingresarla en otro — formularios de seguros, documentos fiscales, entrada de datos en CRM, informes de gastos — los agentes de uso de computadora manejan bien. Son pacientes, no se aburren y no transponen dígitos.
Flujos de trabajo entre aplicaciones. “Descarga el informe del Sistema A, extrae los indicadores clave y entrélos en el tablero del Sistema B.” Cuando el Sistema A y el Sistema B no tienen API y no hay integración, un agente de uso de computadora es la única opción de automatización.
Compilación de investigaciones. “Visita estos 10 sitios web de empresas, encuentra sus páginas de precios y compila la información de precios en una hoja de cálculo.” El agente navega cada sitio, se dirige a la página correcta, extrae la información y la organiza. Tedioso para los humanos, sencillo para los agentes.
Dónde Se Desmorona
Es lento. Cada acción toma entre 3 y 10 segundos (captura de pantalla + análisis + ejecución). Una tarea de 20 pasos toma de 1 a 3 minutos. Un humano realizando la misma tarea podría tomar de 2 a 5 minutos, así que el ahorro de tiempo no siempre es dramático para tareas cortas.
Navegación compleja lo interrumpe. Menús desplegables multi-nivel, interfaces de arrastrar y soltar, y páginas muy dinámicas (muchos pop-ups y animaciones de JavaScript) confunden al modelo visual. Vi a Claude fallar tres veces en seleccionar una fecha de un elegante widget de calendario antes de que yo tomara el control.
Las CAPTCHAs existen por una razón. Los agentes de uso de computadora no pueden resolver CAPTCHAs (por diseño, las CAPTCHAs existen para detener interacciones automatizadas). Si un sitio web requiere verificación con CAPTCHA, el agente se queda atascado y necesita ayuda humana.
El costo se acumula. Cada captura de pantalla es analizada por un modelo de visión. Una tarea de 50 pasos podría consumir entre $0.50 y $2.00 en llamadas a la API. Eso está bien para un uso ocasional, pero se vuelve costoso si ejecutas cientos de automatizaciones a diario.
API vs. Uso de Computadora: Un Marco de Decisión
Si existe una API: usa la API. Siempre. Es 100x más rápida, 10x más barata y infinitamente más fiable.
Si no hay API pero la tarea es repetitiva y está bien definida: construye automatización tradicional (Selenium, Playwright) con selectores adecuados. Es más rápida y más confiable que el uso de computadora para interfaces estables.
Si no hay API, la tarea es irregular y la interfaz cambia: los agentes de uso de computadora son tu mejor opción. Este es su punto fuerte: automatización ad-hoc en interfaces que no tienen APIs y no son lo suficientemente estables para la automatización basada en selectores.
Si la tarea involucra juicio a través de múltiples aplicaciones: los agentes de uso de computadora brillan aquí porque manejan la diversidad visual de diferentes aplicaciones de manera natural.
Lo Que Viene
Los agentes de uso de computadora se volverán más rápidos (modelos de visión más pequeños y especializados para la comprensión de UI), más baratos (la competencia reducirá los costos de inferencia) y más confiables (mejores datos de entrenamiento a partir del uso en el mundo real). En 2-3 años, espero que manejen el 80% de las tareas informáticas comunes de manera confiable.
Pero no reemplazarán APIs, automatización tradicional o juicio humano. Llenarán los vacíos entre ellos: manejando la larga cola de tareas que son demasiado irregulares para la automatización tradicional y demasiado tediosas para los humanos. Esa larga cola es enorme, y por eso los agentes de uso de computadora son importantes.
🕒 Published: