Por Melissa Heikkilä
Cuando se lanzó ChatGPT, todo el mundo empezó a hablar de la nueva generación de asistentes de inteligencia artificial. Pero en el último año, ese entusiasmo se ha centrado en un nuevo objetivo: los agentes de IA.
Los agentes ocuparon un lugar destacado en la conferencia anual de Google I/O celebrada en mayo, cuando la compañía presentó su nuevo agente de IA llamado Astra, que permite a los usuarios interactuar con él mediante audio y vídeo. El nuevo modelo GPT-4o de OpenAI también ha sido bautizado como agente de IA.
Y no es solo autobombo, hay algo nuevo en todo esto: las empresas tecnológicas están invirtiendo grandes sumas en la creación de agentes de IA, y sus esfuerzos de investigación podrían dar paso al tipo de IA útil con el que llevamos décadas soñando. Muchos expertos, como Sam Altman, afirman que se trata de la próxima gran revolución.
Pero, ¿qué son los agentes de IA? ¿Y cómo podemos utilizarlos?
¿Cómo se definen?
La investigación sobre los agentes de inteligencia artificial aún está en sus inicios y no existe una definición definitiva. Pero, en pocas palabras, son modelos y algoritmos de IA que pueden tomar decisiones de forma autónoma en un mundo dinámico, afirma Jim Fan, investigador científico de Nvidia que dirige la iniciativa de agentes de IA de la empresa.
La gran visión de los agentes de IA es un sistema capaz de ejecutar una amplia gama de tareas, como un asistente humano. En el futuro, podría ayudarte a reservar tus vacaciones, pero también recordará si prefieres hoteles ostentosos, de modo que sólo te sugerirá hoteles de cuatro estrellas o más y luego reservará el que elijas entre las opciones que te ofrezca. También te sugerirá los vuelos que mejor se adapten a tu calendario y planificará el itinerario de tu viaje según tus preferencias. Podría hacer una lista de las cosas que hay que llevar en la maleta basándose en ese plan y en la previsión meteorológica. Incluso podría enviar tu itinerario a los amigos que sabe que viven en tu destino e invitarles a que te acompañen. En el lugar de trabajo, podría analizar tu lista de tareas pendientes (enviar convocatorias de reunión, notas o correos electrónicos) y ejecutarlas.
Uno de los objetivos de los agentes es que sean multimodales, es decir, que puedan procesar lenguaje, audio y vídeo. Por ejemplo, en la demo Astra de Google, los usuarios podían apuntar a las cosas con la cámara de un smartphone y hacerle preguntas al agente. El agente podía responder a entradas de texto, audio y vídeo.
Según David Barber, director del Centro de Inteligencia Artificial del University College de Londres, estos agentes también podrían agilizar los procesos de empresas y organismos públicos. Por ejemplo, un agente de IA podría funcionar como un bot de atención al cliente más sofisticado. La actual generación de asistentes basados en modelos lingüísticos sólo puede generar la siguiente palabra probable en una frase. Pero un agente de IA tendría la capacidad de actuar de forma autónoma a partir de órdenes en lenguaje natural y procesar tareas de atención al cliente sin supervisión. Por ejemplo, el agente sería capaz de analizar correos electrónicos de quejas de clientes y entonces sabría comprobar el número de referencia del cliente, acceder a bases de datos como las de gestión de relaciones con clientes y sistemas de entrega para ver si la queja es legítima, y procesarla según las políticas de la empresa, dice Barber.
En términos generales, hay dos categorías diferentes de agentes, dice Fan: agentes de software y agentes incorporados.
Los agentes de software funcionan en ordenadores o teléfonos móviles y utilizan aplicaciones, como en el ejemplo anterior de la agencia de viajes. “Estos agentes son muy útiles para el trabajo de oficina, el envío de correos electrónicos o el desarrollo de una cadena de eventos”, explica.
Los agentes encarnados son agentes situados en un mundo tridimensional, como un videojuego, o en un robot. Este tipo de agentes podría hacer más atractivos los videojuegos al permitir jugar con personajes no jugadores controlados por la IA. Este tipo de agentes también podrían ayudar a construir robots más útiles que nos ayuden con las tareas cotidianas del hogar, como doblar la ropa o cocinar.
Fan formó parte de un equipo que creó un agente de IA personificado llamado MineDojo en el popular juego de ordenador Minecraft. Utilizando un vasto caudal de datos recogidos en Internet, el agente de IA de Fan fue capaz de aprender nuevas habilidades y tareas que le permitieron explorar libremente el mundo virtual en 3D y completar tareas complejas como rodear llamas con vallas o recoger lava en un cubo. Los videojuegos son buenos sustitutos del mundo real, porque exigen que los agentes comprendan la física, el razonamiento y el sentido común.
En un nuevo artículo, que aún no ha sido revisado, los investigadores de Princeton afirman que los agentes de IA tienden a tener tres características diferentes. Los sistemas de IA se consideran “agenciales” [con características de agente] si pueden perseguir objetivos difíciles sin recibir instrucciones en entornos complejos. También se consideran “agenciales” si pueden recibir instrucciones en lenguaje natural y actuar de forma autónoma sin supervisión. Y por último, el término “agencial” también puede aplicarse a sistemas capaces de utilizar herramientas, como la búsqueda en Internet o la programación, o capaces de planificar.
¿Son algo nuevo?
El término “agentes de IA” existe desde hace años y ha tenido distintos significados en distintos momentos, dice Chirag Shah, profesor de informática de la Universidad de Washington.
Ha habido dos oleadas de agentes, dice Fan. La actual se debe al boom de los modelos lingüísticos y al auge de sistemas como ChatGPT.
La oleada anterior se produjo en 2016, cuando Google DeepMind presentó AlphaGo, su sistema de IA capaz de jugar -y ganar- al juego Go. AlphaGo era capaz de tomar decisiones y planificar estrategias. Esto se basó en el aprendizaje por refuerzo, una técnica que recompensa a los algoritmos de IA por comportamientos deseables.
“Pero estos agentes no eran generales”, dice Oriol Vinyals, vicepresidente de investigación de Google DeepMind. Se crearon para tareas muy específicas, en este caso, jugar al Go”. La nueva generación de IA basada en modelos básicos hace que los agentes sean más universales, ya que pueden aprender del mundo con el que interactúan los humanos.
“Sientes mucho más que el modelo está interactuando con el mundo y luego te da mejores respuestas o mejor asistencia o lo que sea”, dice Vinyals.
¿Cuáles son las limitaciones?
Aún quedan muchas preguntas por responder. Kanjun Qiu, consejero delegado y fundador de la empresa de IA Imbue, que trabaja en agentes capaces de razonar y codificar, compara el estado de los agentes con el de los coches autoconducidos hace poco más de una década. Pueden hacer cosas, pero son poco fiables y aún no son realmente autónomos. Por ejemplo, un agente de codificación puede generar código, pero a veces se equivoca y no sabe cómo probar el código que está creando, dice Qiu. Por eso los humanos tienen que participar activamente en el proceso. Los sistemas de IA aún no pueden razonar del todo, lo cual es un paso fundamental para operar en un mundo humano complejo y ambiguo.
“No estamos ni cerca de tener un agente que pueda automatizar todas estas tareas por nosotros”, afirma Fan. Los sistemas actuales “alucinan y además no siempre siguen las instrucciones al pie de la letra”, afirma Fan. “Y eso llega a ser molesto”.
Otra limitación es que, al cabo de un rato, los agentes de IA pierden la noción de en qué están trabajando. Los sistemas de IA están limitados por sus ventanas de contexto, es decir, la cantidad de datos que pueden tener en cuenta en un momento dado.
“ChatGPT puede hacer codificación, pero no es capaz de hacer bien contenidos largos. Pero para los desarrolladores humanos, vemos un repositorio entero de GitHub que tiene decenas, si no cientos, de líneas de código, y no tenemos problemas para navegar por él”, dice Fan.
Para hacer frente a este problema, Google ha aumentado la capacidad de sus modelos para procesar datos, lo que permite a los usuarios tener interacciones más largas con ellos en las que recuerdan más sobre interacciones pasadas. La empresa afirma que está trabajando para que sus ventanas contextuales sean infinitas en el futuro.
En el caso de los agentes corporales, como los robots, las limitaciones son aún mayores. No hay suficientes datos de entrenamiento para enseñarles, y los investigadores apenas están empezando a aprovechar el poder de los modelos de base en robótica.
Así que, entre tanta expectación y entusiasmo, conviene tener en cuenta que la investigación sobre agentes de IA está aún en sus primeras fases y que probablemente pasarán años hasta que podamos experimentar todo su potencial.
Suena bien. ¿Puedo probar ya un agente de IA?
Más o menos. Lo más probable es que hayas probado sus primeros prototipos, como ChatGPT y GPT-4 de OpenAI. “Si interactúas con un software que parece inteligente, eso es una especie de agente”, dice Qiu.
Ahora mismo, los mejores agentes que tenemos son sistemas con casos de uso muy limitados y específicos, como asistentes de codificación, bots de atención al cliente o software de automatización de flujos de trabajo como Zapier. Pero estos están muy lejos de un agente de IA universal que pueda realizar tareas complejas.
“Hoy tenemos estos ordenadores y son realmente potentes, pero tenemos que microgestionarlos“, dice Qiu.
Los plug-ins ChatGPT de OpenAI, que permiten crear asistentes de IA para navegadores web, fueron un intento de crear agentes, dice Qiu. Pero estos sistemas siguen siendo torpes, poco fiables y sin capacidad de razonamiento, afirma.
A pesar de ello, estos sistemas cambiarán la forma en que interactuamos con la tecnología algún día, cree Qiu, y es una tendencia a la que la gente debe prestar atención.
“No se trata de ‘Dios mío, de repente tenemos AGI’… sino más bien de ‘Dios mío, mi ordenador puede hacer mucho más que hace cinco años'”, afirma.
Fuente: technologyreview.es