Agentic AI: editores en busca de madurez, según AI Builders

Agentic AI: editores en busca de madurez, según AI Builders
Agentic AI: editores en busca de madurez, según AI Builders
-

Dado que los grandes modelos de lenguaje ahora son capaces de explicar el razonamiento (y, por lo tanto, detallar una secuencia de pasos lógicos), pueden, en principio, planificar tareas y gestionar todo o parte de un proceso. Para ello, los proveedores de LLM les proporcionan lo que llaman “llamadas a funciones”. En pocas palabras, los modelos pueden realizar acciones después de conectarlos a herramientas de terceros. Algunos editores, incluidos Salesforce y ServiceNow, buscan entrenar modelos no a partir de un corpus de documentos, sino a partir de descripciones de procesos de pensamiento (técnica llamada Cadena de Pensamiento), acciones y pasos a seguir durante las llamadas a funciones.

¿Qué es un modelo de acción grande? El motor de un agente autónomo

Estos nuevos tipos de modelos que aparecerán en 2022 se denominan “Modelos de acción grande” o LAM. Por el momento, se trata de variantes más bien afinadas de LLM o grandes modelos de lenguaje a los que se ha dedicado parte de la formación (en particular mediante técnicas de aprendizaje por refuerzo) para llevar a cabo estas tareas. Estos son los fundamentos de lo que los editores llaman “agentes autónomos”.

“Un agente es la combinación de un LLM orquestador, capaz de descomponer tareas y asignarlas, con un fragmento de código dedicado”, describe Stéphane Roder, director general de AI Builders. “Este fragmento de código se encarga de cada subtarea, comprende cómo funciona la herramienta, interactúa con ella, recupera el resultado producido y lo transmite al orquestador”. Esta sería la evolución de RPA. A diferencia de un bot RPA que debe programarse manualmente o transmitirle la grabación de una serie de tareas, un agente “encontrará por sí solo las acciones a realizar”.

La proliferación de estos agentes sugiere un cambio desde el análisis prescriptivo, que los LLM prometieron mejorar, hacia la capacidad de acción planificada. “Se trata de una tendencia que Gartner predijo en 2014”, señala Stéphane Roder.

Los primeros casos de uso de estos agentes más o menos autónomos son los “asistentes de aplicaciones”. AI Builders distingue entre dos: asistentes de aplicaciones integrados en suites ofimáticas y aquellos integrados en suites empresariales. “Estamos observando una tendencia básica entre todos los editores de software que ofrecen o ofrecerán estos asistentes de aplicaciones integrando al menos un agente”, comenta el CEO de AI Builders.

Salesforce Agentforce y Microsoft Copilot se destacan entre la multitud

La AI Decision Matrix de AI Builders intenta aclarar el panorama de los asistentes de IA integrados en suites ofimáticas y herramientas empresariales (CRM, ERP, ITSM, etc.)

Para ayudar a las empresas a ver más claramente en esta jungla de rápido crecimiento, la consultora ha elaborado su AI Decision Matrix.

Al igual que el cuadrado mágico de Gartner, AI Builders ha definido cuatro categorías: AI Next Gen, AI Best-In-Class, AI Rising Star y AI Safe Bet. La posición de la solución en ordenadas materializa su desempeño y en abscisas su madurez.

El rendimiento se evalúa en función de la calidad de las respuestas obtenidas, la posible personalización del asistente, la seguridad y la gestión de datos, el número de funcionalidades y la complejidad de las tareas realizadas. La madurez se clasifica según cuatro criterios, a saber, el nivel de implementación de la solución fuente en el mercado, el alcance de las integraciones internas y externas, la facilidad de implementación y uso, así como la escalabilidad.

Las soluciones etiquetadas Next Gen y Rising Star se encuentran a la izquierda de la tabla. Las “estrellas en ascenso” están en desarrollo y, por lo tanto, son ineficaces y poco fiables, pero prometieron ganar terreno en el mercado. Las soluciones de próxima generación se consideran eficientes, pero no muy maduras. La categoría Safe Bet, como su nombre indica, reúne asistentes de alto rendimiento, múltiples usos y más fiables que la media. Se supone que las soluciones “mejores en su clase” son las mejores del mercado y se distinguen por su capacidad de integrarse con el SI existente de las empresas. Los asistentes de aplicaciones de Office están indicados con un punto naranja, mientras que los dedicados a herramientas empresariales están en rojo.

Como resultado, Zia de Zoho, Muse, Konverso y Work Intelligence de Wrike son las “estrellas en ascenso”. Por el contrario, Salesforce Agentforce, Microsoft Copilot, Gemini de Google y Now Assist de ServiceNow son los asistentes más eficientes y maduros. Las soluciones Safe Bet reúnen herramientas de oficina de Dust, Notion AI, así como los asistentes comerciales Agent Lumi, Adobe Sensei y Amazon Q.

Prioridad al desempeño

“En todas las categorías de asistentes, consideramos que Agentforce es la solución más poderosa hasta la fecha”, dijo Dimitri Calmand, analista de datos/IA en AI Builders Research. “En nuestra opinión, lo que marca la diferencia es la capacidad de Agent Builder, que le permite crear sus propios agentes con acciones existentes o adicionales a través de MuleSoft, entre otros, lo que ahorra un tiempo considerable”.

“En todas las categorías de asistentes, consideramos que Agentforce es la solución más poderosa hasta la fecha”.

Dimitri CalmandAnalista de datos/IA, Investigación de constructores de IA

Curiosamente, GitHub Copilot, una de las herramientas de IA generativa más populares entre los desarrolladores, está categorizada como “Próxima Generación”, con Joule de SAP. “Aunque GitHub Copilot es eficaz para generar código y pruebas, su integración en el entorno de programación y su capacidad para ayudar a determinadas tareas específicas de categorías de desarrolladores no son muy avanzadas”, explica Stéphane Roder.

En cuanto a Joule de SAP, “las funcionalidades más avanzadas están previstas para 2025”. Por otro lado, el hecho de que la editorial alemana también esté desarrollando asistentes de agentes sería revelador, según el director general de AI Builders. “Si un actor como SAP empieza a ofrecer agentes, es porque estamos viendo que se está estableciendo un estándar”.

Si un actor como SAP empieza a ofrecer agentes, es porque estamos viendo que se está estableciendo un estándar”.

Stéphane RoderDirector ejecutivo, constructores de IA

También cabe señalar que la empresa sobreponderó determinados criterios de evaluación. Así, en este benchmark se destacan la calidad de las respuestas obtenidas, la complejidad de las tareas realizadas y el alcance de las integraciones. “Estos son los criterios que tendrán el mayor impacto en el ROI de nuestro cliente”, explica Pauline de Lavallade, directora de AI Builders Research. Por el contrario, asegurar soluciones es más complejo de juzgar, ya que a menudo depende de un modelo de responsabilidad compartida. Especialmente porque aún quedan muchas incógnitas sobre cómo proteger las interacciones de los agentes con herramientas de terceros.

Precios: nuevamente, mucha experimentación

La matriz de decisión no parece tener en cuenta el precio de las soluciones. “Los precios del asistente varían según las opciones y los niveles de personalización”, responde Dimitri Calmand. “Varias herramientas, incluidas Gemini y Notion, ofrecen pruebas gratuitas, luego el precio aumenta a unos 20 euros al mes por usuario. Sin embargo, las opciones comerciales más personalizadas aumentan significativamente el costo. Por ejemplo, Copilot para Microsoft 365 tiene un precio de 30 euros al mes por usuario, mientras que Copilot Studio se factura a 200 dólares por 25.000 mensajes al mes”, ilustra.

Además de diferentes precios según los módulos elegidos, Salesforce ofrece a los clientes existentes de Ventas, Servicios, Marketing y Commerce Cloud 1.000 conversaciones gratuitas y 250.000 créditos de datos gratuitos para Data Cloud. Más allá de eso, el gigante del CRM pretende cobrar dos dólares por cada conversación. El gigante del CRM también ofrece otro modelo de precios personalizado.

Para Agentforce Service Agent, proporciona un simulador de ROI teniendo en cuenta el costo de los empleados de servicio al cliente, la cantidad de conversaciones que manejan por día y el volumen de tickets de soporte que se transferirán a Agentforce. Esta herramienta proporcionada a título ilustrativo no tiene en cuenta los costes de implementación, pero tener en cuenta al cliente reducirá parte de su nómina.

“También están los inicios de una economía de agentes verticalizados que se está estableciendo. Algunos agentes serán desarrollados por socios o empresas antes de comercializarse en una App Store”, añade Stéphane Roder.

Un paisaje cambiante

La matriz AI Builders que acaba de ser lanzada se actualizará en seis meses. “Es un mercado que se mueve muy rápido. Las soluciones seguirán evolucionando cada mes, surgirán nuevos actores y las herramientas existentes cambiarán de nombre. Normalmente, en Salesforce, Einstein GPT se ha convertido en Agentforce”, recuerda Pauline de Lavallade.

“Imagínese, nace un proyecto de IA y, una semana después, alguien viene a pedirme una opinión”, exclama Stéphane Roder.

En cualquier caso, los actores citados compiten ferozmente. “Existe el miedo a la desintermediación. Tomemos el ejemplo de Microsoft que quiere conectar su Copilot con todo, incluidos Salesforce y SAP, y Salesforce que se opone a este deseo ofreciendo sus propios agentes”, menciona el CEO de AI Builder. En la conferencia anual Dreamforce, Marc Benioff se mostró vehemente hacia Microsoft.

Además de los LLM o LAM “genéricos”, la consultora prevé la aparición de asistentes universales, encarnados por funciones como el “Uso del ordenador” y sigue de cerca la visión de la “automatización agente” imaginada por UiPath. “El concepto de agentes se está expandiendo a muchas modalidades, pero todavía no hemos estudiado esta parte”, reconoce Stéphane Roder. “Nuestros clientes están menos interesados ​​en estas soluciones que interactúan con los sistemas y siguen siendo técnicamente ineficientes. Estamos en el comienzo mismo de esta capacidad de descomponer el razonamiento”.

-

PREV Casio Computer Co. lanza una recreación del primer G-SHOCK
NEXT El análisis de revisión de Intel Arrow Lake muestra que las CPU Core Ultra 200S son campeones de eficiencia y fracasos en los juegos