DrEureka, un software de código abierto, permite entrenar robots con un sistema de “simulación de la realidad” utilizando ChatGPT-4

-

El Dr. Jim Fan implementó un robot cuadrúpedo Unitree Go1. Con la ayuda de ChatGPT, el perro robot aprendió a caminar sobre una pelota suiza. Un perro robot haciendo equilibrio sobre una pelota de ejercicios es un experimento divertido de ver, pero demuestra que las IA como GPT-4 pueden entrenar robots para realizar tareas complejas en el mundo real de manera mucho más eficiente que los humanos.

ChatGPT es un chatbot desarrollado por OpenAI y lanzado el 30 de noviembre de 2022. Basado en modelos de lenguaje grandes (LLM), permite a los usuarios refinar y dirigir una conversación hacia la duración, formato, estilo, nivel de detalle y lenguaje deseados. Las sucesivas indicaciones y respuestas del usuario se tienen en cuenta en cada etapa de la conversación como contexto.

DrEureka, un nuevo software de código abierto, se utiliza para entrenar robots para que realicen tareas del mundo real utilizando modelos de lenguaje grandes (LLM) como ChatGPT-4. Es un sistema “sim-to-reality”, es decir, entrena a los robots en un entorno virtual utilizando física simulada, antes de implementarlos en el espacio real.

El Dr. Jim Fan, uno de los diseñadores de DrEureka, implementó un robot cuadrúpedo Unitree Go1. Es un robot compatible de código abierto, lo cual es útil, porque incluso con IA, los animales robot siguen siendo susceptibles a sufrir daños por caídas. El “Dr” en DrEureka significa “aleatorización de dominio”, es decir, la aleatorización de variables como fricción, masa, amortiguación, centro de gravedad, etc. en un entorno simulado.

Con algunas indicaciones en un LLM como ChatGPT, la IA puede escribir código que crea un sistema de recompensa/penalización para entrenar al robot en el espacio virtual, donde 0 = fracaso, y cualquier valor superior a 0 es una victoria. Cuanto mayor sea la puntuación, mejor. Elle peut crer des paramtres en minimisant et en maximisant les points d’chec/de rupture dans des domaines tels que le rebond de la balle, la force motrice, le degr de libert des membres et l’amortissement, pour n’en citer que algunos. Como LLM, no tiene problemas en crear estos parámetros en grandes cantidades, para que el sistema de formación pueda funcionar simultáneamente. Después de cada simulación, GPT también puede evaluar el rendimiento del robot virtual y determinar cómo puede mejorar. Exceder o violar parámetros, por ejemplo sobrecalentar un motor o intentar articular una extremidad más allá de sus capacidades, resultará en un 0.

Solicitar a un LLM que escriba código requiere instrucciones de seguridad. El equipo descubrió que GPT se esforzará por lograr el mejor rendimiento posible y “hará trampa” en la simulación sin guía. Esto está bien en una simulación, pero en la vida real podría provocar que los motores se sobrecalienten o que las extremidades se extiendan demasiado, dañando el robot. Los investigadores llaman a este fenómeno el “comportamiento dgnr“.

En un ejemplo de comportamiento antinatural que aprendió por sí solo, el robot virtual descubrió que podía moverse más rápido clavando su cadera en el suelo y usando sus tres pies para correr por el suelo mientras arrastraba su cadera. Si bien esto fue una ventaja en la simulación, resultó en un faceplant improductivo cuando el robot intentó hacerlo en el mundo real.

Por lo tanto, los investigadores pidieron a GPT que tuviera mucho cuidado, teniendo en cuenta que el robot sería probado en el mundo real. En respuesta, GPT creó características de seguridad para cosas como una acción suave, la orientación del torso, la altura del torso y para garantizar que los motores del robot no estuvieran demasiado apretados. Si el robot hace trampa y viola estas configuraciones, su función de recompensa le otorga una puntuación más baja. Las características de seguridad mitigan los comportamientos degenerados y antinaturales, como los empujones pélvicos innecesarios.

¿Cómo se desempeñó el robot? DrEureka venció con éxito a los humanos en el entrenamiento de robots, con una ventaja del 34% en velocidad de avance y del 20% en distancia recorrida en terreno mixto del mundo real. Como es posible ? Según los investigadores, es una cuestión de estilo de enseñanza. Los seres humanos tienden hacia un entorno de enseñanza de estilo curricular: dividen las tareas en pequeños pasos y tratan de explicarlas de forma aislada, mientras que GPT tiene la capacidad de enseñar todo de manera efectiva, de una sola vez.

DrEureka es el primero de su tipo. Es capaz de pasar “sin fisuras” de la simulación al mundo real. Imagínese no tener prácticamente ningún conocimiento práctico del mundo que le rodea, ser expulsado del nido y abandonado a su suerte. Esto se llama “tiro cero”. Los creadores de DrEureka creen que podrían mejorar aún más el entrenamiento en realidad de la simulación si pudieran proporcionar retroalimentación GPT del mundo real. Actualmente, todo el entrenamiento del simulador se realiza utilizando datos de los sistemas de propiocepción del robot, pero si GPT pudiera ver qué salió mal a través de un video real en lugar de simplemente leer el error de ejecución en los registros del robot, podría refinar sus instrucciones de manera mucho más eficiente.

Entrenamos a un perro robot para que se equilibrara y caminara sobre una pelota de yoga solo en una simulación, luego transferimos el punto cero al mundo real. Sin enfoque. Funcionó, eso es todo.

Me complace anunciar a DrEureka, un agente de LLM que escribe código para entrenar las habilidades de simulación de un robot y escribe aún más código para cerrar la difícil brecha entre la simulación y la realidad. Automatiza completamente el proceso desde el aprendizaje de nuevas habilidades hasta la implementación en el mundo real.

La tarea de la pelota de yoga es particularmente difícil porque no es posible simular con precisión la superficie de rebote de la pelota. Sin embargo, DrEureka no tiene problemas para encontrar un amplio espacio de configuraciones entre simulación y realidad, y permite al perro dirigir la pelota en diferentes terrenos, ¡incluso mientras camina de lado!

Tradicionalmente, la transferencia de la simulación a la realidad se logra mediante la aleatorización de dominios, un proceso tedioso que requiere que expertos en robótica humana observen cada parámetro y lo ajusten a mano. Los LLM de vanguardia como GPT-4 tienen toneladas de intuición física incorporada para la fricción, la amortiguación, la rigidez, la gravedad y más. Nos sorprende (ligeramente) descubrir que el Dr.Eureka es capaz de establecer estos parámetros de manera competente y explicar su razonamiento de manera satisfactoria.

DrEureka se basa en nuestro trabajo anterior, Eureka, el algoritmo que le enseña a una mano robótica de cinco dedos a hacer girar un bolígrafo. Va más allá en nuestra búsqueda de automatizar todo el proceso de aprendizaje de los robots a través de un sistema de agentes de inteligencia artificial. Un modelo que produce cuerdas supervisará a otro modelo que produce control de par.

¡Abrimos todo de código abierto!

Y usted ?

¿Cuál es tu opinión sobre el tema?

¿Crees que este método de aprendizaje es creíble o relevante?

Ver también :

El robot móvil ALOHA de Stanford aprende a cocinar, limpiar y lavar la ropa por imitación. Basado en ALOHA de Google DeepMind, mejora el aprendizaje robótico, especialmente la movilidad

Toyota Research anuncia un gran avance en la enseñanza de nuevos comportamientos a los robots con el objetivo de enseñar mil nuevas habilidades para finales de 2024

Un modelo de IA de OpenAI ahora permite que el robot humanoide Figura 01 tenga conversaciones completas con los humanos. También puede almacenar platos y servir comida.

-

PREV Alibaba-La facturación supera las expectativas en el cuarto trimestre con ventas de productos a bajo precio
NEXT Retraso en los recortes de la Fed también podría desacelerar al BCE, dice Wunsch