Aprende a jugar a Minecraft con Video PreTraining (VPT)
Contenido
Hemos entrenado una red neuronal para jugar a Minecraft mediante el preentrenamiento de vídeo (VPT) en un enorme conjunto de datos de vídeo sin etiquetar de juegos humanos de Minecraft, mientras que utilizamos sólo una pequeña cantidad de datos de contratistas etiquetados. El ajuste permite a nuestro modelo aprender a fabricar herramientas de diamante, una tarea que suele llevar a los humanos cualificados más de 20 minutos (24.000 acciones). Nuestro modelo utiliza la interfaz humana natural de las pulsaciones de las teclas y los movimientos del ratón, lo que lo hace bastante general y supone un paso hacia los agentes generales que utilizan ordenadores.
Internet contiene una enorme cantidad de vídeos disponibles públicamente de los que podemos aprender. Puedes ver a una persona hacer una gran presentación, a un artista digital pintar una hermosa puesta de sol o a un jugador de Minecraft construir una intrincada casa. Sin embargo, estos vídeos sólo reflejan lo que sucedió, pero no exactamente cómo se produjo, es decir, no se aprende la secuencia exacta de los movimientos del ratón y los botones pulsados. Si queremos construir modelos de base a gran escala en estos dominios, como hicimos en el lenguaje con GPT, esta falta de etiquetas de acción supone un nuevo reto que no existe en el dominio del lenguaje, donde las “etiquetas de acción” son simplemente las siguientes palabras de una frase.
Para aprovechar la gran cantidad de datos de vídeo sin etiquetar disponibles en Internet, introducimos un novedoso pero sencillo método semisupervisado para el aprendizaje por imitación: Video PreTraining (VPT). Comenzamos recogiendo un pequeño conjunto de datos de contratistas en el que grabamos no sólo su vídeo, sino también las acciones que realizan, en nuestro caso las pulsaciones de las teclas y los movimientos del ratón. Con estos datos, entrenamos un modelo de dinámica inversa (IDM) que predice la acción realizada en cada paso del vídeo. Lo más importante es que el IDM puede utilizar información del pasado y del futuro para adivinar la acción en cada paso. Esta tarea es mucho más sencilla y, por tanto, requiere muchos menos datos que la clonación de comportamientos, que consiste en predecir acciones basándose únicamente en imágenes de vídeo anteriores, lo que requiere saber qué quiere hacer la persona y cómo quiere hacerlo. A continuación, podemos utilizar el IDM entrenado para etiquetar un conjunto de datos mucho mayor de vídeos en línea y aprender la acción mediante la clonación de comportamientos.
Resultados del VPT Zero-Shot
Elegimos validar nuestro método en Minecraft porque (1) es uno de los videojuegos más jugados del mundo y, por lo tanto, cuenta con una gran cantidad de datos de vídeo disponibles de forma gratuita, y (2) proporciona una experiencia abierta con una variedad de tareas, similar a la informática del mundo real. A diferencia de los trabajos anteriores en Minecraft, que utilizan espacios de acción simplificados para facilitar la exploración, nuestra IA utiliza la interfaz humana nativa, mucho más general, pero también mucho más difícil: 20Hz de velocidad de fotogramas con ratón y teclado.
Nuestro modelo clónico de comportamiento (el “modelo base VPT”) ha sido entrenado con 70.000 horas de vídeos online etiquetados por IDM y se encarga de tareas en Minecraft que son casi imposibles de realizar con el aprendizaje por refuerzo desde cero. Aprende a talar árboles para recoger troncos, procesar esos troncos en tablas, y luego procesar esas tablas en una mesa de artesanía. Esta secuencia lleva a un humano que domina Minecraft unos 50 segundos, o 1.000 acciones de juego consecutivas.
Además, el modelo realiza otras habilidades complejas que los humanos suelen realizar en el juego, como nadar, cazar animales y comer esa comida. También ha aprendido la habilidad del “salto de columna”, un comportamiento común en Minecraft en el que te levantas saltando repetidamente y colocando un bloque debajo de ti.
Ajuste con comportamientos de clonación
Los modelos de fundación están diseñados para tener un amplio perfil de comportamiento y son generalmente adecuados para una amplia gama de tareas. Para incorporar nuevos conocimientos o especializarlos a un conjunto más reducido de tareas, es habitual ajustar estos modelos a conjuntos de datos más pequeños y específicos. Como estudio de caso de lo bien que se puede adaptar el modelo de cimentación VPT a conjuntos de datos posteriores, pedimos a nuestros contratistas que pasaran 10 minutos jugando en mundos de Minecraft nuevos y construyendo una casa con materiales sencillos de Minecraft.
Esperábamos que esto mejorara la capacidad del modelo de la fundación para realizar de forma fiable las habilidades del “primer juego”, como la construcción de mesas de artesanía. Cuando se ajusta a este conjunto de datos, no sólo vemos una enorme mejora en la realización de las habilidades del juego temprano que ya están presentes en el modelo de la fundación, sino que el modelo ajustado también aprende a profundizar en el árbol tecnológico haciendo herramientas de madera y de piedra. A veces incluso vemos la construcción rudimentaria de refugios y la búsqueda de comida en el pueblo por parte del agente, incluyendo el saqueo de cofres.
Escala de datos
Quizás la hipótesis más importante de nuestro trabajo es que es mucho más eficaz entrenar un IDM (como parte de la tubería VPT) utilizando datos de contratistas etiquetados que entrenar directamente un modelo de cimientos de BC a partir del mismo pequeño conjunto de datos de contratistas. Para probar esta hipótesis, entrenamos los modelos de la fundación con cantidades crecientes de datos, desde 1 hasta 70.000 horas. Los modelos entrenados con datos de menos de 2.000 horas se entrenan con datos de contratistas con las etiquetas de verdad básica recogidas originalmente para el entrenamiento del IDM. A continuación, tomamos cada modelo de cimentación y lo ajustamos al conjunto de datos de construcción de viviendas descrito en la sección anterior.
A medida que aumenta la cantidad de datos en el modelo de cimentación, la capacidad de producir herramientas de mano generalmente también aumenta, y es sólo con la mayor cantidad de datos que vemos la aparición de la producción de herramientas de piedra.
Ajuste fino con aprendizaje por refuerzo
Si es posible especificar una función de recompensa, el aprendizaje por refuerzo (RL) puede ser un método poderoso para obtener un rendimiento elevado, posiblemente incluso sobrehumano. Sin embargo, muchas tareas requieren la realización de difíciles retos de exploración, y la mayoría de los métodos de RL los abordan con prioridades de exploración aleatorias, es decir, los modelos suelen ser estimulados a comportarse de forma aleatoria por las bonificaciones de entropía. El modelo VPT debería ser una prioridad mucho mejor para la RL, ya que es probable que imitar el comportamiento humano sea mucho más útil que realizar acciones al azar. Le planteamos a nuestro modelo la difícil tarea de recoger un pico de diamante, una habilidad sin precedentes en Minecraft que se hace aún más difícil cuando se utiliza la interfaz humana nativa.
La fabricación de un pico de diamante requiere una larga y complicada secuencia de subtareas. Para que esta tarea sea manejable, recompensamos a los agentes por cada elemento de la secuencia.
Descubrimos que una estrategia RL entrenada sobre la base de una inicialización aleatoria (el método RL por defecto) consigue poca recompensa porque nunca aprende a recoger troncos y rara vez recoge palos. En marcado contraste, el ajuste de un modelo VPT no sólo aprende a hacer puntos de diamante (lo que ocurre en el 2,5% de los episodios de 10 minutos de Minecraft), sino que incluso tiene una tasa de éxito de nivel humano en la recogida de todos los elementos que conducen a un punto de diamante. Es la primera vez que un agente informático es capaz de fabricar herramientas de diamante en Minecraft, lo que a los humanos les lleva más de 20 minutos (24.000 acciones) de media.
@abbdul2340 Está semana estaré más activo, así que se vienen varios vídeos 🤠 || #fypシ #minecrafttutorial #fyp #minecraft #addon #foryou #si #no #tengoshadowban ♬ Minecraft – C418
Conclusión VPT
El VPT facilita que los agentes aprendan a actuar viendo la gran cantidad de vídeos que hay en Internet. En comparación con el modelado de vídeo generativo o los métodos contrastivos, que sólo proporcionarían priores representativos, el VPT ofrece la emocionante posibilidad de aprender directamente priores de comportamiento a gran escala en más dominios que el lenguaje. Aunque sólo estamos experimentando con Minecraft, el juego es muy abierto y la interfaz humana nativa (ratón y teclado) es muy general, por lo que creemos que nuestros resultados son prometedores para otros dominios similares, como la informática.
FUENTE:
Authors
Bowen BakerIlge AkkayaPeter ZhokhovJoost HuizingaJie TangAdrien EcoffetBrandon HoughtonRaul SampedroJeff Clune