Los investigadores de Facebook creen que el juego NetHack está bien ajustado para la capacitación, prueba y evaluación de modelos de IA. Con este fin, hoy lanzaron el entorno de aprendizaje NetHack, una herramienta de investigación para evaluar la solidez y la generalización de los recursos de aprendizaje de refuerzo.

Los juegos han servido como puntos de referencia para la IA durante décadas. Pero realmente comenzó en 2013, el año en que la hija de Google DeepMind demostró un sistema de inteligencia artificial que podía jugar Pong, Breakout, Space Invaders, Seaquest, Beamrider, Enduro y Q * bert a niveles sobrehumanos. Las mejoras no son solo una mejora en el diseño del juego, según personas como el cofundador de DeepMind, Demis Hassabis. Más bien, informan sobre el desarrollo de sistemas que algún día puedan diagnosticar enfermedades y predecir enfermedades complejas. estructuras proteicasy TC de segmento.

Lanzado por primera vez en 1987, NetHack es más sofisticado de lo que se cree. Dirige a los jugadores con más de 50 niveles de mazmorras para recuperar un amuleto mágico, usando cientos de artículos y luchando contra monstruos mientras luchan por las ricas interacciones entre los dos. Los niveles en NetHack se generan de forma procesal, y cada juego es diferente, lo que, según los investigadores de Facebook, limita los límites de generalización de la prueba de inteligencia artificial actual.

Entorno de aprendizaje de Facebook NetHack

VB Transform 2020 en línea – 15-17 de julio. Únase a los principales gerentes de IA: Regístrese para la transmisión en vivo gratis.

NetHack tiene otra ventaja en su arquitectura ligera. Un mundo de arte ASCII por turnos y un motor de juego escrito principalmente en C captura la complejidad. Olvida todo menos la física más simple al representar símbolos en lugar de píxeles, lo cual es importante, permitiendo que los modelos aprendan rápidamente sin desperdiciar recursos computacionales en simular dinámicas o representar observaciones.

De hecho, no tiene precio entrenar modelos avanzados de aprendizaje automático en la nube. De acuerdo con un informe sincronizado recientemente, Grover, de la Universidad de Washington, que está orientado a generar y detectar noticias falsas, costó $ 25,000 para entrenar en el transcurso de dos semanas. OpenAI ganó $ 256 por hora para entrenarlo GPT-2 modelo de idioma y Google gastó un estimado de $ 6,912 en capacitación BERT, un modelo de transformador bidireccional que redefinió el estado del arte para 11 tareas de procesamiento de lenguaje natural.

Por el contrario, una sola tarjeta gráfica de gama alta es suficiente para entrenar a los agentes de NetHack con tecnología de inteligencia artificial cientos de millones de pasos por día con el marco TorchBeast, que admite una mayor escala agregando más tarjetas gráficas o máquinas. Los agentes pueden incluso caminar miles de millones de pasos hacia el medio ambiente en un tiempo razonable, mientras desafían los límites de lo que pueden lograr las técnicas actuales de IA.

Entorno de aprendizaje de Facebook NetHack

«NetHack ofrece un desafío que está al límite de los métodos actuales, sin los costos informáticos de otros entornos de simulación desafiantes. Profundidad estándar [reinforcement learning] los agentes que actualmente trabajan en NetHack están explorando solo una fracción del juego total de NetHack ‘, escribieron los investigadores de Facebook en un papel preimpreso lanzado esta semana. «Se requiere progreso en este nuevo entorno desafiante [reinforcement learning] agentes para ir más allá del aprendizaje tabula rasa. «

El entorno de aprendizaje de NetHack consta de tres componentes: una interfaz de Python para NetHack utilizando la popular API OpenAI Gym, una variedad de tareas de referencia y un agente de referencia. Además, incluye siete tareas de referencia diseñadas para medir el progreso del agente, en particular:

  • Escaleras: desciende a los niveles inferiores de la mazmorra
  • Conjunto: cuida a tu mascota (mantenla viva y llévala más profundo a la mazmorra)
  • Coma: encuentre y coma fuentes de alimentos no tóxicos para evitar la inanición
  • Oro: recoge oro en toda la mazmorra
  • Scout: mira la mayor cantidad de mazmorras que puedas
  • Puntuación: consigue una puntuación alta en el juego (por ejemplo, matar monstruos, descender, recoger oro)
  • Oráculo: alcanza un hito importante, el Oráculo (aparece de 4 a 9 niveles en la mazmorra)

Los coautores señalan que NetHack contiene una gran cantidad de recursos externos que esperan se utilicen para mejorar el rendimiento del agente. Por ejemplo, hay repositorios de datos de reproducción de jugadores humanos de los que un modelo podría aprender directamente, así como fuentes como la oficial. Manual de NetHack, el NetHack Wikiy videos en línea y foros de discusión.

“Creemos que el entorno de aprendizaje de NetHack inspirará más investigación sobre estrategias de exploración robustas en [reinforcement learning], planificando con un horizonte a largo plazo y transfiriendo el sentido común de fuentes externas a la simulación «, escribieron los investigadores. ‘[It] ofrece a los agentes mucha experiencia para aprender, de modo que nosotros, como investigadores, podamos pasar más tiempo probando nuevas ideas en lugar de esperar a que lleguen los resultados. Además, creemos que democratiza el acceso para los investigadores en laboratorios con más recursos sin la dificultad y la riqueza del medio ambiente. «



Source link