Los sistemas de aprendizaje profundo están revolucionando la tecnología que nos rodea, desde el reconocimiento de voz que empareja con su teléfono hasta vehículos autónomos que pueden ver y reconocer más y más obstáculos. Pero gran parte de este éxito incluye prueba y error cuando se trata de las redes de aprendizaje profundo. Un grupo de investigadores del MIT. revisado recientemente sus contribuciones a una mejor comprensión teórica de las redes de aprendizaje profundo, que dirigen el campo en progreso.

«El aprendizaje profundo fue un descubrimiento accidental en algunos aspectos», explica Tommy Poggio, investigador del Instituto McGovern para la Investigación del Cerebro, director del Centro de Cerebros, Mentes y Máquinas (CBMM) y profesor de Eugene McDermott en Ciencias del Cerebro y Cognitivas. . «Todavía no entendemos por qué funciona. Está surgiendo un marco teórico y creo que ahora estamos cerca de una teoría satisfactoria. Es hora de dar un paso atrás y revisar las ideas recientes. «

Escalando montañas de datos

Nuestra era actual se caracteriza por una gran cantidad de datos: datos de sensores económicos de todo tipo, texto, internet y grandes cantidades de datos genómicos generados en las ciencias de la vida. Las computadoras de hoy incorporan estos conjuntos de datos multidimensionales, creando una serie de problemas que el matemático Richard Bellman llama la «maldición de la dimensionalidad».

Uno de estos problemas es que representar una función suave y de alta dimensión requiere una gran cantidad de parámetros astronómicamente. Sabemos que las redes neuronales profundas son particularmente buenas para aprender a mostrar o acceder a datos tan complejos, pero ¿por qué? Comprenda por qué esto podría ayudar a promover aplicaciones de aprendizaje profundo.

«El aprendizaje profundo es como la electricidad después de que Volta descubriera la batería, pero antes de Maxwell», explica Poggio, asesor científico fundador de The Core, MIT Quest for Intelligence e investigador en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT. «Ciertamente, las aplicaciones útiles fueron posibles después de Volta, pero fue la teoría del electromagnetismo de Maxwell, esta comprensión más profunda que luego abrió el camino a la radio, la televisión, el radar, el transistor, las computadoras e Internet».

El tratamiento teórico de Poggio, Andrzej Banburski y Qianli Liao señala por qué el aprendizaje profundo podría superar problemas de datos como «la maldición de la dimensionalidad». Su enfoque comienza con la observación de que muchas estructuras naturales son jerárquicas. Para modelar el crecimiento y desarrollo de un árbol, no es necesario especificar la ubicación de cada rama. En cambio, un modelo puede usar reglas locales para ramificarse jerárquicamente. El sistema visual de primates parece hacer algo similar al procesar datos complejos. Al mirar imágenes naturales, incluidos árboles, gatos y caras, el cerebro integra sucesivamente parches de imágenes locales, luego pequeñas colecciones de parches y luego colecciones de parches.

«El mundo físico es compositivo, en otras palabras, compuesto de muchas interacciones físicas locales», explica Qianli Liao, autor del estudio, y un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y miembro del CBMM. «Esto va más allá de las imágenes. El lenguaje y nuestros pensamientos son compositivos, e incluso nuestro sistema nervioso es compositivo en términos de cómo se conectan las neuronas. Nuestra revisión teóricamente explica por qué las redes profundas representan tan bien esta complejidad. «

La intuición es que una red neuronal jerárquica debería ser mejor para aproximar una función de composición que una sola neurona «baja», incluso si el número total de neuronas es el mismo. La parte técnica de su trabajo identifica lo que significa «mejor aproximación» y demuestra que la intuición es correcta.

Rompecabezas de generalización

Hay un segundo enigma sobre lo que a veces se llama la efectividad irracional de las redes profundas. Los modelos de red profunda a menudo tienen muchos más parámetros que datos para ajustarse a ellos, a pesar de las montañas de datos que producimos hoy. Esta situación debería conducir a lo que se denomina «sobreajuste», donde sus datos actuales se ajustan bien al modelo, pero todos los datos nuevos se ajustan terriblemente al modelo. Esto se llama generalización deficiente en los modelos convencionales. La solución convencional es limitar algún aspecto del procedimiento de montaje. Sin embargo, las redes profundas no parecen necesitar esta limitación. Poggio y sus colegas demuestran que en muchos casos el proceso de capacitación de una red profunda «regulariza» implícitamente la solución, con limitaciones.

El trabajo tiene una serie de implicaciones en el futuro. Aunque el aprendizaje profundo se aplica activamente en el mundo, hasta ahora ha sucedido sin una teoría subyacente integral. Es probable que una teoría de aprendizaje profundo que explique por qué y cómo funcionan las redes profundas y cuáles son sus limitaciones permitirá el desarrollo de enfoques de aprendizaje mucho más potentes.

«A la larga, la capacidad de desarrollar y construir mejores máquinas inteligentes será esencial para cualquier economía basada en la tecnología», explica Poggio. «Después de todo, incluso en su estado actual, aún muy imperfecto, el aprendizaje profundo afecta, o está a punto de afectar, casi todos los aspectos de nuestra sociedad y nuestras vidas».



Source link