La mayoría de los camiones de bomberos son rojos, pero no es difícil imaginar uno azul. Las computadoras no son tan creativas.

Su comprensión del mundo, a menudo literalmente, está coloreada por los datos que capacitaron. Si solo han visto fotos de camiones de bomberos rojos, están luchando para dibujar cualquier otra cosa.

Para dar a los modelos de visión por computadora una visión más completa e imaginativa del mundo, los investigadores han tratado de darles imágenes más variadas. Algunos han intentado disparando objetos desde ángulos extraños y en posiciones inusuales, para transmitir mejor su complejidad del mundo real. Otros han pedido a los modelos que generen sus propias fotos utilizando una forma de inteligencia artificial llamada GAN, o redes hostiles generativas. En cualquier caso, el objetivo es llenar los vacíos en los conjuntos de datos de imágenes para representar mejor el mundo tridimensional y hacer que los modelos de reconocimiento de caras y objetos sean menos sesgados.

En un nuevo estudio En la conferencia internacional sobre representaciones de aprendizaje, los investigadores del MIT presentan una especie de prueba de creatividad para ver qué tan lejos pueden llegar las GAN para obtener una imagen en particular. Ellos ‘envían’ el modelo al sujeto de la foto y le piden que dibuje objetos y animales de cerca, con luz brillante, rotados en el espacio o en diferentes colores.

Las creaciones del modelo varían en formas sutiles, a veces sorprendentes. Y resulta que esas variaciones siguen de cerca lo creativos que fueron los fotógrafos humanos al enmarcar las escenas frente a sus lentes. Esos prejuicios están arraigados en el conjunto de datos subyacente y el método de dirección propuesto en el estudio pretende hacer visibles esas limitaciones.

«El espacio latente es donde se encuentra el ADN de una imagen», dijo el coautor del estudio Ali Jahanian, investigador científico en el MIT. “Mostramos que puede dirigirse a este espacio abstracto y determinar qué propiedades desea que exprese la GAN hasta cierto punto. Notamos que la creatividad de un GAN está limitada por la diversidad de imágenes de las que aprende. Jahanian participa en el estudio de la coautora Lucy Chai, estudiante de doctorado en el MIT y autora principal Phillip Isola, de Bonnie en Marty (1964) Tenenbaum CD Profesor asistente de ingeniería eléctrica y ciencias de la computación.

Los investigadores aplicaron su método a las GAN que ya habían sido capacitadas en 14 millones de imágenes de ImageNet. Luego midieron hasta dónde podían llegar las modelos transformando diferentes clases de animales, objetos y escenas. Descubrieron que el nivel de toma de riesgos artísticos variaba mucho según el tipo de tema que la GAN intentaba manipular.

Por ejemplo, un globo de aire caliente ascendente causó poses más llamativas que, por ejemplo, una pizza retorcida. Lo mismo era cierto para alejarse de un gato persa en lugar de un petirrojo, con el gato derritiéndose en una pila de pieles mientras se alejaba del espectador mientras el pájaro permanecía prácticamente sin cambios. Afortunadamente, el modelo coloreó un auto azul y una medusa roja, pensaron, pero se negó a dibujar un jilguero o un camión de bomberos en algo que no sean sus colores estándar.

Las GAN también parecían sorprendentemente bien combinadas con algunos paisajes. Cuando los investigadores aumentaron la claridad en una serie de fotos de montaña, el modelo agregó caprichosamente erupciones ardientes al volcán, pero no un pariente dormido geológicamente mayor en los Alpes. Es como si las GAN encendieran las luces cuando el día se convierte en noche, pero parecen entender que solo los volcanes se vuelven más brillantes por la noche.

Los investigadores dicen que el estudio recuerda cuán profundo el resultado de los modelos de aprendizaje profundo depende de su entrada de datos. Las GAN han llamado la atención de los investigadores de inteligencia por su capacidad de extrapolar datos y visualizar el mundo de formas nuevas e ingeniosas.

Pueden tomar un tiro en la cabeza y convertirlo en un retrato en estilo renacentista o celebridad favorita. Pero aunque las GAN pueden aprender detalles sorprendentes por sí mismos, como cómo dividir un paisaje nubes y arboleso generar imágenes permanecer en la mente de las personas, siguen siendo principalmente esclavos de datos. Sus creaciones reflejan los prejuicios de miles de fotógrafos, tanto en lo que eligieron fotografiar como en la forma en que enmarcaron su tema.

«Lo que me gusta de este trabajo es que muestra las representaciones que GAN ha aprendido y lo empuja a revelar por qué tomó esas decisiones», dijo Jaakko Lehtinen, profesor de la Universidad de Aaalto en Finlandia e investigador. en NVIDIA que no participó en el estudio. «Las GAN son increíbles y pueden aprender todo tipo de cosas sobre el mundo físico, pero aún no pueden mostrar imágenes de formas físicamente significativas, como los humanos».



Source link