Nvidia y Google anunciaron el miércoles que realizaron una serie de pruebas llamadas MLPerf para ser el más grande y mejor en hardware y software para realizar tareas comunes de inteligencia artificial.

El diablo está en los detalles, pero el desempeño de ambas compañías muestra que la tendencia en IA sigue siendo la de los esfuerzos de aprendizaje automático cada vez más grandes respaldados por computadoras más musculosas.

Las pruebas de referencia nunca están exentas de controversia, y algunos de los competidores iniciales de Nvidia y Google, especialmente Cerebras Systems y Graphcore, han seguido evitando la competencia de referencia.

En el resultados anunciados el miércoles A través de la organización MLPerf, un consorcio de la industria que gestiona las pruebas, Nvidia logró altas calificaciones en todos los ámbitos para una variedad de tareas de capacitación de aprendizaje automático, lo que significa que las actividades informáticas son necesarias para desarrollar una red neuronal de aprendizaje automático desde cero. El resumen completo de resultados se puede ver en forma de hoja de cálculo.

La segunda fase del aprendizaje automático, cuando esas redes capacitadas se utilizan para hacer predicciones en tiempo real conocidas como inferencia, se cubrirá en una competencia separada que se publicará más adelante este año. Históricamente, los resultados de los partidos se han revelado una vez por trimestre, pero la pandemia de COVID-19 ha destruido el calendario habitual. Los resultados actuales fueron presentados por los proveedores en junio y representan la primera vez que se publica el índice de referencia este año.

Es necesario hacer una distinción con respecto a los puntos principales de Nvidia: eran para sistemas disponibles comercialmente. Otra categoría de presentación es para sistemas que tienen el estado del proyecto de investigación, lo que significa que no están disponibles para el uso de los clientes. El chip local de Google, la Unidad de procesamiento de tensor o TPU, es uno de esos proyectos de investigación. Superó los resultados de Nvidia para la mayoría de las tareas en la prueba MLPerf, al considerar los resultados comerciales y de investigación.

Los resultados marcaron la primera vez que Nvidia informó estadísticas que pueden evaluar la ventaja de rendimiento relativo de su último chip, el A100, que se dio a conocer en mayo. El director senior de gestión de productos de Neshidia, Paresh Kharya, enfatizó en los comentarios preparados que la disponibilidad comercial del chip de Nvidia fue significativa, diciendo que mostró la rápida transición del debut del chip a los sistemas de envío.

nvidia-touts-gain-over-google-in-mlperf-training-july-2020.png

«Para las soluciones disponibles comercialmente, un requisito muy estricto es que tanto el hardware como todo el software y todos los componentes deben estar disponibles para los clientes con prueba de uso de terceros», dijo Kharya.

Kharya centró su presentación en comparar cómo los sistemas construidos a partir de numerosos procesadores Nvidia eran más rápidos que los sistemas de producción de Google que usaban TPU.

Por ejemplo, le tomó a Nvidia aproximadamente 49 segundos entrenar una versión de la red neuronal BERT en lenguaje natural con 2,048 chips A100 trabajando juntos, una computadora que Nvidia llama su SuperPOD. Menos tiempo es mejor con tales pruebas. Nvidia señaló que una máquina de Google que está disponible comercialmente en el servicio en la nube de Google y utiliza 16 chips de TPU tomó casi 57 minutos para la misma tarea.

Sin embargo, uno de los proyectos de investigación de Google, con 4.096 chips de TPU, logró el máximo resultado absoluto del entrenamiento BERT, solo unos 23 segundos. Un rendimiento aún mejor es posible con la cuarta versión del TPU de Google, que aún no está en producción con los clientes.

«MLPerf sirve para varios propósitos, uno de los cuales es explorar los límites externos absolutos del rendimiento», dijo a ZDNet Zak Stone, gerente de productos de Google para Cloud TPU.

«Una de las formas en que lo hemos hecho aquí es construir la supercomputadora de entrenamiento más rápida del mundo», refiriéndose al sistema de 4.096 TPU.

Si bien ese sistema es un proyecto de investigación, algunas de las innovaciones que lo han hecho posible están disponibles para los clientes del servicio en la nube de Google, dijo. Por ejemplo, una implementación de un algoritmo de detección de objetos popular, Mask R-CNN, estará disponible para todos los clientes para su uso en los sistemas actuales. Ese software ayudó a Google a reducir el tiempo para entrenar el reconocimiento de objetos de 35 minutos a solo 8 minutos.

Contando en sus proyectos de investigación, Google obtuvo los mejores resultados en seis de las ocho tareas en general, señaló Stone.

Otros proveedores que participaron en la prueba de referencia incluyeron Intel, cuyos procesadores Xeon se enumeraron en una categoría llamada vista previa. Si bien se espera que los procesadores estén disponibles comercialmente, aparecerán en vista previa si no llegaron a tiempo para la entrada al concurso. También fueron competitivos los procesadores del gigante chino de telecomunicaciones Huawei, el chip Ascend 910, que había sido presentado por el Instituto Shenzen de Tecnología Avanzada de la Academia de Ciencias de China.

google-tpuv4-speed-up-versus-v3-29-July-2020.png

Nvidia dominó claramente la categoría comercial, con múltiples proveedores que ofrecen resultados de rendimiento utilizando la A100 de la compañía, incluidos Dell EMC, el gigante de búsqueda chino Alibaba, Fujitsu, Chinese Tencent, el proveedor chino de servicios en la nube Inspur e incluso el propio Google.

Ni Cerebras, con sede en Los Altos en Silicon Valley, no lejos de la sede de Santa Clara en Nvidia, ni Graphcore, de Bristol, Reino Unido, participaron en la competencia. Ambos han hecho el afbak cada vez. En el pasado, le dijeron a ZDNet que la estructura de la competencia no refleja el trabajo real en el que están interesados ​​sus clientes.

«No trabajamos en MLPerf por un minuto, trabajamos en clientes reales», dijo el CEO de Cerebras, Andrew Feldman, a ZDNet el año pasado. Cerebras dio a conocer el chip de computadora más grande que se haya fabricado en agosto pasado y lo siguió con un sistema informático y software especiales.

Graphcore, que pasó de los chips a los sistemas, expresó preocupaciones similares y dijo que MLPerf tendía a estar dominado por pruebas de IA más antiguas, como ResNet, lo que hacía que las pruebas fueran menos relevantes.

Graphcore le dijo a ZDNet esta semana que espera participar en el futuro cuando MLPerf cambie de forma bajo el liderazgo de un grupo directivo conocido como ML Commons, una organización sin fines de lucro de la industria 501C6.

En respuesta a las críticas de Cerebras y Graphcore, David Kanter, jefe de MLPerf, comentó a ZDNet que indudablemente hay desacuerdos sobre qué probar. El punto de referencia debe encontrar un equilibrio.

«Muchos de estos puntos de referencia se han hecho lo más representativos posible, pero ser representativo también significa que no es una coincidencia exacta», dijo Kanter. «Si quieres que sea general, probablemente no sea exactamente lo que haces o yo hago», dijo, refiriéndose a varias tareas.

«MLPerf generalmente es altamente capaz de realizar mejoras en todas las plataformas, en una variedad de cargas de trabajo que rastrean las cargas de trabajo reales representativas de la industria y la academia», dijo Stone de Google.

Kanter, de MLPerf, señaló que la suite de referencia continúa evolucionando. Los resultados anunciados hoy fueron la primera vez que se incluyó como prueba la red neuronal de lenguaje natural BERT. Otra prueba agregada es un motor de recomendación comercial en línea llamado DLRM, que significa Modelo de recomendación de aprendizaje profundo. Una prueba existente basada en el aprendizaje de refuerzo llamada Mini-Go se ha ampliado para ser más desafiante. Ahora está probando el rendimiento en un tablero cuadrado de 19 por 19 del viejo juego de estrategia Go.

Kanter dijo que un nuevo paso importante esta vez fue que MLPerf, por consejo de una junta asesora académica y de la industria, eligió agregar DLRM a las pruebas.

«Tuvimos personas en todas partes que se involucraron y nos aconsejaron que esto se trata de lo que quieres, mientras que otras cosas están demasiado lejos, la gente no lo usa en la producción», dijo.

Google’s Stone primero elogió la inclusión de DLRM. «Creo que es representativo de dónde van los algoritmos centrales de muchas compañías en línea».

Parte de la afirmación sobre lo que debe ser MLPerf se relaciona con la complejidad del punto de referencia. No es solo una medida de chips, sino una medida de cuántos elementos se unen para formar un sistema informático.

«MLPerf tiene un componente de software muy importante», dijo Kanter a ZDNet.

«Una solución típica de MLPerf tiene un compilador, una biblioteca matemática, una biblioteca de álgebra lineal, puede tener una biblioteca de agrupamiento, su controlador de acelerador, un marco, ¡y esa no es una lista exhaustiva!»

MLPerf encuentra las cosas realmente relevantes para medir a lo largo de todas esas vías de innovación, dijo Kanter.

«Todos somos realistas y entendemos que las personas realmente optimizarán los puntos de referencia como un punto de orgullo y como un punto de marketing, pero queremos que esas optimizaciones sean valiosas para el mundo en general», dijo.

Un área interesante que queda fuera de las mediciones es el costo y los factores de energía de varios chips y computadoras. Por ejemplo, ¿una máquina que realiza una tarea con 1024 chips es necesariamente más costosa o necesita más energía que un sistema con la mitad de chips?

Pero MLPerf está diseñado para capturar el rendimiento bruto, no dice nada sobre la energía consumida por el sistema de un proveedor, ni sobre el costo del producto. Por lo tanto, la economía y el beneficio medioambiental no se pueden comparar.

«La eficiencia energética es una consideración muy importante para los clientes», dijo Kharya de Nvidia a ZDNet. «Esperamos trabajar con MLPerf para incluir algunas de estas métricas en futuros puntos de referencia».

«Creo que sería genial tener comparaciones de costos autorizadas para el usuario, como lo hacemos con el rendimiento», dijo Stone de Google. «No quiero hablar en nombre de la comunidad; el proceso comunitario debe buscar las pautas correctas «.

La medición de la eficiencia energética, como los ciclos de instrucción por vatio de energía consumida, se complica por la gran escala de los diferentes sistemas que participan en la competencia, dijo Kanter a ZDNet. Comparar la economía de diferentes sistemas es aún más difícil, dijo.

«La forma en que las cosas tienen un precio en la nube y en la ubicación es muy diferente», señaló. «Es un verdadero desafío» comparar los costos efectivos.

Una tendencia clara entre los proveedores es que el hardware cada vez más grande será la norma en el futuro cercano. Cosas que una vez tomaron días, semanas, años se pueden hacer en un instante. La máquina de Google con 4.096 TPU solo tardó 28 segundos en entrenar a la venerable red neuronal ResNet para clasificar las imágenes según la tarea común de ImageNet. Hace menos de 77 segundos hace un año para obtener el mejor resultado.

De hecho, máquinas mucho más grandes pueden manejar modelos de software de aprendizaje automático mucho más grandes y ambiciosos, como el modelo de lenguaje GPT-3 de OpenAI, que se está acercando más que nunca a crear frases de lenguaje natural realistas.

«No creo que podamos ignorar la gran tendencia en la comunidad de investigación hacia modelos muy grandes», dice Stone de Google.

«No digo que la escala ciega sea suficiente», agregó. «Pero la capacidad más amplia de las supercomputadoras cada vez más grandes es el requisito previo para que estos brillantes equipos de investigadores exploren incluso hipótesis, es la nueva línea de base».

«Definitivamente es una dimensión que puedes impulsar», dijo Kanter de MLPerf sobre la construcción de sistemas más grandes.

«Desde un tour de force puramente técnico, es increíblemente interesante, pero hay que mirar todo el universo de los sistemas de aprendizaje automático», dijo. «Algunos usuarios dirán que tengo cuatro aceleradores en mi escritorio y puedo pagar eso».

«Queremos servir a ambos rincones del paisaje igualmente bien».



Source link