Организация MLPerf, которая проводит комплекс из семи тестов, ставших стандартом де-факто для тестирования систем искусственного обучения, недавно обновила свой рейтинг. И абсолютным лидером в этом рейтинге стала компания NVidia, известная всем как ведущий мировой производитель графических видеокарт и процессоров. Суперкомпьютерная система NVidia, основой которой являются графические ускорители A100, побила все 16 имеющихся рекордов. Но, справедливости ради стоит отметить, что в некоторых категориях компания NVidia была единственным участником, хотя в других категориях соперниками NVidia были такие известные компании, как Alibaba, Dell, Fujitsu, Google и Tencent.
Рейтинг MLPerf поддерживается консорциумом, в который входят как самые значительные «игроки» в области искусственного интеллекта, компании Facebook, Tencent, Google, так и компании-стратапы Cerebras, Mythic и Sambanova. Проводимые тесты основаны на измерении времени, которые требуются компьютеру для обучения нейронных сетей до уровня необходимой точности выдаваемых ими результатов. Отметим, что с момента публикации предыдущего варианта рейтинга MLPerf в 2019 году, производительность систем-лидеров увеличилась в среднем в 2.7 раза.
В нынешнем списке тестов MLPerf, по отношению к предыдущему, появилось два новых теста — BERT и DLRM. Тест BERT (Bi-directional Encoder Representation from Transformers) основан на алгоритмах, интенсивно использующихся в задачах обработки естественного языка, таких, как переводы текстов, поиск, восприятие информации, ответы на вопросы и генерация новых текстов. Нейронные сети, задействованные в этом тесте, прошли обучение на данных Википедии. Отметим, что с этим тестом суперкомпьютер NVidia справился за 0.81 минуты. Более лучший результат, по имеющейся информации, 0.39 минуты, демонстрирует только экспериментальная система компании Google, построенная на специализированных тензорных процессорах (Tensor Processing Unit, TPU) и использующаяся для проведения внутренних научно-исследовательских работ, которая, по понятным причинам, не принимает участия в рейтинге MLPerf.
Второй новый тест DLRM (Deep Learning Recommendation Model), работает на основе алгоритмов, использующихся в системах онлайн-торговли, обработки результатов поиска и в работе некоторых рейтинговых функций социальных сетей. Нейронные сети, используемые в этом тесте, обучались на специализированном наборе данных о кликах четырех миллиардов пользователей за 24-дневный период, объем которого равен одному терабайту и который был подготовлен компанией Criteo AI Lab. Суперкомпьютеру NVidia для обучения нейронной сети потребовалось 3.3 минуты времени и, как в случае предыдущего теста, экспериментальная система компании Google показала лучший результат в 1.2 минуты.
Помимо введения двух новых тестов, были повышены уровни сложности и некоторых других тестов, в частности теста Mini-Go, который заключается в игре Go на малой доске, размером 19 на 19 клеток. «Это один из самых сложных тестов» — рассказывают представители компании NVidia, — «Компьютеру надо одновременно уметь и играть в Go, обрабатывать поступающие от игрового процесса данные и обучать на основе этих данных нейронную сеть. Сложность заключается в том, что сеть обучается не на каком-то заранее подготовленном наборе данных, а на динамически создаваемом наборе, который пополняется по мере продвижения выполнения задачи».
Метод самообучения, использующийся в тесте Mini-Go, имеет название Reinforcement Learning и он имеет важное значение для области робототехники, где при его помощи роботы смогут самостоятельно обучаться выполнению новых задач без риска нанесения вреда расположенному рядом оборудованию или людям. В этом тесте конкуренцию суперкомпьютеру компании NVidia составила система компании Intel (409 минут) и, снова, экспериментальная система компании Google (160 минут).
И в заключение отметим, что суперкомпьютером компании NVidia, который проходил тесты MLPerf, является система Selene, построенная на базе архитектуры DGX SuperPOD. Эта система занимает 7-ю позицию в рейтинге самых мощных суперкомпьютеров Top500, и она является второй по мощности суперкомпьютерной системой индустриального назначения в мире на сегодняшний день.