Специалисты Центра искусственного интеллекта компании Samsung, используя одну из самых последних тенденций в области искусственного интеллекта — конкурирующе-генерирующее самообучение, создали систему, которая способна «оживить» единственное статическое изображение любого человека, будь это произведение изобразительного искусства или обычная фотография. Основой этой системы является так называемый «лицевой шпион», программа, обученная на множестве изображений, которая умеет выделять глаза, брови, нос, губы, линию подбородка и другие элементы лица человека.
Вторя часть системы, используя данные работы «лицевого шпиона», строит последовательность кадров, из которых формируется видео, на котором «ожившая голова» совершает движения, максимально приближенные к естественным, и даже пытается говорить. Естественно, эта часть системы также прошла через этап предварительного обучения, а исходным материалом для этого являлось множество видеороликов, взятых на бескрайних просторах нынешнего Интернета.
Синтезирующая часть системы состоит из нескольких взаимосвязанных нейронных сетей. Сеть Embedder берет исходные данные от «лицевого шпиона» и подбирает подходящие векторы движения, основываясь на данных первоначального обучения. А нейронная сеть Generator на основе данных, подготовленных сетью Embedder, производит короткие видеоролики с «ожившими» лицами, которые перемещаются по выбранным векторам движения.
Третья нейронная сеть, Discriminator, отвечает за конкурирующие взаимоотношения в системе, она «смотрит» на получившееся видео, сгенерированное сетью Generator, и вычисляет его отличия от реальных видео, на которых проводилось обучение системы. И если видео не устраивает сеть Generator по каким-то критериям, она отвергает его, побуждая сети Embedder и Generator начать работу заново, двигаясь при этом по несколько иному пути.
Все три нейронные сети сначала делают свою работу очень плохо, но, после нескольких миллионов циклов, накопив соответствующий опыт, работа сетей становится все лучше и лучше. А побудителем этого улучшения работы является сеть Discriminator, которая отслеживает, чтобы каждое последующее видео по качеству превосходило результат предыдущей попытки.
В результате слаженной работы трех нейронных сетей простые статические изображения превращаются в достаточно качественные живые видеоролики. На приведенном ниже видеоролике можно увидеть самые впечатляющие результаты работы системы искусственного интеллекта, которая заставила двигаться портреты Мэрилин Монро, Сальвадора Дали, Распутина и Эйнштейна.