0

Quake и аркады Atari заставили ИИ Google учиться в 10 раз быстрее

Quake и аркады Atari заставили ИИ Google учиться в 10 раз быстрее
DeepMind, подразделение Google, ответственное за создание AI AlphaGo, обыгравшего корейского чемпиона по Го, добилось новых блестящих результатов. В недрах Google создано тренировочное окружение DMLab-30: это смесь из аркадных принципов 57-ми классических игр Atari, помещённая в трёхмерное пространство, изготовленное на движке Quake III. Понятно, что в таком месте тренируется ИИ, а не люди, и машинное обучение уже ускорилось в 10 раз.

DMLab-30 - само окружение, а действующая в ней новая система называется IMPALA. Она делит единый AI на нескольких “про-игроков” и “новичков”, причём информация от всех поступает в качестве опыта центральному “мозгу”.

Раньше ИИ учились по старинке: как один геймер, проходящий одну игру. Теперь играет сразу порядка 30-ти “человек”, они помогают друг другу, а учится и растёт при этом один. В принципе, DM-Lab доступна и обычному homo sapiens, однако простой смертный в этом лабиринте для искусственного интеллекта теряется.

При первых пробежках AI тоже чувствует себя не лучшим образом. Присутствуют характерные дёрганые движения - это ИИ оптимизирует свой маршрут. Вспомните первых сложных ботов из Counter Strike - они тоже смешно дёргались, а затем ставили безошибочные машинные хэдшоты.

Понятное дело, что после каких-то 100 000 пробежек в лабиринтах DM-Lab 30 машина создаст идеальные, выверенные до микрона маршруты, которые не сможет повторить даже лучший в мире спидраннер. Однако здесь важно отметить, что искусственный интеллект от Google пока что не смог обыграть бота в Starcraft 2 даже на самом низком уровне сложности.

Чёткие аркадные принципы времён Atari и лабиринт из Quake - это одно. А полная свобода действий, туман войны, тысячи стратегий и миллионы вариантов размещения зданий с юнитами - это совсем другое. В среде с минимумом рамок и с огромным количеством неизвестных данных (для чистоты эксперимента туман войны для AI не отключается) машина пока что теряется.

Самая большая проблема для разработчиков AI заключается в том, что на обучение нейросети приходится расходовать чудовищное количество времени и математических мощностей. Нейросеть нельзя просто запрограммировать даже на действия в замкнутой среде вроде DM-Lab: ей нужно выдать чёткий набор правил, с которыми она будет долгое время экспериментировать, и лишь затем пытаться принимать ответственные решения.

Оправданность столь осторожного подхода легко объяснить на конкретном примере. Автономные автомобили. Сегодня тестовые образцы уже ездят по шоссе, но добиться этого было нелегко. Если бы такие машины сразу выпустили “на волю” без миллионов часов симуляции, они бы считали, что объехать пробку через стеклянный первый этаж торгового центра - это абсолютно нормально.

В этом плане IMPALA существенно поможет в обучении любых нейросетей, которые могут потенциально навредить человеку или же имуществу. IMPALA обрабатывает 250 тысяч кадров информации в секунду, или 21 миллиард кадров в день. На данный момент это самая мощная в мире программа по обучению AI. Так что будьте спокойны: первые роботы под управлением нейросетей станут обращаться с человеком как с пушинкой.

Также по теме