Разработчики системы искусственного интеллекта из принадлежащей Google компании DeepMind научили алгоритм преодолевать препятствия в виртуальном мире, подобно любителям паркура, при помощи метода обучения с подкреплением. Препринт статьи, посвященной проекту, был опубликован на сайте ArXiv.org.

Как напоминает N+1, обучение с подкреплением – это один из способов машинного обучения, который подразумевает, что испытуемая система (агент) находится в некоторой среде, о которой у нее нет сведений, но в которой она может совершать определенные действия. Эти действия переводят среду в новое состояние, а агент получает от нее некоторое вознаграждение или штраф. Благодаря постоянной обратной связи система совершенствует свою работу.

В рамках проекта разработчики из DeepMind создали виртуальный мир с разными по сложности препятствиями, в который поочередно помещались три агента: тело с двумя ногами, четвероногий корпус и человекоподобная фигура. Каждая система была наделена проприцепцией (ощущением положения частей собственного тела относительно друг друга и в пространстве) и примитивным зрением. Задача агентов состояла в том, чтобы как можно быстрее добраться из точки А в точку В, а за столкновения с препятствиями агенты получали штрафы.

В итоге алгоритм самостоятельно научился сложным движениям – агенты стали перепрыгивать пропасти, уклоняться от препятствий сверху, взбегать на склоны и даже перепрыгивать барьеры. Оценить результаты работы исследователей можно благодаря видеоролику, опубликованному на YouTube.