Ученые из Университета Карнеги-Меллон и сотрудники компании Google представили новый подход к обучению роботов, предусматривающий использование дополнительных роботов, которые мешают обучающимся роботам и вынуждают их совершенствоваться. Препринт статьи, посвященной исследованию, был опубликован на сайте arXiv.org.
Как пишет N+1, в настоящее время роботов зачастую учат осваивать какие-либо действия при помощи машинного обучения, а представители Google не первый год занимаются обучением роборук захвату различных предметов. В частности, один из предложенных ими методов обучения предусматривал использование нескольких роботов, которые параллельно выполняли похожую задачу и отсылали на сервер данные о ее выполнении, которые помогали улучшить нейросеть. Благодаря такому параллельному накоплению опыта роботы обучались в несколько раз быстрее, чем один робот.
В новой работе исследователи опробовали иной подход к обучению роборуки надежному захвату предметов. Во-первых, после захвата робот тряс объект, чтобы проверить, насколько крепко он удерживается манипулятором. Второе и главное изменение заключалось в том, что в систему был добавлен робот-соперник, который пытался выхватить предмет из первой руки. Причем, как и основная, захватывающая рука, он также был подключен к самообучающейся нейросети.
Когда соперничающая рука отбирала предмет у захватывающей, обе системы получали опыт: одна из них положительный, а другая отрицательный. Таким образом, исследователи, по сути, воспроизвели классическое противоборство щита и меча, которое в конечном итоге значительно увеличило эффективность обеих систем. Так, после обучения с соперничеством доля успешных захватов возросла с 68% до 82%.
Напомним, что недавно немецкая компания Festo, занимающаяся разработкой и производством промышленного оборудования, представила пневматический манипулятор OctopusGripper, который представляет собой короткое силиконовое щупальце, способное захватывать предметы разной формы, обвиваясь вокруг них и используя для удержания активные и пассивные присоски.