Новый алгоритм, разработанный исследователями из MIT CSAIL, помогает роботам самостоятельно практиковать навыки. В ходе экспериментов он направлял четвероногое животное, подметая и расставляя различные предметы. Авторы: Алекс Шиппс/MIT CSAIL
Фраза «практика — путь к совершенству» обычно применяется к людям, но это также отличный афоризм для роботов, недавно развернутых в незнакомых условиях.
Представьте себе робота, прибывшего на склад. Он поставляется с навыками, которым его обучили, например, размещением предметов, и теперь ему нужно взять предметы с полки, с которой он не знаком. Сначала машина с этим борется, так как ей нужно познакомиться с новым окружением. Чтобы улучшиться, роботу нужно понять, какие навыки в рамках общей задачи ему нужно улучшить, а затем специализировать (или параметризовать) это действие.
Человек на месте мог бы запрограммировать робота для оптимизации его производительности, но исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Института искусственного интеллекта разработали более эффективную альтернативу. Представленный на конференции Robotics: Science and Systems в прошлом месяце, их алгоритм «Estimate, Extrapolate, and Situate» (EES) позволяет этим машинам практиковаться самостоятельно, потенциально помогая им совершенствоваться в полезных задачах на заводах, в домашних хозяйствах и больницах.
Исследование опубликовано на сервере препринтов arXiv.
Оценка ситуации
Чтобы помочь роботам улучшить такие действия, как подметание полов, EES работает с системой зрения, которая определяет и отслеживает окружение машины. Затем алгоритм оценивает, насколько надежно робот выполняет действие (например, подметание) и стоит ли практиковаться больше. EES прогнозирует, насколько хорошо робот сможет выполнить общую задачу, если он отточит этот конкретный навык, и, наконец, практикуется. Затем система зрения проверяет, был ли этот навык выполнен правильно после каждой попытки.
EES может пригодиться в таких местах, как больница, фабрика, дом или кофейня. Например, если вы хотите, чтобы робот убрался в вашей гостиной, ему понадобится помощь в отработке навыков, таких как подметание. Однако, по словам Нишанта Кумара SM '24 и его коллег, EES может помочь этому роботу улучшиться без вмешательства человека, используя всего несколько практических испытаний.
«Приступая к этому проекту, мы задавались вопросом, будет ли возможна такая специализация при разумном количестве образцов на реальном роботе», — говорит Кумар, соавтор статьи, описывающей работу, аспирант в области электротехники и компьютерных наук и филиал CSAIL.
«Теперь у нас есть алгоритм, который позволяет роботам значительно улучшить определенные навыки за разумное время с десятками или сотнями точек данных, что является улучшением по сравнению с тысячами или миллионами образцов, которые требуются стандартному алгоритму обучения с подкреплением».
См. Spot sweep
Способность EES к эффективному обучению была очевидна при внедрении на четвероногом роботе Boston Dynamics Spot во время исследовательских испытаний в Институте ИИ. Робот, у которого к спине прикреплена рука, выполнил задачи по манипуляции после нескольких часов практики. В одной из демонстраций робот научился надежно размещать мяч и кольцо на наклонном столе примерно за три часа.
В другом алгоритме алгоритм помогал машине лучше выметать игрушки в мусорное ведро примерно за два часа. Оба результата представляют собой обновление по сравнению с предыдущими платформами, на выполнение каждой задачи которых, вероятно, уходило бы более 10 часов.
«Мы стремились заставить робота собирать собственный опыт, чтобы он мог лучше выбирать, какие стратегии будут работать. хорошо в своем развертывании», — говорит соавтор Том Сильвер SM '20, доктор философии. 24 года, выпускник электротехники и информатики (EECS) и член CSAIL, сейчас работает доцентом в Принстонском университете.
«Сосредоточившись на том, что знает робот, мы стремились ответить на ключевой вопрос: какой из имеющихся у робота навыков будет наиболее полезен для практики прямо сейчас?»
EES в конечном итоге может помочь оптимизировать автономную практику для роботов в новых условиях развертывания, но на данный момент она имеет несколько ограничений. Для начала они использовали столы, которые располагались низко над землей, что позволяло роботу легче видеть свои объекты.
Кумар и Сильвер также напечатали на 3D-принтере прикрепляемую ручку, которая облегчила захват щетки для Спотта. Робот не обнаружил некоторые предметы и определил объекты в неправильных местах, поэтому исследователи посчитали эти ошибки неудачами.
Дать роботам домашнее задание
Исследователи отмечают, что скорость практики от физических экспериментов можно было бы еще больше ускорить с помощью симулятора. Вместо того чтобы физически работать над каждым навыком автономно, робот в конечном итоге мог бы объединить реальную и виртуальную практику. Они надеются сделать свою систему быстрее с меньшей задержкой, проектируя EES для преодоления задержек визуализации, с которыми столкнулись исследователи. В будущем они могут исследовать алгоритм, который рассуждает о последовательностях попыток практики вместо того, чтобы планировать, какие навыки нужно отточить.
«Предоставление роботам возможности учиться самостоятельно одновременно невероятно полезно и чрезвычайно сложно», — говорит Данфей Сюй, доцент Школы интерактивных вычислений в Технологическом институте Джорджии и научный сотрудник NVIDIA AI, который не принимал участия в этой работе.
«В будущем домашние роботы будут продаваться в самых разных домах и, как ожидается, будут выполнять широкий спектр задач. Мы не можем заранее запрограммировать все, что им нужно знать, поэтому очень важно, чтобы они могли учиться на работе. Однако , позволить роботам исследовать и учиться без руководства может быть очень медленно и привести к непредвиденным последствиям.
«Исследование Сильвера и его коллег представляет алгоритм, который позволяет роботам практиковать свои навыки автономно в структурированном виде. Это большой шаг на пути к созданию домашних роботов, которые могут непрерывно развиваться и совершенствоваться самостоятельно».
Соавторами Сильвера и Кумара являются исследователи Института искусственного интеллекта Стивен Пру и Дженнифер Барри, а также четыре члена CSAIL: аспирант Северо-Восточного университета и приглашенный исследователь Линьфэн Чжао, аспирант MIT EECS Вилли МакКлинтон и профессора MIT EECS Лесли Пак Кельблинг и Томас Лосано-Перес. Их работа была частично поддержана Институтом искусственного интеллекта, Национальным научным фондом США, Управлением научных исследований ВВС США, Управлением военно-морских исследований США, Исследовательским управлением армии США и MIT Quest for Intelligence с использованием высокопроизводительных вычислительных ресурсов MIT SuperCloud и Суперкомпьютерного центра Lincoln Laboratory.
Дополнительная информация: Нишант Кумар и др., Практика делает совершенным: планирование политик параметров навыков обучения, arXiv (2024). DOI: 10.48550/arxiv.2402.15025
Информация о журнале: arXiv Предоставлено Массачусетским технологическим институтом