Исследователи из Google AI представили метод, позволяющий роботам приобретать новые навыки на основе инструкций на естественном языке. Метод позволяет преодолеть разрыв между высокоуровневым естественным языком и низкоуровневым управлением роботами за счет использования функций вознаграждения в качестве интерпретируемого промежуточного представления.
Большие языковые модели (БЯМ), такие как GPT-4 от OpenAI и PaLM от Google, продемонстрировали способность приобретать новые возможности путем обучения в нескольких контекстах. Однако непосредственное применение LLM для управления роботами оказалось сложной задачей. Низкоуровневые действия роботов в значительной степени зависят от особенностей аппаратуры и недостаточно представлены в обучающих данных для LLM общего назначения.
Потенциал роботов для помощи человеку в решении различных задач, таких как расстановка коробок с обедом или выполнение сложных маневров, очень велик. Однако, несмотря на прогресс в технологии LLM, существующие системы не могут выйти за рамки запрограммированного поведения или “примитивов”. Эти предустановленные действия, несмотря на их обширность, ограничивают возможности робота по освоению новых навыков, поскольку для их расширения или модификации требуются специальные знания в области кодирования.
В качестве такого интерфейса команда исследователей предлагает использовать функции вознаграждения. Функции вознаграждения отображают состояние и действия робота на скалярное значение, представляющее желаемую цель. Они обладают богатой семантикой, оставаясь при этом интерпретируемыми. Что особенно важно, они могут быть оптимизированы с помощью обучения с подкреплением или модельного прогнозирующего управления для получения низкоуровневых политик.
Система состоит из двух основных компонентов – транслятора вознаграждений и контроллера движения. Транслятор вознаграждения использует LLM для преобразования команды на естественном языке в функцию вознаграждения, представленную в виде кода на языке Python. Затем контроллер движения в режиме реального времени оптимизирует эту функцию вознаграждения для определения оптимальных команд по крутящему моменту для двигателей робота. Такой двухэтапный подход позволяет более стабильно и надежно преобразовывать инструкции пользователя в действия, которые робот может понять и выполнить.