Главное меню » Проект “Руми”: Расширение понимания ИИ с помощью мультимодальных паралингвистических подсказок

Проект “Руми”: Расширение понимания ИИ с помощью мультимодальных паралингвистических подсказок

Новое исследование компании Microsoft призвано помочь искусственному интеллекту понимать невербальные сигналы, такие как выражение лица, тон голоса, жесты и многое другое.

Редакция
0 коммент. 85 просм. 3 мин. на чтение

Когда речь идет о повседневном общении, дьявол кроется в деталях. Легкое нахмуривание, легкий кивок, интонация голоса или тихий вздох зачастую имеют не меньший вес, чем сказанные слова. Именно эти нюансы часто не учитывают современные мощные большие языковые модели (LLM). Признавая это ограничение, проект Microsoft Project Rumi направлен на включение паралингвистического ввода, такого как интонация, жесты и мимика, в основанное на подсказках взаимодействие с LLM.

LLM не являются чужими в современном цифровом ландшафте, обеспечивая ценность в различных областях и превращая естественный язык в важный инструмент производительности. Однако у них есть и свои недостатки. Их эффективность зависит от качества и специфики ввода или подсказки пользователя – лексического ввода, который не обладает богатством взаимодействия между людьми. При игнорировании паралингвистических сигналов возрастает риск недопонимания, непонимания и неадекватных ответов.

Схема, иллюстрирующая взаимодействие пользователя с приложением. Ввод сенсорных данных пользователя, таких как видео и аудио, и использование обработанных сенсорных данных для создания паралингвистической классификации. Эта классификация дополняет входные данные LLM, генерируя расширенный выходной сигнал для приложения.

Проект Rumi призван устранить этот пробел, разработав мультимодальную систему, использующую отдельно обучаемые модели на основе зрения и звука для оценки настроения на основе когнитивных и физиологических данных в режиме реального времени. Система извлекает невербальные сигналы из видео- и голосовых данных в режиме реального времени, создавая паралингвистические лексемы, которые дополняют стандартный лексический ввод существующих LLM, таких как GPT4. Результат? Более тонкое понимание настроения и намерений пользователя, ранее отсутствовавшее в текстовых моделях.

Например, рассмотрим профессиональный разговор, в котором менеджер хочет обсудить с сотрудником загруженность команды. Текстовый ввод может быть нейтральным, но тон и выражение лица менеджера могут выражать озабоченность или сочувствие. Система Project Rumi способна анализировать эти паралингвистические сигналы, обогащая вводные данные и обеспечивая тем самым более эффективное взаимодействие с LLM.

В основе проекта “Руми” лежит вдохновляющее видение будущего, в котором ассистенты ИИ смогут воспринимать и устанавливать связь с людьми не только через наши слова, но и через многогранный гобелен сигналов, которые мы используем для общения, сопереживания и построения общего понимания. Поскольку мы вступаем в эпоху “ИИ как второй пилот”, расширение возможностей LLM по восприятию непроизносимых аспектов языка имеет решающее значение. В конечном итоге проект отражает вдохновляющее видение будущего, в котором технологии смогут по-настоящему понять нас во всей их сложности.

Дальнейшие планы Microsoft в отношении проекта Rumi включают в себя повышение производительности существующих моделей и включение дополнительных сигналов, таких как вариабельность сердечного ритма, получаемая из стандартного видео, когнитивные и окружающие датчики. Эти исследования рисуют картину более динамичного и чувствительного ИИ, способного понять всю сложность человеческого взаимодействия.

Несмотря на то, что проект “Руми” находится на ранних стадиях исследований, его последствия весьма значительны. Его мультимодальный подход может позволить LLM лучше понять нюансы человеческого взаимодействия и проложить путь к более естественному и приятному общению между людьми и ИИ.

 

 

Похожие материалы

Этот сайт использует файлы cookie для улучшения вашего опыта. Мы будем считать, что вы согласны с этим, но при желании вы можете отказаться. Принять Подробнее