Агенты искусственного интеллекта должны стать следующей большой вещью в ИИ, но точного определения, что это такое, пока нет. До сих пор люди не могут прийти к единому мнению о том, что именно представляет собой ИИ-агент.
В самом простом понимании ИИ-агент – это программное обеспечение, работающее на основе ИИ, которое выполняет за вас ряд задач, которые в прошлом выполнял агент по обслуживанию клиентов, сотрудник отдела кадров или IT-службы поддержки, хотя в конечном итоге это может быть любая задача. Вы просите его сделать что-то, и он делает это за вас, иногда пересекаясь с несколькими системами и выходя далеко за рамки простых ответов на вопросы. Например, компания Perplexity в прошлом месяце выпустила ИИ-агента, который помогает людям делать покупки к праздникам (и это не единственный такой агент). А компания Google на прошлой неделе анонсировала своего первого ИИ-агента под названием Project Mariner, который может использоваться для поиска авиабилетов и гостиниц, покупки товаров для дома, поиска рецептов и других задач.
Казалось бы, все просто, верно? Однако все осложняется отсутствием ясности. Даже среди технологических гигантов нет единого мнения. Google видит в них помощников, ориентированных на конкретные задачи: помощь разработчикам в кодировании; помощь маркетологам в создании цветовой схемы; помощь ИТ-специалисту в поиске проблемы путем запроса данных журнала.
В Asana агент может действовать как дополнительный сотрудник, выполняя поставленные задачи, как любой хороший коллега. Компания Sierra, основанная бывшим исполнительным директором Salesforce Бретом Тейлором и ветераном Google Клеем Бавором, рассматривает агентов как инструменты для работы с клиентами, помогающие людям выполнять действия, которые выходят далеко за рамки чат-ботов прошлых лет и помогают решать более сложные задачи.
Отсутствие единого определения оставляет место для путаницы в том, что именно будут делать эти штуки, но независимо от того, как их определяют, агенты должны помогать выполнять задачи автоматизированным способом с минимальным взаимодействием с человеком.
Рудина Сесери, основатель и управляющий партнер Glasswing Ventures, говорит, что сейчас еще только начинается процесс, и именно этим может объясняться отсутствие согласия. «Единого определения того, что такое «агент ИИ», не существует. Однако наиболее часто встречается мнение, что агент – это интеллектуальная программная система, предназначенная для автономного восприятия окружающей среды, рассуждения о ней, принятия решений и выполнения действий для достижения конкретных целей», – рассказала Сесери изданию TechCrunch.
По ее словам, для этого они используют ряд технологий ИИ. «Эти системы включают в себя различные методы ИИ/МЛ, такие как обработка естественного языка, машинное обучение и компьютерное зрение, чтобы работать в динамических областях, автономно или вместе с другими агентами и человеческими пользователями».
Аарон Леви, соучредитель и генеральный директор Box, говорит, что со временем, по мере роста возможностей ИИ, агенты ИИ смогут делать гораздо больше от имени людей, и уже сейчас существует динамика, которая будет способствовать этой эволюции.
«В случае с ИИ-агентами существует множество компонентов, которые являются самоподдерживающимся маховиком, позволяющим значительно улучшить возможности ИИ-агентов в ближайшей и долгосрочной перспективе: цена/производительность GPU, эффективность моделей, качество и интеллект моделей, фреймворки и инфраструктура ИИ», – написал Леви недавно на LinkedIn.
Это оптимистичный взгляд на технологию, предполагающий, что рост будет происходить во всех этих областях, хотя это не обязательно так. Родни Брукс, пионер робототехники из Массачусетского технологического института, в недавнем интервью TechCrunch отметил, что ИИ приходится решать гораздо более сложные проблемы, чем большинству технологий, и он не обязательно будет развиваться так же быстро, как, скажем, чипы по закону Мура.
«Когда человек видит, как система ИИ выполняет какую-то задачу, он сразу же обобщает ее на похожие и делает оценку компетентности системы ИИ; не только производительности, но и компетентности вокруг нее», – сказал Брукс в том интервью. «И обычно они очень переоптимистичны, а все потому, что используют модель выполнения задачи человеком».
Проблема в том, что скрещивать системы сложно, и это осложняется тем, что некоторые старые системы не имеют базового доступа к API. Несмотря на то, что мы видим постоянные улучшения, о которых говорил Леви, обеспечение доступа программного обеспечения к нескольким системам и решение проблем, с которыми оно может столкнуться на этом пути, может оказаться более сложной задачей, чем многие думают.
Если это так, то, возможно, все переоценивают возможности агентов ИИ. Дэвид Кушман, руководитель исследовательской компании HFS Research, считает, что нынешние боты больше похожи на Asana: это помощники, которые помогают людям выполнять определенные задачи для достижения некой стратегической цели, определенной пользователем. Проблема заключается в том, чтобы помочь машине справиться с непредвиденными ситуациями по-настоящему автоматизированным способом, и мы явно еще не приблизились к этому.
«Я думаю, это следующий шаг», – сказал он. «Это когда ИИ работает самостоятельно и эффективно в масштабе. Именно здесь люди устанавливают правила, ограждения и применяют множество технологий, чтобы вывести человека из-под контроля – в то время как с GenAI все сводилось к тому, чтобы держать человека в курсе», – сказал он. По его словам, главное здесь – позволить ИИ-агенту взять на себя управление и применить настоящую автоматизацию.
Джон Туроу, партнер Madrona Ventures, считает, что для этого потребуется создать инфраструктуру агентов ИИ – технологический стек, предназначенный специально для создания агентов (как бы вы их ни определяли). В недавней записи в блоге Туроу привел примеры агентов ИИ, работающих в настоящее время в дикой природе, и рассказал о том, как они создаются сегодня.
По мнению Туроу, растущее распространение ИИ-агентов – и он признает, что определение все еще не совсем определено – требует технологического стека, как и любая другая технология. «Все это означает, что нашей индустрии предстоит работа по созданию инфраструктуры, поддерживающей агентов ИИ и приложения, которые на них опираются», – пишет он в статье.
«Со временем рассуждения будут постепенно улучшаться, передовые модели станут управлять большей частью рабочих процессов, а разработчики захотят сосредоточиться на продукте и данных – тех вещах, которые их отличают. Они хотят, чтобы базовая платформа «просто работала», обеспечивая масштаб, производительность и надежность».
Еще один момент, о котором следует помнить, – для работы агентов, вероятно, потребуется не один LLM, а несколько моделей, и это имеет смысл, если рассматривать агентов как набор различных задач. «Я не думаю, что сейчас какая-либо одна большая языковая модель, по крайней мере общедоступная, монолитная большая языковая модель, способна справиться с агентскими задачами. Я не думаю, что они могут выполнять многоступенчатые рассуждения, которые действительно заставили бы меня радоваться агентному будущему. Я думаю, что мы приближаемся к этому, но пока этого не происходит», – говорит Фред Хавемейер, руководитель американского отдела исследований в области ИИ и программного обеспечения в Macquarie US Equity Research.
«Я думаю, что наиболее эффективные агенты, скорее всего, будут представлять собой несколько коллекций различных моделей с уровнем маршрутизации, который отправляет запросы или подсказки наиболее эффективному агенту и модели. И я думаю, что это будет что-то вроде интересного [автоматизированного] супервизора, делегирующего свои полномочия».
В конечном счете, по мнению Хавемейера, индустрия работает над достижением этой цели – самостоятельной работы агентов. «Когда я думаю о будущем агентов, я хочу и надеюсь увидеть агентов, которые будут действительно автономными и смогут принимать абстрактные цели, а затем самостоятельно продумывать все отдельные шаги между ними, – сказал он в интервью TechCrunch.
Но дело в том, что мы все еще находимся в переходном периоде, когда речь идет об этих агентах, и мы не знаем, когда мы достигнем того конечного состояния, которое описал Хавемейер. Хотя то, что мы видели до сих пор, является многообещающим шагом в правильном направлении, нам все еще нужны некоторые достижения и прорывы, чтобы агенты ИИ работали так, как они представляются сегодня. И важно понимать, что мы еще не достигли этого.