ИИ-агенты, способные не просто отвечать на вопросы, но и выполнять реальные задачи в интернете, были мечтой разработчиков годами. Теперь OpenAI делает первый шаг к такому будущему, запуская Operator — автономного агента, который бронирует билеты, заказывает еду и выполняет другие онлайн-действия вместо вас.
Что такое Operator и зачем он нужен?
Генеральный директор OpenAI Сэм Альтман начал этот год с заявления в блоге о том, что 2025 год станет важным для ИИ-агентов — инструментов, которые могут автоматизировать задачи и выполнять действия от имени пользователя.
В четверг OpenAI объявила о запуске исследовательской версии Operator — универсального ИИ-агента, который может управлять веб-браузером и самостоятельно выполнять определённые действия. Сначала Operator станет доступен пользователям в США, подписанным на тариф ChatGPT Pro за $200 в месяц. В дальнейшем OpenAI планирует расширить доступ для пользователей тарифов Plus, Team и Enterprise.
«[Operator] скоро появится и в других странах», — заявил Сэм Альтман во время прямой трансляции в четверг. «К сожалению, Европе придётся подождать дольше».
Этот исследовательский релиз доступен через operator.chatgpt.com, но в будущем OpenAI планирует интегрировать Operator во все клиенты ChatGPT.
Как работает Operator?
Operator способен автоматизировать такие задачи, как бронирование путешествий, заказ столиков в ресторанах и онлайн-шопинг. В интерфейсе доступны несколько категорий задач: покупки, доставка, питание и путешествия — каждая из которых позволяет автоматизировать различные действия.
Когда пользователи ChatGPT активируют Operator, откроется небольшое окно с веб-браузером, в котором агент выполняет задачи, а также поясняет свои действия. Пользователи сохраняют контроль над своим экраном, так как Operator использует отдельный браузер.
OpenAI заявляет, что Operator работает на модели Computer-Using Agent (CUA), которая сочетает зрительные возможности модели GPT-4o с мощными аналитическими функциями. CUA обучена взаимодействовать с пользовательским интерфейсом веб-сайтов без использования API разработчиков, что позволяет ей нажимать кнопки, заполнять формы и навигировать по меню так же, как это делает человек.
OpenAI сотрудничает с такими компаниями, как DoorDash, eBay, Instacart, Priceline, StubHub и Uber, чтобы Operator соблюдал условия их сервисов.
Примеры использования
Представьте, что вы планируете поездку в Нью-Йорк. Вместо того чтобы вручную искать билеты, бронировать отель и заказывать ужин в ресторане, вы просто говорите Operator: «Найди мне рейс в Нью-Йорк на 15 марта, забронируй номер в отеле рядом с Таймс-сквер и зарезервируй столик в хорошем итальянском ресторане». ИИ-агент самостоятельно выполнит эти действия, сэкономив вам время.
Контроль и безопасность
OpenAI подчёркивает, что Operator требует подтверждения от пользователя перед выполнением критически важных действий, таких как отправка заказа или письма. Это позволяет пользователю проверять работу агента перед окончательным выполнением задачи.
Однако OpenAI предупреждает, что CUA ещё далека от совершенства и не всегда справляется с особыми или сложными задачами. Например, Operator пока не умеет надёжно управлять сложными календарями, создавать детализированные презентации или взаимодействовать с нестандартными веб-интерфейсами.
Для повышения безопасности OpenAI также ограничила автономность агента в определённых сценариях, например, при банковских операциях. Пользователи должны вручную вводить данные кредитных карт. Кроме того, Operator не делает скриншоты и не собирает пользовательские данные.
«На чувствительных сайтах, таких как электронная почта, Operator требует активного наблюдения пользователя, чтобы минимизировать ошибки», — говорится в документации OpenAI.
Ограничения и потенциальные риски
Operator имеет несколько ограничений:
- Дневные и пооперационные лимиты. Хотя агент может выполнять несколько задач одновременно, OpenAI устанавливает динамические ограничения.
- Запрет на определённые действия. На текущем этапе Operator не отправляет электронные письма и не удаляет события из календаря. OpenAI планирует добавить эти функции позже.
- Проблемы с некоторыми интерфейсами. Агент может «застрять» на сложных страницах, полях паролей или CAPTCHA, после чего попросит пользователя вмешаться.
Как Operator отличается от конкурентов?
OpenAI запустила Operator позже конкурентов, таких как Rabbit, Google и Anthropic, вероятно, из-за сложных вопросов безопасности. Однако у каждого из этих решений есть свои особенности:
- Rabbit R1 — физическое устройство, использующее ИИ-агента для управления приложениями.
- Google Project Mariner — экспериментальный агент от Google, который пока ограничен в функциях, но также разрабатывается как инструмент для автоматизированных действий в интернете.
- Anthropic Claude AI — больше ориентирован на обработку текста, чем на автономные действия в браузере, но также продвигает концепцию ИИ-ассистента.
ИИ-агенты, способные действовать в интернете, могут стать инструментом для фишинговых атак, DDoS-атак или массовой скупки билетов. Поэтому OpenAI внедрила многоуровневую систему защиты:
- Фильтры от вредоносных инструкций и фишинга.
- Мониторинг подозрительной активности.
- Автоматическая и ручная проверка безопасности.
Что ждёт нас в будущем?
ИИ-агенты считаются следующим большим шагом в развитии ИИ. Они обещают не просто обрабатывать информацию, но выполнять реальные действия. OpenAI делает ставку на то, что будущее ИИ — это не просто чат-боты, а полноценные цифровые агенты, которые могут выполнять реальные задачи за пользователей. Operator — это первый шаг в этом направлении, но сможет ли он изменить нашу повседневную жизнь, покажет время.