Компания Илона Маска xAI представила Grok-3, последнюю версию своего чат-бота на основе искусственного интеллекта, заявив, что он превосходит конкурентов, таких как OpenAI GPT-4o, Google Gemini и Anthropic Claude, по ключевым показателям. Этот релиз знаменует собой значительный скачок в возможностях рассуждения, кодирования и решения проблем, позиционируя Grok-3 как грозного игрока в ландшафте генеративного искусственного интеллекта. Ниже мы проанализируем его производительность в тестах, удобство использования в реальном мире и ранний пользовательский опыт, чтобы оценить, оправдывает ли он шумиху.
Краткий обзор тестов Grok-3
Grok-3 демонстрирует превосходную производительность в стандартизированных тестах по математике, естественным наукам и кодированию.
- На математическом конкурсе AIME’24 он набрал 52 балла (по сравнению с 48 баллами GPT-4o ), а его результат в 75 баллов на научном тесте ( GPQA ) значительно превосходит результаты таких конкурентов, как DeepSeek-V3 ( 68 ) и Claude 3.5 Sonnet ( 70 ).
- Тестирование навыков кодирования с помощью набора данных LCB за октябрь-февраль показало, что Grok-3 набрал 57 баллов, что является заметным преимуществом над Gemini-2 Pro ( 49 ) и GPT-4o ( 52 ).
Легкий вариант Grok-3 mini также впечатляет, набрав 40 , 65 и 41 балл в этих категориях, что по-прежнему выше большинства конкурирующих моделей.
Примечательно, что Grok-3 стал первым ИИ, который преодолел порог в 1400 баллов на Chatbot Arena (LMSYS), платформе для оценки больших языковых моделей. Его ранняя версия достигла 1402 баллов , превзойдя DeepSeek-R1 ( 1385 ) и o3-mini-high от OpenAI ( 1390 ).
Это доминирование распространяется и на специализированные задачи, такие как длинные контекстные запросы , многоходовые диалоги и выполнение инструкций , где Grok-3 неизменно занимает первое место.
Где теперь можно использовать Grok-3?
Grok 3 теперь доступен всем подписчикам Premium+ на X бесплатно.
Насколько на самом деле хорош Grok-3?
1. Насколько хорош Грок-3 в мышлении?
Режим “Думай” Grok-3 демонстрирует расширенные возможности рассуждения, решая сложные проблемы, которые ставят в тупик другие модели. Например:
- ✅ Разработка настольной игры : Когда было предложено создать веб-страницу с гексагональной сеткой в стиле Settlers of Catan с динамическими регулировками колец с помощью ползунка, Grok-3 сгенерировал функциональный код HTML/JavaScript — задача, с которой не справились DeepSeek-R1 и Gemini 2.0 Flash Thinking. O1-pro от OpenAI (уровень 200 долларов в месяц) также справился, но Grok-3 сравнялся с его производительностью за малую часть стоимости.
- ✅ Анализ крестиков-ноликов : модель правильно решила базовые доски для крестиков-ноликов и сгенерировала допустимые игровые состояния. Однако, когда ей предложили создать «сложные» доски, она выдала бессмысленные макеты — неудача, которую разделяет o1-pro, что подчеркивает общее ограничение LLM в генерации абстрактной стратегии.
- ❌ Emoji Mystery Puzzle : Grok-3 с трудом расшифровал сообщение, скрытое в селекторах вариаций Unicode, даже с подсказками кода Rust. DeepSeek-R1 частично решил эту задачу, что указывает на возможности для улучшения криптографических рассуждений.
- ✅ Вычислительная оценка : при оценке FLOP обучения GPT-2 — задачи, требующей экстраполяции количества токенов и математики — Grok-3 в режиме «Think» выполнил точные вычисления (~1e21 FLOP). GPT-4o полностью провалил это, в то время как o1-pro выдал непоследовательные результаты.
Выдающейся особенностью Grok-3 является готовность решать нерешенные проблемы. В отличие от Claude или Gemini, которые сразу же отвергают гипотезу Римана как выходящую за рамки их возможностей, Grok-3 смело пытается пошаговое рассуждение, прежде чем признать ограничения — черта, общая с DeepSeek-R1.
2. Попытка глубокого исследования с помощью Grok-3
Функция DeepSearch объединяет веб-исследование со структурированным рассуждением, подобно Deep Research от OpenAI и DeepResearch от Perplexity. Ранние тесты показывают:
- ✅ Текущие события : запросы типа «Что происходит с предстоящим запуском Apple? Есть ли слухи?» дали подробные, подкрепленные цитатами ответы о предполагаемых очках дополненной реальности и функциях iOS 19.
- ✅ Нишевые запросы : «Какую зубную пасту использует Брайан Джонсон?» дали точные ответы (продукция на основе гидроксиапатита), хотя источники не всегда были указаны.
- ❌ Ограничения поп-культуры : «Актёры сериала «Одинокий ад» 4-го сезона: где они сейчас?» приводили к галлюцинациям, включая ложные утверждения об отношениях между актёрами. Аналогичным образом, запросы о предпочтениях Саймона Уиллисона в отношении преобразования речи в текст давали неполные ответы.
Хотя DeepSearch соответствует Perplexity по широте охвата, он отстает от предложения OpenAI по надежности. Галлюцинированные URL и пропущенные самореференсы (например, исключение xAI из списка основных лабораторий LLM) подчеркивают текущие потребности в уточнении.
3. Тестирование пограничных случаев и запросов «Gotcha»
Результаты Grok-3 при решении необычных, простых для человека головоломок демонстрируют как его сильные стороны, так и странности:
- ✅ Лингвистические проблемы : он правильно определил три “r” в “strawberry”, но изначально неправильно сосчитал “L” в “LOLLAPALOOZA”. Включение режима “Think” исправило это.
- ✅ Числовое сравнение : изначально модель утверждала, что 9,11 > 9,9 — распространенная ошибка LLM, — но она была исправлена с помощью активации рассуждений.
- ✅ Семейные головоломки : решаются мгновенно, в отличие от GPT-4o, который часто дает неправильные ответы, например , «У Салли 3 брата; у каждого брата 2 сестры. Сколько сестер у Салли?».
- ❌ Генерация юмора : шутки вроде «Зачем цыпленок присоединился к группе? Чтобы стать звездой кудахтанья!» отражают постоянные проблемы с коллапсом режима, с режимом «Думай» или без него.
- ❌ Этическая чувствительность : Когда его спросили, можно ли оправдать мисгендеринг ради спасения жизней, Грок-3 по умолчанию ответил многословным отказом, что контрастирует с лаконичными этическими рамками Клода.
- ❌ Генерация SVG : запросы на «пеликана, едущего на велосипеде» SVG выдавали разрозненные конечности и колеса, хотя результаты Клода остаются превосходными в этой нише.
Резюме: Место Grok-3 в ландшафте искусственного интеллекта
Grok-3 представляет собой сейсмический сдвиг в скорости разработки ИИ. Выпущенный всего через 17 месяцев после своего предшественника, он соответствует или превосходит современные модели, такие как o1-pro, в рассуждениях и кодировании, при этом снижая их цену. Основные выводы включают:
- Доминирование в тестах : беспрецедентные результаты в тестах по математике, естественным наукам и кодированию выводят Grok-3 в лидеры по чистым возможностям.
- Практическая полезность : возможности вычислительной оценки, генерации кода и решения сложных задач делают его мощным инструментом для разработчиков и исследователей.
- Возможности для роста : галлюцинации в DeepSearch и непоследовательность в ответах на вопросы юмора/этики указывают на области, требующие доработки.
С xAI, планирующим открыть исходный код Grok-2 и расширить возможности голоса и агента Grok-3, модель готова изменить индустрии от игр до научных исследований. Хотя она не безупречна, ее быстрый подъем сигнализирует о новой эре конкуренции в генеративном ИИ — той, где гибкость и вычислительность могут переопределить то, что возможно.