Насколько хорош Grok-3? Где можно использовать Grok-3?

В этом обзоре:

Содержание

Компания Илона Маска xAI представила Grok-3, последнюю версию своего чат-бота на основе искусственного интеллекта, заявив, что он превосходит конкурентов, таких как OpenAI GPT-4o, Google Gemini и Anthropic Claude, по ключевым показателям. Этот релиз знаменует собой значительный скачок в возможностях рассуждения, кодирования и решения проблем, позиционируя Grok-3 как грозного игрока в ландшафте генеративного искусственного интеллекта. Ниже мы проанализируем его производительность в тестах, удобство использования в реальном мире и ранний пользовательский опыт, чтобы оценить, оправдывает ли он шумиху.

Краткий обзор тестов Grok-3

Grok-3 демонстрирует превосходную производительность в стандартизированных тестах по математике, естественным наукам и кодированию.

На математическом конкурсе AIME’24 он набрал 52 балла (по сравнению с 48 баллами GPT-4o ), а его результат в 75 баллов на научном тесте ( GPQA ) значительно превосходит результаты таких конкурентов, как DeepSeek-V3 ( 68 ) и Claude 3.5 Sonnet ( 70 ).
Тестирование навыков кодирования с помощью набора данных LCB за октябрь-февраль показало, что Grok-3 набрал 57 баллов, что является заметным преимуществом над Gemini-2 Pro ( 49 ) и GPT-4o ( 52 ).

Легкий вариант Grok-3 mini также впечатляет, набрав 40 , 65 и 41 балл в этих категориях, что по-прежнему выше большинства конкурирующих моделей.

Примечательно, что Grok-3 стал первым ИИ, который преодолел порог в 1400 баллов на Chatbot Arena (LMSYS), платформе для оценки больших языковых моделей. Его ранняя версия достигла 1402 баллов , превзойдя DeepSeek-R1 ( 1385 ) и o3-mini-high от OpenAI ( 1390 ).

Это доминирование распространяется и на специализированные задачи, такие как длинные контекстные запросы , многоходовые диалоги и выполнение инструкций , где Grok-3 неизменно занимает первое место.

Где теперь можно использовать Grok-3?

Grok 3 теперь доступен всем подписчикам Premium+ на X бесплатно.

Насколько на самом деле хорош Grok-3?

1. Насколько хорош Грок-3 в мышлении?

Режим «Думай» Grok-3 демонстрирует расширенные возможности рассуждения, решая сложные проблемы, которые ставят в тупик другие модели. Например:

✅ Разработка настольной игры : Когда было предложено создать веб-страницу с гексагональной сеткой в стиле Settlers of Catan с динамическими регулировками колец с помощью ползунка, Grok-3 сгенерировал функциональный код HTML/JavaScript — задача, с которой не справились DeepSeek-R1 и Gemini 2.0 Flash Thinking. O1-pro от OpenAI (уровень 200 долларов в месяц) также справился, но Grok-3 сравнялся с его производительностью за малую часть стоимости.
✅ Анализ крестиков-ноликов : модель правильно решила базовые доски для крестиков-ноликов и сгенерировала допустимые игровые состояния. Однако, когда ей предложили создать «сложные» доски, она выдала бессмысленные макеты — неудача, которую разделяет o1-pro, что подчеркивает общее ограничение LLM в генерации абстрактной стратегии.
❌ Emoji Mystery Puzzle : Grok-3 с трудом расшифровал сообщение, скрытое в селекторах вариаций Unicode, даже с подсказками кода Rust. DeepSeek-R1 частично решил эту задачу, что указывает на возможности для улучшения криптографических рассуждений.
✅ Вычислительная оценка : при оценке FLOP обучения GPT-2 — задачи, требующей экстраполяции количества токенов и математики — Grok-3 в режиме «Think» выполнил точные вычисления (~1e21 FLOP). GPT-4o полностью провалил это, в то время как o1-pro выдал непоследовательные результаты.

Выдающейся особенностью Grok-3 является готовность решать нерешенные проблемы. В отличие от Claude или Gemini, которые сразу же отвергают гипотезу Римана как выходящую за рамки их возможностей, Grok-3 смело пытается пошаговое рассуждение, прежде чем признать ограничения — черта, общая с DeepSeek-R1.

2. Попытка глубокого исследования с помощью Grok-3

Функция DeepSearch объединяет веб-исследование со структурированным рассуждением, подобно Deep Research от OpenAI и DeepResearch от Perplexity. Ранние тесты показывают:

✅ Текущие события : запросы типа «Что происходит с предстоящим запуском Apple? Есть ли слухи?» дали подробные, подкрепленные цитатами ответы о предполагаемых очках дополненной реальности и функциях iOS 19.
✅ Нишевые запросы : «Какую зубную пасту использует Брайан Джонсон?» дали точные ответы (продукция на основе гидроксиапатита), хотя источники не всегда были указаны.
❌ Ограничения поп-культуры : «Актёры сериала «Одинокий ад» 4-го сезона: где они сейчас?» приводили к галлюцинациям, включая ложные утверждения об отношениях между актёрами. Аналогичным образом, запросы о предпочтениях Саймона Уиллисона в отношении преобразования речи в текст давали неполные ответы.

Хотя DeepSearch соответствует Perplexity по широте охвата, он отстает от предложения OpenAI по надежности. Галлюцинированные URL и пропущенные самореференсы (например, исключение xAI из списка основных лабораторий LLM) подчеркивают текущие потребности в уточнении.

3. Тестирование пограничных случаев и запросов «Gotcha»

Результаты Grok-3 при решении необычных, простых для человека головоломок демонстрируют как его сильные стороны, так и странности:

✅ Лингвистические проблемы : он правильно определил три «r» в «strawberry», но изначально неправильно сосчитал «L» в «LOLLAPALOOZA». Включение режима «Think» исправило это.
✅ Числовое сравнение : изначально модель утверждала, что 9,11 > 9,9 — распространенная ошибка LLM, — но она была исправлена с помощью активации рассуждений.
✅ Семейные головоломки : решаются мгновенно, в отличие от GPT-4o, который часто дает неправильные ответы, например , «У Салли 3 брата; у каждого брата 2 сестры. Сколько сестер у Салли?».
❌ Генерация юмора : шутки вроде «Зачем цыпленок присоединился к группе? Чтобы стать звездой кудахтанья!» отражают постоянные проблемы с коллапсом режима, с режимом «Думай» или без него.
❌ Этическая чувствительность : Когда его спросили, можно ли оправдать мисгендеринг ради спасения жизней, Грок-3 по умолчанию ответил многословным отказом, что контрастирует с лаконичными этическими рамками Клода.
❌ Генерация SVG : запросы на «пеликана, едущего на велосипеде» SVG выдавали разрозненные конечности и колеса, хотя результаты Клода остаются превосходными в этой нише.

Резюме: Место Grok-3 в ландшафте искусственного интеллекта

Grok-3 представляет собой сейсмический сдвиг в скорости разработки ИИ. Выпущенный всего через 17 месяцев после своего предшественника, он соответствует или превосходит современные модели, такие как o1-pro, в рассуждениях и кодировании, при этом снижая их цену. Основные выводы включают:

Доминирование в тестах : беспрецедентные результаты в тестах по математике, естественным наукам и кодированию выводят Grok-3 в лидеры по чистым возможностям.
Практическая полезность : возможности вычислительной оценки, генерации кода и решения сложных задач делают его мощным инструментом для разработчиков и исследователей.
Возможности для роста : галлюцинации в DeepSearch и непоследовательность в ответах на вопросы юмора/этики указывают на области, требующие доработки.

С xAI, планирующим открыть исходный код Grok-2 и расширить возможности голоса и агента Grok-3, модель готова изменить индустрии от игр до научных исследований. Хотя она не безупречна, ее быстрый подъем сигнализирует о новой эре конкуренции в генеративном ИИ — той, где гибкость и вычислительность могут переопределить то, что возможно.

Вам может быть интересно: