Маск презентував Grok 4: новий рівень штучного інтелекту та суперінтелекту у науці

10 липня, 19:22

Grok Heavy і нові технології Маска — революція у розвитку ШІ та інженерії.

Маск сьогодні зробив дуже сильну презентацію Grok 4 — наразі найпотужнішої моделі штучного інтелекту за ключовими тестами. Скажу відверто: більше, ніж я очікував.

У багатьох найважливіших тестах вона вийшла в лідери з суттєвим відривом — не на 1–2 %, а значно більше.
Це перша їхня модель, яка насправді цікава для мене. Вони інвестували у 10 разів більше обчислювальних ресурсів порівняно з Grok 2 для базової моделі. І ще в 10 разів більше — у додаткове навчання з підкріпленням (reinforcement learning) порівняно з Grok 3.

По-перше, вони зробили — і, думаю, справедливо — великий акцент на результатах в Останньому екзамені людства. Це надзвичайно складний тест, який охоплює передові наукові знання, складений більш ніж 1000 експертами з 500 наукових інституцій із десятків країн. Кину пізніше посилання на опис тесту. Там є як точні науки, так і мовознавство (у тому числі давні мови), завдання з програмування тощо. Я наводив приклади задач — дуже й дуже складних.

Маск справедливо сказав, що знайти людину, яка вирішить навіть 5 % задач цього тесту, буде дуже складно — навіть у межах однієї спеціалізації. А уявити когось, хто зможе розв’язати задачі рівня кандидата наук чи складніші у десятках дисциплін, майже неможливо.

І саме цей момент він представив дуже цікаво.
Зараз він вважає, що ми перебуваємо на чіткій траєкторії, коли будь-які людські тести — тобто ті, де люди самі формулюють і запитання, і відповіді — вже не є проблемою для ШІ. Я якраз кілька тижнів тому про це писав.

Наступний крок — зворотний зв’язок для моделей уже не від людей, а від самої реальності. Наприклад, ШІ розробляє новий ракетний двигун, і критерієм успішності буде не тест, а реальна робота цього двигуна.

Маск каже, що темп прогресу його лякає. Scary good.

Він очікує, що вже цього року, максимум наступного, ми побачимо, як ШІ зможе пропонувати нові технологічні рішення — тобто прикладні інженерні рішення на основі відомої фізики та інших наук.
А вже у 2026 році він прогнозує можливість робити з ШІ наукові відкриття — тобто відкривати «нову фізику» з «перших принципів».

Також, за прикладом результатів в Останньому екзамені людства, він вважає, що ШІ вже став суперінтелектом принаймні у вимірі академічної науки — тієї, що відображена у текстах і вже відома. Наступний етап — створення нових рішень.

Дуже цікавий момент, хто звернув увагу. Маск показав, що «гола модель» набирає значно кращий результат в Останньому екзамені людства, ніж інші моделі (27 % проти 20–21 % у o3 та Gemini 2.5 Pro). А з використанням інструментів результат стає ще вищим — понад 40 %. При цьому самі інструменти дуже примітивні: по суті, це інтернет-пошук, виконання простих програм для розрахунків тощо.

І тут Маск сказав, що планує надати Grok потужні інженерні інструменти — ті, що використовуються в Tesla і SpaceX для моделювання фізичних процесів. Причому симуляції там настільки точні, що коли результати експериментів не збігаються з ними, то насамперед перевіряють помилки в самому експерименті.

Це дуже цікава перспектива. Загалом видно стратегічні фокуси команди Grok. І мушу визнати, ці фокуси дуже сильні та оригінальні. При всій нашій нелюбові до Маска, треба віддати належне: він уміє формулювати потужні стратегії для своїх проєктів.

Конкретно фокус Grok, як виглядає, такий:

Ідеологічно — пошук істини, мінімальна цензура, об’єктивність, орієнтація на факти, а не на ідеології та політичну кон’юнктуру. Він вважає, що це оптимальна стратегія виживання людства в епоху сильного ШІ. І що створення ШІ, які брешуть задля реалізації ідеології, — велика небезпека.
Практично — орієнтація на точні науки, вирішення складних наукових і технічних задач. Звідси й такий великий прогрес в Останньому екзамені людства.

Якщо до цього додати інтеграції з професійними інженерними інструментами, про які йшлося на презентації, практична корисність Grok може стати на голову вищою за інші чати, які сприймаються вже більше як тамагочі для забавок і перекладів текстів.

Ще одна цікава річ — вони представили Grok Heavy (назва як у ракети). Це рішення для використання Grok як багатоагентної системи. Деталей вони не розкрили, але зазначили, що мають оригінальний підхід до оцінки результатів.

Раніше в багатьох роботах пропонували такий підхід, де правильну відповідь визначає більшість агентів (majority vote).
Команда Grok заявила, що може знайти правильну відповідь навіть тоді, коли до неї дійшов лише один агент.

І це виглядає дуже потужною технікою. Бо саме завдяки їй у тому ж Останньому екзамені людства Grok вже зараз набирає 51 % (!) — хоча я писав лише кілька тижнів тому, що це була амбітна ціль на кінець 2025 року. Для порівняння, конкуренти наразі набирають 20–21 %.

Вони вже досягли цього рівня зараз, а до кінця 2025 року планують ще кілька суттєвих покращень.

Цікаво й те, що ця функція Grok Heavy вже доступна у їхній новій найдорожчій підписці — $300 на місяць. Тобто якщо у вас є суперскладні наукові чи інженерні задачі — варто спробувати.

Я навіть не згадую інші тести. Наприклад, у задачах Математичної олімпіади США 2025 року Grok набирає 100 % — вирішує все. Ще кілька років тому моделі не могли розв’язати жодної такої задачі. З усіх студентів США лише одиниці, й то не щороку, вирішують усі задачі олімпіади.

Слабке місце Grok на сьогодні — слабші можливості аналізу зображень порівняно з конкурентами. Можу це підтвердити: тестував його на графіках — він гірше розпізнавав написи й деталі, ніж o3 чи Gemini від Google. Але команда це розуміє й планує суттєво покращити найближчим часом.

Загалом, їхні плани на кілька місяців:

Серпень 2025 — найсильніший агент для написання коду.
Вересень — нова мультимодальна модель (щоб вирішити проблему аналізу зображень).
Жовтень — нова модель, яка найкраще розумітиме та створюватиме відео. Це особливо важливо, враховуючи величезну кількість відео та фото у Tesla. Це критично для роботів і вирішення завдань реального світу.

Також вони представили нові можливості голосу для Grok. Виглядають круто: живі інтонації, шепіт, сміх тощо. Навіть може співати. Те, що з незрозумілих причин заблокували в OpenAI. І загалом відповідає швидше й природніше.

Ось така презентація. Можна сказати, що це перший промінчик суперінтелекту, що сходить на горизонті.

Модель з сьогодні вже доступна через API — ми вже тестуємо її в одному з наших додатків, де потрібна суперрозумна модель.

Що думаєте?

Bandura Volodymyr