Mythos Claude 5 Fable сама наняла агентов и превзошла все AI

Автор статьи получил ранний доступ к первой публичной модели класса Mythos — Claude 5 Fable. Он не тестировал её на кибербезопасности (защита модели просто не даёт этим заниматься), но проверил на всём остальном. Вывод: Fable делает огромный рывок по сравнению с любыми предыдущими моделями, и, что важнее, кардинально меняет наши отношения с AI.

В тестах Fable значительно превосходила все публичные модели. Она работала до двенадцати часов подряд, выполняя многостраничные спецификации. Из простых примеров — генерация полноценных игр (вроде «Balatro для подбрасывания монеток» или змейки с «самосознанием») с нуля, без единого внешнего изображения — вся графика и 3D-объекты созданы одной математикой. Но куда интереснее серьёзные проекты.

Автор попросил Fable построить изохронную карту — карту доступности из разных городов с учётом самолётов, поездов и автомобилей. Ни одна предыдущая модель не справлялась с такой задачей. Fable же сама запустила несколько других AI (в основном Claude Sonnet), чтобы исследовать данные: собрала более 2200 конкретных авиарейсов, расписания TGV и Shinkansen, дорожные скорости из научных статей. Параллельно она писала код и запускала агентов для его проверки. Автор лишь пару раз дал уточнения — например, попросил уточнить данные по удалённым аэропортам. Тогда Fable запустила «состязательные группы агентов»: те исследовали рейсы судов на остров Питкэрн и маршруты до Грис-Фьорда из Оттавы, перепроверяя результаты друг друга. В итоге — полностью работающая, сложная карта. Но автор отмечает, что почти не контролировал процесс и не видел, почему AI принимал те или иные сотни маленьких решений. Модель стала «чёрным ящиком».

Самый амбициозный проект — Concord. Fable девять с половиной часов генерировала 19-страничный дизайн-документ, а потом написала софт для калибровки ответов человека и AI и сложного анализа данных. Программа не идеальна, но решает задачу, которая была нужна исследователям годами, но её никогда не брались делать — она нерентабельна. Теперь код доступен, и любой может его доработать.

У Fable есть ограничения. Она в два раза дороже Opus и «сжигает» огромное количество токенов (хотя делегирование задач дешёвым моделям может снижать реальную цену). Защита (guardrails) срабатывает слишком часто от малейшего намёка на уязвимость, откатывая модель на более слабую. И «изрезанная граница» (jagged frontier) никуда не делась: стиль письма AI остаётся странным.

Но главное ощущение автора — он перестал быть волшебником, который творит заклинание. Вместо этого он стал патроном или клиентом. Он описывает задачу, платит и оценивает результат. Всю работу — сотни решений, наём других агентов, проверку кода — делает Fable. Это как целая студия, где автор — заказчик, подписывающий финальную работу, ни разу не зайдя в цех. И это, вероятно, не временное явление, а направление развития: чем сильнее модель, тем меньше остаётся человеку по-настоящему делать.