Anthropic: Claude пишет 80% кода, автономия ИИ удваивается за 4 месяца

Внутри Anthropic разработка ИИ всё больше перекладывается на сами ИИ-системы. Компания представила данные, как это ускоряет работу: инженеры Anthropic сейчас в среднем пишут в 8 раз больше кода в квартал, чем в 2021-2025 годах. Эта тенденция ведёт к рекурсивному самоулучшению — моменту, когда ИИ сможет полностью автономно спроектировать и создать свою собственную следующую версию.

На публичных бенчмарках видно то же самое. Время автономной работы моделей удваивается каждые ~4 месяца, а не 7, как было раньше. Claude Opus 3 в марте 2024 справлялся с задачами на 4 минуты, а Claude Opus 4.6 год спустя уже работал по 12 часов. Бенчмарк SWE-bench по починке реальных багов модели насытили за два года, а CORE-Bench по воспроизведению научных результатов — за 15 месяцев.

Внутри Anthropic используют собственные метрики. К маю 2026 года более 80% кода, который компания сливает в репозиторий, написано Claude. До запуска Claude Code в феврале 2025 этот показатель был в районе 1-2%. Типичный инженер теперь мержит в 8 раз больше строк в день. Это не просто объём: Claude исправляет баги, которые не замечают лучшие инженеры. Автоматический ревьюер на Claude мог бы поймать треть багов, вызывавших инциденты на claude.ai, ещё до выката в прод.

В задачах с чёткой целью Claude уже превосходит людей. В упражнении с ускорением тренировочного кода Claude Mythos Preview в апреле 2026 добился ускорения в ~52 раза против ~3x у Claude Opus 4 годом ранее — человеку нужно 4-8 часов, чтобы получить 4x. В открытых исследованиях два человека за неделю закрыли ~23% разрыва в задаче слабой супервизии, а агенты Claude за 800 часов — 97%.

Самый узкий сегмент, где люди пока сильнее, — это «исследовательский вкус»: выбор, какой эксперимент запустить, а какой — тупик. Но Claude догоняет и тут: в подборке спорных моментов модель в ноябре 2025 выбирала правильное направление в 51% случаев, а в апреле 2026 — уже в 64%.

В Anthropic видят три сценария. Первый: прогресс упрётся в S-кривую или нехватку чипов и энергии. Второй (наиболее вероятный по мнению компании): ИИ продолжит ускорять всё, кроме задач, требующих человеческого суждения; тогда компании из 100 человек смогут делать работу фирм из 10 000. Третий: полное рекурсивное самоулучшение, где люди почти не участвуют в разработке ИИ, а темп диктуется только доступным compute.

Авторы признают, что непонятно, решит ли такая система проблему alignment или, наоборот, усугубит её до потери контроля. Они призывают к обсуждению возможности глобальной верифицируемой паузы, хотя признают, что создать такой режим на уровне договоров (как с ядерным оружием) за оставшееся время почти нереально.