AlphaFold3 выявил лишь 25,3 тыс. уникальных фолдов из 1,96 млн

Нейросети совершили прорыв в моделировании биомолекул — DeepMind выпустила AlphaFold3, за ней подтянулись Chai-2, Latent-X2 и Nabla, которые уже проектируют антитела и другие терапевтические белки. Общая логика улучшения таких моделей проста: масштабируешь данные, модель и вычислительные мощности. DeepMind в AlphaFold3 пошла дальше — предсказывала трёхмерные структуры для миллиардов последовательностей из метагеномных баз вроде MGnify. Идея в том, чтобы превратить «масштаб последовательностей» в «масштаб структур».

Но в Ligo Biosciences, где тренируют генеративные модели для дизайна ферментов, упёрлись в проблему. Автор поста Арда Горечи объясняет: природных последовательностей астрономически много, а вот их укладок (фолдов) — гораздо меньше, чем кажется. Когда попытались масштабировать тренировочные данные, просто достраивая структуры для новых последовательностей, выяснилось, что большинство новых примеров — это вариации одних и тех же фолдов, а не независимые структурные единицы.

Проблема осложняется тем, что предсказанные структуры — не то же самое, что кристаллографические. AlphaFold выдаёт целую цепь: домены, неупорядоченные хвосты, линкеры — много мусора. Простые фильтры по pLDDT отбрасывают хорошие домены вместе с плохими хвостами. В Ligo пошли глубже: разбили белки на графы по C-альфа-атомам, применили спектральную бисекцию (разрезание по собственному вектору Фидлера) и выделили компактные фрагменты, убрав линкеры. Затем собрали примерно 2 миллиона фрагментов из MGnify.

Для кластеризации использовали Foldseek, но проверили его на скрытые дубликаты — оказалось, что многие «синглтоны» на самом деле структурные близнецы. Добавили второй проход с TM-score и смержили кластеры. Результат шокировал: 1,96 миллиона фрагментов MGnify сжались в 25,3 тысячи структурных кластеров. При этом 71,5% всех фрагментов сидят в топ-1000 кластеров. Природа явно переиспользует небольшой набор стабильных укладок, а не исследует пространство равномерно.

Для дизайна ферментов это значит два пути. Первый — взять знакомый каркас (scaffold) и учиться с ювелирной точностью менять активный центр. Второй, более спекулятивный — возможно, эволюция просто не дошла до многих полезных фолдов, и модель, обученная на природной избыточности, сможет выйти за её пределы. Арда обещает ответить экспериментально — когда синтезированные ферменты проверят в лаборатории.