Компания Biohub анонсировала выпуск «мировой модели» биологии белков — открытого движка для предсказания, дизайна и открытий. Релиз включает три компонента: ESMC, ESMFold2 и ESM Atlas.
Белки — это молекулярные машины жизни. Почти всё в организме зависит от них, но спроектировать стабильный и работающий белок невероятно сложно. ESMC — это языковая модель, обученная на примерно 2,8 миллиарда последовательностей со всего древа жизни. Гипотеза в том, что модель сама выучивает фундаментальные правила, по которым белки сворачиваются, взаимодействуют и работают.
ESMFold2 — это движок дизайна. Он превращает представления ESMC в трёхмерные структуры белковых комплексов с точностью, сравнимой с AlphaFold 3. В предпечатной статье описаны эксперименты: исследователи спроектировали с помощью ESMFold2 связывающие белки (binders) против пяти мишеней, важных для онкологии и иммунологии — EGFR, PDGFRβ, PD-L1, CTLA-4 и CD45. Поиск занял дни вместо месяцев. Лабораторные тесты подтвердили связывание: hit rate для компактных минибелков составил 36–88%, для антителоподобных форматов — 15–29%. Для PD-L1 спроектированные белки восстановили T-клеточную сигнализацию.
ESM Atlas — это навигационная база данных: 6,8 миллиардов белковых последовательностей и 1,1 миллиарда предсказанных структур. Atlas организует белки по связям, которые модель выучила сама, и находит эволюционные связи между, например, ферментами редактирования генов из далёких друг от друга ветвей жизни. Многое из этой биологии никогда не было аннотировано.
Все три инструмента свободно доступны научному сообществу на платформе Biohub Platform. Руководитель научного отдела Biohub Алекс Райвз отметил, что модели настолько хорошо выучили «мировую модель» биологии, что спроектированные на компьютере интерфейсы работают в лаборатории как предсказано. Сооснователь Biohub доктор Присцилла Чан подчеркнула: открытая наука ускоряет открытия, а свободный доступ к этим инструментам поможет исследователям быстрее двигаться к персонализированным методам лечения.