ИИ достиг точности 82% в анализе текста, обогнав врачей

Исследование из Гарварда показало, что искусственный интеллект превзошел врачей по точности диагностики в условиях экстренной помощи. Эксперты назвали результаты настоящим прорывом в клиническом мышлении машин. Испытания охватили сотни докторов и сравнили их решения с ответами нейросетей. Опубликованные в журнале Science данные указывают, что большие языковые модели (LLMs) уже обогнали большинство контрольных показателей.

В одном из экспериментов с участием 76 пациентов из отделения неотложной помощи бостонской больницы ИИ определил верный диагноз в 67% случаев, тогда как врачи справились с 50%-55%. Преимущество машин стало очевидным при принятии быстрых решений с минимумом данных. Точность системы OpenAI o1 достигла 82% при наличии подробной информации, что выше, чем у врачей (70-79%), хотя разница не была статистически значимой. Кроме того, ИИ составил лучшие долгосрочные планы лечения, например, схемы антибиотиков или протоколы паллиативной помощи. В тесте на пяти клинических случаях компьютер набрал 89%, против 34% у врачей, используя стандартные ресурсы вроде поисковиков.

Однако это не конец для медика-человека. Исследование проверяло работу с текстовыми данными пациента, но не оценивало анализ визуальных сигналов и уровня distress, что ИИ пока не умеет делать так же хорошо. Арджун Манраи из Гарвардской медицинской школы заявил, что ИИ не заменяет врачей, но технология кардинально меняет медицину. Доктор Эдам Родман добавил, что за последнее десятилетие мы увидим появление новой «триадической модели помощи»: врач, пациент и система ИИ. Примером стал случай с эмболией легочной артерии: люди ошиблись, но ИИ заметил историю волчанки пациента, которая объясняла воспаление, и оказался прав.

Почти один из пяти врачей в США уже использует ИИ для диагностики, а в Великобритании 16% специалистов применяют технологии ежедневно, а еще 15% — еженедельно. Основная тревога коллег в Британии связана с ошибками ИИ и рисками ответственности. Профессор Юэн Харрисон отметил, что системы перестали просто сдавать экзамены, став полезными вторым мнением для врачей, особенно когда важно рассмотреть широкий круг диагнозов. Но доктор Вэй Синг предупредил: есть риск, что медики будут бессознательно перекладываться на ответ машины вместо самостоятельного мышления. Также неизвестно, с какими группами пациентов ИИ справляется хуже, например пожилыми людьми или неанглоговорящими людьми. Исследование не доказывает безопасность ИИ для рутинной клиники, а свободные инструменты не стоит считать заменой профессионального совета.