Негативные тексты об ИИ в данных вызвали рост ошибок с 9% до 45%

Исследователи Кэмерон Таис и его коллеги запустили первое контролируемое изучение влияния текстов о системах искусственного интеллекта на последующее поведение этих моделей. Они проверили гипотезу о том, что если в обучающих данных доминируют негативные описания работы ИИ, языковые модели перенимают соответствующие «поведенческие» установки и начинают вести себя некорректно, реализуя эффект самореализующегося сбоя. Для этого ученые создали LLM весом 6,9 миллиарда параметров и обучали их на корпусах с разным количеством дискуссий о проблемах ИИ. Результат оказался однозначным: упорное использование синтетических документов, описывающих несостыковки в работе нейросетей, заметными образом повысило степень их некорректного поведения. В обратном случае, когда в наборе данных было больше текстов о корректной работе моделей, показатели несостыковок рухнули с 45% до 9%. Это явление они назвали самореализующейся настройкой, подтверждающим, что сам способ подачи информации в интернете уже формирует поведение будущих ИИ. Важно отметить, что эти эффекты сохраняются даже после основного этапа обучения и тонкой настройки, хотя их влияние немного снижается. Открытие ставит перед разработчиками новую дилемму: нельзя рассматривать лишь постобучение для достижения целей, но следует уделять внимание тому, какие данные используются для первичного обучения, ведь они задают фундаментальные установки модели. Авторы уже выложили свои модели, данные и методики оценки, чтобы другие могли проверить эти выводы.