LLM породили сотни книг 100000 whys на Amazon

Спор, можно ли отличить текст, написанный человеком, от сгенерированного нейросетью, продолжается. Автор говорит, что многие скептики считают: раз LLM — это лучшие статистические модели человеческой речи, их вывод по определению неотличим от настоящего текста при любой статистической проверке. Но он считает, что этот аргумент не всегда честный — иногда за ним просто прячут нежелание признавать, что сами используют AI. Однако если вы искренне так думаете, посмотрите на это: скриншот с примерно 150 обложками книг на Amazon по запросу «100000 whys» (ссылка в статье). Некоторые из них — бестселлеры в категории детской литературы.

Ничего нечеловеческого в этих заголовках и обложках нет. Но вам вряд ли нужно объяснять, что это чистейший AI-шлак, который заполонил многие разделы non-fiction на Amazon. В чём тут дело? Инструменты квазидетерминированны: если сотня «авторов» даст своей любимой LLM похожий промпт — «сгенерируй справочник для детей», — модель выдаст почти одинаковый результат в 80% случаев.

Сходство выходит далеко за рамки названий. Взгляните на верхний ряд коллажа: на каждой обложке в левом верхнем углу нарисован рычащий динозавр. Есть и другие кластеры: повторяющаяся красно-белая мультяшная ракета, золотистый ретривер, лев и так далее. Именно это и выдаёт LLM-текст. Дело не в том, что у модели есть странные уникальные речевые обороты, которых нет у людей. Проблема в том, что на почти любой обычный промпт модель выдает один и тот же сложный набор приёмов. Сигнал размытый, поэтому не стоит увольнять стажёра, который говорит «вот это не то — вот это то». Но в неформальной обстановке своему чуду доверять можно. Эти интуитивные ощущения становятся всё важнее, потому что традиционные модели онлайн-взаимодействия рушатся, если создать контент стало гораздо легче, чем его осмыслить. И если вы используете LLM для автоматизации блога — да, технология классная, но скорее всего ваше издание уже можно переименовать в «100 000 Whys».