Czukerberg разрешил скачать 267 ТБ для Llama и потерял рынок

Издательский конгломерат, состоящий из Hachette, Macmillan, McGraw Hill, Elsevier, Cengage и писателя Скотта Тьюро, подал иск к Meta и её гендиректору Марку Цукербергу в суд округа Нью-Йорк. Истцы утверждают, что Meta незаконно скопировала миллионы книг и статей для обучения своей модели искусственного интеллекта Llama. В жалобе приводится цитата из миссии компании: «действовать быстро и ломать вещи», что, по мнению авторов иска, стало руководством к действию для пиратского скачивания контента с известных сайтов и сбора данных со всего интернета. Заявители называют это одним из самых масштабных нарушений авторских прав в истории. В ответное заявление представитель Meta заявил, что обучение нейросетей на защищённом контента может считаться добросовестным использованием, и пообещал защищаться агрессивно.

Это не единственный случай: ранее суд уже признавал действия Meta правомерными в отношении других авторов, включая Сара Сильверман и Хуното Диас. Тогда судья Винсент Чхabria постановил, что использование почти 200 тысяч книг попадает под доктрину fair use. Однако в данном иске утверждается, что Meta намеренно обошла механизмы защиты авторских прав. Истцы пишут, что компания изначально рассматривала оплату лицензий: в жалобе упоминается, что бюджет на лицензирование был увеличен до 200 миллионов долларов в первой половине 2023 года. Тем не менее, по словам сотрудников Meta, после повышения вопроса к Цукербергу в апреле 2023 года стратегию лицензирования свернули. Один из сотрудников отметил, что если купить одну книгу, это сорвет общую стратегию добросовестного использования.

Внутрикорпоративная переписка от 13 декабря 2023 года подтверждает, что руководство было ознакомлено с рисками использования репозитория LibGen, который Meta называла пиратским набором данных. Несмотря на предупреждения, Цукерберг и топ-менеджеры санкционировали скачивание более 267 терабайт пиратского контента, что равнозначно сотням миллионов публикаций. Иск также заявляет, что Meta удалила информацию об управлении авторскими правами из украденных файлов, чтобы скрыть источники данных. По итогам обучения модель Llama создаёт прямые замены работ правообладателей: от дословных копий и переписанных глав учебников до подражаний стилю конкретных авторов, что наносит прямой ущерб рынкам оригинального контента.