Португальцы создали закрытую модель AMÁLIA с нулевыми весами

В декабре 2024 года правительство Португалии анонсировало проект AMÁLIA — инвестиции в размере 5,5 миллиона евро на создание крупномасштабной языковой модели для европейского португальского языка. Проект стал результатом коллаборации топовых университетов и исследовательских лабораторий страны, таких как NOVA, IST, IT и FCT. В отличие от многих аналогов, AMÁLIA не обучалась с нуля, а продолжала фазу предобучения проекта EuroLLM, архитектура которого оставалась той же, лишь с незначительными модификациями контекстного окна. Ключевой фокус сместился на данные: для предобучения использовали ресурсы Арquivo.pt, а на этапе дообучения синтезировали португальский контент, стараясь увеличить долю именно европейского языка в обучающей выборке. При всей впечатляющей работе исследователей возникает важный вопрос прозрачности, если государство вкладывает такие деньги. Критик отмечает, что стандарт полной открытости задаёт проект Olmo, где открыты веса, данные, код и логи обучения. В случае же с AMÁLIA пока нельзя найти веса модели, исходные данные или логи обучения в открытом доступе, есть лишь несколько репозиториев на GitHub. Несмотря на то что проект признают достойным гордости, отсутствие прозрачности вызывает сомнения. Анализ показывает, что явных данных из Арquivo.pt было всего около 5,5% от 107 миллиардов токенов предобучения, а на этапе дообучения доля достигает лишь 17–18%, что может быть недостаточно для полноценной специфики региона. Хотя модель успешно обходит такие SOTA-решения, как Qwen 3-8B, на большинстве португальских бенчмарков, она проигрывает на тесте ALBA. Команда создала четыре новых бенчмарка, проверяющих грамматику, синтаксис, общие знания и смещение в сторону бразильского варианта. Однако есть один упущенный аспект: сколько модель знает о самой Португалии. Тесты на знание местных десертов или президентов между 1978 и 1985 годами не входят в текущую систему оценки. Лучше всего решить этот вопрос на этапе предобучения, используя больше локальных данных, что требует ещё больше креатива при поиске информации. Автора пересказа не устраивает, что даже при таких успехах критически важные компоненты вроде весов и датасетов замкнуты. Будущее европейского португальского выглядит ярким, но только при условии, что команда продолжит держать в открытом доступе мозги, веса, данные и системы оценки.