Команда IBM выпустила Granite 4.1 с поддержкой речи и зрения

Команда IBM выпустила семейство моделей Granite 4.1, созданное для интеграции в реальные корпоративные системы. Коллекция охватывает маленькие языковые модели (SLM), а также инструменты для работы со звуком, зрением, эмбеддингами и безопасности. Новые версии работают эффективнее предшественников: например, базовая модель в 8 миллиардов параметров показывает результаты не хуже, чем более тяжелая смесь экспертов на 32 миллиарда из предыдущей версии. При этом Granite 4.1 использует более простую архитектуру, что упрощает дообучение для конкретных задач. Разработчики могли выбрать между моделями на 3B, 8B и 30B параметров, где 8B-версия на латинице демонстрирует лучшее соотношение эффективности и затрат. В отличие от популярных моделей с цепочками рассуждений, эти модели работают быстрее и стабильнее, что критично для предприятий.

Ключевым моментом стала методология обучения, где IBM сделала акцент на качестве данных, а не на их объеме. Модель прошла обучение на около 15 триллионов токенов, постепенно переходя к сложным техническим темам. Этот подход позволил контекстному окну достичь 512K токенов без потери скорости на коротких текстах. Для повышения точности команда использовала многостадийное обучение с подкреплением, отдельно оттачивая навык следовать инструкциям, поддерживать диалог или решать математические задачи.

В состав также вошли Granite Vision 4.1 для анализа документов и Granite Speech 4.1 для обработки речи. Модуль зрения умеет читать таблицы и графики из накладных, извлекая важные реквизиты. Разработчики внедрили метод распределения визуальной информации между слоями нейросети и использовали набор данных ChartNet с миллионами примеров. В области распознавания речи модель на 2 миллиарда параметров набрала 5.33% ошибки слова, заняв лидерскую позицию в рейтинге OpenASR. Вариант 2B NAR генерирует целые последовательности сразу, а не по одному символу, что повышает использование видеокарт и скорость работы. Ранее IBM уже применяла подобные модели для расшифровки речи врачей в шумной обстановке самолетов.

За безопасность отвечает Granite Guardian 4.1, который заменил версию 3.3. Он фильтрует вредный контент, галлюцинации и попытки взломать защиту, опираясь на данные из AI Risk Atlas. Модель работает как модератор в любых системах, независимо от лицензии базового движка. Также вышла Granite Embedding Multilingual R2, поддерживающая более 200 языков и улучшающая поиск по большим документам. Все модели Granite 4.1 доступны под лицензией Apache 2.0 и можно запустить на платформах watsonx или Hugging Face, а также оптимизированы для runtimes vLLM, SGLang и llama.cpp. Это дает возможность развернуть системы как в облаке, так и локально, делая ИИ-инфраструктуру модульной и управляемой.