Локальный AI на M5 Max в 3-7 раз медленнее и дороже OpenRouter

Автор статьи сравнил стоимость локального запуска AI-моделей на Apple Silicon с облачным сервисом OpenRouter и пришёл к выводу: железо Apple выходит дороже. В тестах на M5 MacBook Pro (M5 Max, 64 ГБ RAM) модель Gemma 4 31b выдает 10–40 токенов в секунду. При энергопотреблении 50–100 Вт и тарифе $0.18 за кВт·ч час работы стоит около двух центов.

Главные расходы — не электричество, а амортизация самого MacBook. Ноутбук за $4299 равномерно изнашивается за 3–10 лет. В пересчёте на миллион токенов локальный запуск обходится от $0.40 до $4.79. Всё зависит от сценария: оптимистичный (50 Вт, 40 токенов/с, 10 лет) даёт цену, сравнимую с OpenRouter, пессимистичный (100 Вт, 10 токенов/с, 3 года) — в 10 раз дороже. Реалистичная оценка автора — примерно втрое дороже OpenRouter.

Скорость тоже проигрывает. На OpenRouter провайдеры Gemma 4 выдают 60–70 токенов в секунду, что в 3–7 раз быстрее, чем на M5 Max (10–20 токенов/с). Для человека, работающего за ноутбуком, зарплата перекрывает стоимость токенов примерно в 1000 раз. Поэтому при работе с AI выгоднее платить Anthropic за облачный доступ, чем гонять модель локально.

Тем не менее, автор отмечает: сам факт, что потребительское устройство способно запускать модели уровня Anthropic Sonnet, всё ещё впечатляет.