Strong convexity и L-smoothness: квадратичный сэндвич для сходимости

Если вы когда-нибудь минимизировали функцию градиентным спуском, то замечали: одни функции оптимизируются легко, другие — кошмар. Разница упирается в два свойства: strong convexity и L-smoothness. Вместе они образуют «квадратичный сэндвич» — функция зажата между двумя параболами. Нижняя парабола (с кривизной μ) говорит, что функция не может быть слишком пологой, верхняя (с кривизной L) — что не может быть слишком крутой. Если сэндвич плотный, градиентный спуск работает быстро. Если один из «ломтиков» отсутствует — начинаются проблемы.

Strong convexity гарантирует, что функция изгибается вверх от касательной с минимальной кривизной μ. Это значит, что нет плоских участков — градиент всегда меняется и подсказывает, далеко ли до минимума. L-smoothness, наоборот, ограничивает максимальную кривизну: градиент не может дёргаться слишком резко. Если вы сделали шаг, опираясь на локальный градиент, вы не окажетесь в неожиданно крутом овраге.

Соотношение κ = L/μ называется condition number. Когда κ близко к 1, функция почти как квадратичная — градиентный спуск сходится быстро. Когда κ большое, одни направления искривлены сильно, другие — почти плоские, и единый шаг не подходит: начинаются зигзаги.

На уровне гессиана всё просто: strong convexity означает, что все собственные значения гессиана ≥ μ > 0. L-smoothness — что все собственные значения ≤ L. Спектр гессиана лежит в отрезке [μ, L]. Чем шире отрезок, тем более «вытянутым» становится эллипсоид гессиана, и тем хуже поведение градиентного спуска.

Проверить эти свойства можно без вычисления собственных значений, сводя задачу к обычной выпуклости. Функция f является L-гладкой тогда и только тогда, когда g(x) = (L/2)||x||² − f(x) выпукла. И f является μ-сильно выпуклой тогда и только тогда, когда h(x) = f(x) − (μ/2)||x||² выпукла. Это работает через гессиан: у g он равен LI − ∇²f, что неотрицательно определён, когда все собственные значения ∇²f ≤ L.

Без strong convexity (μ = 0) нижняя граница становится плоской — градиент перестаёт показывать расстояние до минимума, как в функции L1-нормы. Без L-smoothness (верхняя граница отсутствует) кривизна может взрываться: шаг, хороший для пологой области, выкинет вас далеко в сторону. Вдвоём они дают надёжную и богатую информацию: strong convexity — что градиент меняется значимо, L-smoothness — что эти изменения предсказуемы. Идеальный сэндвич бывает только у квадратичных функций — тогда градиентный спуск сходится за один шаг.