На прошлой неделе Министерство торговли США выпустило приказ, который запрещает «инфузию шума» (noise infusion) во всех статистических продуктах Бюро переписи населения (Census Bureau) и Бюро экономического анализа (Bureau of Economic Analysis). Разбираемся, что это значит.
Статистические продукты — это наборы чисел, опубликованные на основе секретных данных. Например, результаты переписи: цифры в открытом доступе, но каждая конкретная анкета должна оставаться тайной. Для защиты данных учёные используют disclosure avoidance — набор техник, которые маскируют информацию, не убивая полезность статистики. Среди них: подавление данных (не публиковать значения меньше порога), огрубление (замена даты рождения на возрастной диапазон), семплинг (случайное удаление записей), сваппинг (обмен атрибутами между записями), ограничение вклада (чтобы один человек не влиял на статистику слишком сильно) и добавление шума (случайного числа для скрытия истинного значения).
Комбинация ограничения вклада и точно выверенного шума даёт дифференциальную конфиденциальность (differential privacy). Среди учёных это золотой стандарт защиты.
С 1990 по 2010 год Бюро переписи в основном полагалось на сваппинг. Но потом выяснилось: эта техника очень небезопасна — по опубликованным данным легко восстановить отдельные записи. А закон требует их конфиденциальности. Поэтому для переписи 2020 года выбрали дифференциальную конфиденциальность: из рабочих вариантов она сохраняла максимум полезности. Но цифры всё равно стали менее точными, чем в 2010-м. Демографы и социологи больше не могли игнорировать шум в данных. А политические операторы лишились инструмента для джерримендеринга — восстановления адресов по статистике, что было открытым секретом.
Теперь администрация решила: шум больше недопустим. Приказ явно бьёт по дифференциальной конфиденциальности и другим случайностным техникам. Текст настаивает: предпочитать огрубление, а подавление использовать только в крайнем случае. При этом конфиденциальность данных никто не отменял — закон остаётся в силе.
На практике последствия будут либо для полезности, либо для конфиденциальности, а скорее всего — для обеих. Будущие статистические релизы станут либо бесполезными, либо опасными. Убрать лучший инструмент (дифференциальную конфиденциальность) — значит вернуться к худшим компромиссам. Все альтернативы тоже полагаются на шум — Cell Key method, сваппинг, семплинг. А огрубление и подавление — грубые инструменты. Для сложных данных вроде переписи они либо уничтожат полезность (особенно для меньшинств), либо не защитят от атак. Без шума взлом статистики превращается в тривиальную задачу.
Зачем это сделали? Возможно, чтобы разрешить реидентификацию для джерримендеринга. Или наоборот — остановить публикацию данных, которые показывают несправедливое неравенство. Или по принципу бритвы Хэнлона: проще сделать вид, что проблемы нет.