Европейская комиссия в рамках Закона о цифровых рынках (DMA) предложила норму, которая обяжет Google передавать поисковые данные третьим лицам через автоматизированный программный интерфейс (API). Эксперты по кибербезопасности и конфиденциальности предупреждают: механизм анонимизации данных перед передачей содержит фундаментальные изъяны и способен открыть путь к массовой слежке за пользователями в Европейском союзе (ЕС).
Источник изображения: Chris Yang / unsplash.com
DMA нацелен на крупные технологические компании — «привратники» (англ. — gatekeepers) вроде Google и должен открыть цифровые рынки для конкуренции. Однако предлагаемая норма, по мнению критиков, может обернуться рисками для конфиденциальности европейских пользователей и национальной безопасности. Опасения высказал Лукаш Олейник (Lukasz Olejnik), известный специалист по кибербезопасности и защите данных. Он изучил проект документа, цель которого — стимулировать конкуренцию, обязав Google предоставлять квалифицированным компаниям доступ к поисковым данным. По оценке Олейника, предложенная система анонимизации не помешает повторно идентифицировать пользователей, а сам механизм открывает дорогу масштабному сбору конфиденциальных сведений.
Новая норма обязывает Google непрерывно передавать поисковую активность по всему ЕС через API. В передаваемый массив данных, по имеющимся сведениям, входят полные тексты запросов, временны́е метки, приблизительные координаты пользователя, язык, тип устройства, а также детальные сигналы поведения: клики, прокрутка страниц, уточнения запросов. IP-адреса и идентификаторы учётных записей предполагается удалять, однако, как утверждает Олейник, оставшихся данных хватит для деанонимизации.
Фрагмент проекта Европейской комиссии, в котором выделено требование к Alphabet передавать любые введённые пользователями поисковые запросы в Google Search, включая модификации запросов и метаданные. Источник изображения: blog.lukaszolejnik.com
Система анонимизации строится на модели «белого списка», также часто называемой «разрешительным списком» (англ. — allowlist model). Отдельные компоненты поисковых запросов — имена или ключевые слова — допускаются к передаче, если их вводили не менее 50 авторизованных пользователей за 13 месяцев. Раз попав в список, компонент остаётся там на срок до пяти лет. Порог, однако, действует только для фрагментов запросов, а не для запросов целиком: уникальные или конфиденциальные поиски, составленные из распространённых слов, всё равно могут попасть в выгрузку.
Олейник подчёркивает, что такая архитектура открывает дорогу целенаправленным манипуляциям. Злоумышленники могут «засеивать» систему: запускать повторные запросы с множества аккаунтов, чтобы протолкнуть нужные термины в разрешительный список. После одобрения такие термины позволят годами отслеживать конфиденциальные запросы, связанные с конкретными людьми, организациями или темами.
Схема деанонимизации: владелец веб-сайта сопоставляет журнал посещений с выгрузкой Google и узнаёт конфиденциальный запрос пользователя. Источник изображения: blog.lukaszolejnik.com
Передаваемые данные легко сопоставить с внешними источниками. В потоке есть адреса страниц, на которые переходили пользователи, и обобщённое время взаимодействия. Владельцам веб-аналитики или отслеживающих скриптов хватит этого, чтобы соотнести поисковые записи с журналами посещений и восстановить индивидуальные истории поиска — даже когда прямые идентификаторы удалены.
Геолокация — ещё одна слабая точка системы. Координаты обобщаются в «корзины» площадью не менее 3 км² с охватом от 1 000 пользователей, но такие зоны всё же могут совпадать с конкретными районами, кампусами или правительственными кварталами. Со временем наблюдатели смогут отследить поисковые закономерности вблизи медицинских учреждений, государственных организаций или режимных объектов.
Наблюдатель собирает профиль пользователя, отслеживая ежедневные поисковые запросы из привязанной к известному месту географической «корзины». Источник изображения: blog.lukaszolejnik.com
Олейник называет предложение одной из самых серьёзных потенциальных угроз утечки данных в Европе за последние годы. Действующие гарантии, по его оценке, опираются скорее на процедурный контроль, чем на надёжную техническую защиту. Исследователь не согласен и с самим допущением, что частотные пороги и частичная анонимизация способны предотвратить злоупотребления.