Суббота, 7 марта, 2026

В центре внимания

LLM раскрывают анонимов, ИИ способен идентифицировать пользователей с точностью до 90%

Группа исследователей из Швейцарской высшей технической школы Цюриха (ETH Zurich) и Anthropic выяснила, что большие языковые модели (LLM) способны выявлять личности пользователей, скрывающихся за анонимными аккаунтами в интернете. Согласно отчету, такие методы могут работать в больших масштабах и с высокой точностью.

Это ставит под сомнение традиционную роль псевдонимности как базовой формы защиты конфиденциальности, считают аналитики.

Общая схема деанонимизации пользователей с помощью LLM. Источник: ETH Zurich.
Общая схема деанонимизации пользователей с помощью LLM. Источник: ETH Zurich.

В опубликованной научной статье говорится, что ИИ способен сопоставлять аккаунты и сообщения пользователей на разных платформах. При этом модели анализируют свободный текст и косвенные признаки.

В экспериментах показатель так называемой «полноты» — доли успешно деанонимизированных пользователей — достиг 68%. Что касается точности идентификации, то она доходила до 90%.

Как это работает?

В рамках исследования ученые использовали несколько наборов данных из публичных источников.

Один из экспериментов связывал профили пользователей Hacker News и LinkedIn через межплатформенные ссылки. После этого из сообщений удаляли все прямые идентификаторы и анализировали их с помощью языковой модели.

Другой метод использовал данные, похожие на набор Netflix Prize, содержащий микроидентификаторы вроде предпочтений и истории действий пользователей. Такие данные позволяют восстановить личность человека даже при отсутствии прямых указаний на его имя.

Пример идентификации анонимного аккаунта на основе извлеченных признаков. Источник: ETH Zurich. 
Пример идентификации анонимного аккаунта на основе извлеченных признаков. Источник: ETH Zurich. 

В отдельных тестах исследователи анализировали активность пользователей Reddit.

Например, обсуждение фильмов в нескольких тематических сообществах позволяло выявлять часть пользователей с высокой точностью. При обсуждении более десяти фильмов точность идентификации достигала 90% для почти половины пользователей и 99% для примерно 17%.

Угроза для приватности

По словам одного из авторов исследования Саймона Лермена, ключевое отличие современных методов в том, что LLM способны анализировать свободный текст и постепенно выстраивать полную картину личности человека. Ранее для таких задач требовались структурированные базы данных и сложные алгоритмы сопоставления.

Исследователи предупреждают, что такие технологии могут сделать массовую деанонимизацию дешевой и быстрой. Это открывает возможности для доксинга, преследования и создания детальных маркетинговых профилей пользователей.

Авторы работы считают, что платформам следует ограничивать массовый доступ к пользовательским данным через API.

Кроме того, они предложили отслеживать автоматический сбор. Разработчики ИИ также могли бы внедрять механизмы, которые предотвращают использование моделей для целенаправленной деанонимизации, считают ученые.

В противном случае, отмечают авторы, подобные инструменты могут использоваться государствами для выявления онлайн-критиков. При этом компании будут использовать их для гипертаргетированной рекламы, а злоумышленниками — для создания масштабных мошеннических схем.

Напомним, что США использовали ИИ-модель Anthropic для атаки на Иран.

spot_img

В центре внимания

spot_imgspot_img

Не пропусти