Анонимность в интернете больше не стоит считать надёжной.
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800