Утечка информации об Эшли Мэдисон в июле 2015 года снова пришла мне в голову на прошлой неделе, когда в новостях появилась крупная утечка от подрядчика RNC (см. Статья об этом на прошлой неделе).

Спустя два года Эшли Мэдисон все еще работает. Давайте посмотрим, сколько людей, адреса которых просочились в июле 2015 года, все еще используют тот же адрес электронной почты, или, по крайней мере, подсчитаем те адреса, которые не были удалены.

У меня все еще есть файлы на моем жестком диске с последнего погружения в данные, которое я сделал, когда произошла утечка набора данных. Хороший! Далее: Сколько писем было в моей очистке базы данных? Ответ: 32 830 362. Сократив число дубликатов, мы получаем 27 976 879 уникальных адресов электронной почты для проверки. Это много, поэтому эта задача будет выполняться в выделенном кластере облачных вычислений на случай, если какой-нибудь сервер почтового хостинга разозлится и заблокирует нас за то, что мы задаем слишком много вопросов. Взглянув на результаты для первой 1000 адресов, мы видим, что действительными являются только 82 из них. Это меньше 1%. Это кажется логичным. Зачем продолжать использовать адрес электронной почты, который был раскрыт? Давайте посмотрим, верно ли это для большей выборки.

Давайте запустим 28 компьютеров, чтобы работать над этим в масштабе, и разделим работу между компьютерами, чтобы взять 5% выборки данных. Давайте сделаем 50 000 записей на компьютер. При 1 записи в секунду на 28 компьютерах это должно занять около 13 часов. Мы проверим код, упомянутый в этом прошлом посте. Люди, использующие эти адреса, никогда не узнают, что мы их проверили. Если, конечно, они это не читают, в таком случае не волнуйтесь. В этой статье не будет раскрываться личная информация о жертвах утечки.

Результаты

В отличие от первоначального просмотра 1000 адресов, более глубокое изучение 5% выборки данных показало, что 29,1% оцененных адресов по-прежнему являются действительными адресами электронной почты.

При более глубоком рассмотрении примера на приведенной ниже диаграмме видно, что подавляющее большинство адресов электронной почты, которые все еще действуют, относятся к hotmail, gmail или yahoo.

Давайте посмотрим, какой вклад вносит каждая услуга в общую сумму. Приведенная ниже диаграмма дает нам хорошее представление о том, что каждая из 28 групп из 50 000 записей пришла в основном к одному и тому же выводу: многие люди, которые использовали общедоступные службы электронной почты для входа на Ashley Madison, не удаляли свой адрес электронной почты.

Обратите внимание, что из этих новых данных Эшли Мэдисон на рисунке выше вытекает несколько паттернов. Количество адресов, которые все еще живы сегодня, всегда больше для yahoo, чем для gmail, и всегда больше для gmail, чем для hotmail. Эта закономерность в выборке данных дала мне огромный вздох облегчения. Первоначально необработанные данные казались несколько искаженными. В частности, изображение ниже было моим первым взглядом на эту большую выборку, и я подумал, что восходящий тренд слева направо имеет смысл. Оказывается, это просто случайно. Жутко однако.

Вывод

Что ж, это было весело! Теперь я собираюсь удалить кластер и необработанные данные электронной почты вместе с ним. Ради этого поста я оставлю сводки и анализ в Google-документе.

Это был отличный пример того, как я манипулирую большими данными для клиентов в мире ИИ и Интернета вещей. Часто то, что действительно хорошо работает для 100 000 записей, плохо работает при 27 976 879 записях.

Удачного кодирования!

-Даниэль
[email protected] ← Передай привет.
Lemay.ai
1(855)LEMAY-AI

Другие статьи, которые могут вам понравиться: