Обнаружение фишинговых (вредоносных) веб-сайтов с помощью машинного обучения

Различить вредоносные и законные веб-сайты не всегда легко, поскольку в наши дни злоумышленники очень умны и склонны создавать и размещать веб-сайты, казалось бы, законными способами. Эти веб-сайты, созданные со злым умыслом, такие как кража учетных данных пользователя, распространение вредоносных программ и мошенничество, называются фишинговыми веб-сайтами или доменами. Фишинг сам по себе является формой социальной инженерии. Итак, что же такое социальная инженерия?

Социальная инженерия — это психологическое манипулирование человеком с целью получения от него полезной и конфиденциальной информации, которая впоследствии может быть использована для компрометации его самого или системы, к которой у него есть доступ. Примеры атак социальной инженерии включают фишинг, погружение в мусорные контейнеры, серфинг через плечо и т. д.

Чтобы отличить вредоносные веб-сайты от законных, необходимо обратить внимание на ключевые особенности. Они включают:

IP-адреса в URL-адресах. Всякий раз, когда вы видите URL-адрес с IP-адресом, это должно вызывать у вас подозрения. IP-адрес имеет формат 127.0.0.1 (ipv4) или 23041:0db8:88a3:0000:0000:7b2e:0370:7334 (ipv6). Поэтому, если вы видите URL-адрес в формате www.127.0.0.1.com, не доверяйте ему и изучите его дополнительно.

2.Чрезвычайно длинные URL-адреса. Всякий раз, когда кто-то отправляет вам слишком длинный URL-адрес, ваши брови определенно должны подняться. По словам исследователей, URL-адресам, содержащим более 54 символов, не следует полностью доверять. Эти ссылки также часто не читаются, поскольку представляют собой просто набор символов, не имеющих никакого значения.

3. Сокращенные URL-адреса. Чтобы решить проблему номер 2, злоумышленники часто используют службы сокращения URL-адресов для сокращения своих URL-адресов. Сокращенный URL-адрес может иметь вид https://bit.ly/xxxv. Приятно отметить, что многие законные также используют эти сервисы, поэтому вам просто нужно изучить отдельные домены, чтобы быть уверенным.

4. Видеть @ в URL-адресах. Всякий раз, когда вы видите @ в URL-адресе, это должно вызывать у вас подозрения. Пример: [email protected].

5. Перенаправление символов в URL-адресах: видеть две косые черты // после первого домена в URL-адресах часто нехорошо. Две косые черты // перенаправляют на другой сайт. Злоумышленники могут использовать это для перенаправления целей на веб-сайт, который они контролируют, хотя некоторые браузеры хорошо справляются с удалением одной косой черты и делают URL-адрес бесполезным. Пример: http://www.legitimate.com//http://www.malicious.com

6.Добавление префиксов или суффиксов, разделенных -, к URL-адресу: Злоумышленники часто пытаются манипулировать жертвами, используя известные законные веб-сайты и добавляя небольшие настройки. Например, www.check-paypal.com не имеет ничего общего с реальным сайтом Paypal, но, поскольку мы видим PayPal в URL-адресе, естественно чувствовать себя комфортно, нажимая на ссылку.

Суть демонстрации этих функций состоит в том, чтобы помочь нам узнать, как идентифицировать вредоносные веб-сайты, а также показать нам факторы, которые учитывались при сборе данных, которые мы собираемся использовать в нашем алгоритме машинного обучения. Данные были предоставлены нам Университетом Калифорнии, Ирвин, UCI. Многие исследователи безопасности работали над сбором и анализом данных, поэтому мы знаем, чтонаходимся в надежных руках.

Переходим к тому, как работает наш алгоритм Machine Learning. Важно отметить, что собранные данные содержат образцы как законных, так и вредоносных веб-сайтов, учитывая функции, которые мы обсуждали, и многое другое. После сбора данных мы загружаем их и разбиваем на входные и выходные переменные. Выходной переменной являются известные состояния веб-сайтов (вредоносные или законные). Мы идем дальше и разделяем уже разделенные данные на данные обучения и тестирования. Обучающие данные обычно составляют от 70 до 80% данных, а тестовые данные — от 20 до 30%. Обучающие данные изучают определенные шаблоны вредоносных и законных веб-сайтов, затем делают свои прогнозы и классификации и проверяются на тестовых данных для определения точности. Наша модель имеет точность 95–96 %. Это означает, что он способен обнаруживать 95–96 из 100 вредоносных веб-сайтов, что неплохо.

С такой точностью наши обучающие данные готовы к передаче в систему реального времени для обнаружения фишинговых доменов. Очевидно, это операция классификации. В нашей программе мы использовали деревья решений для прогнозов и классификаций. Я надеюсь, что вы найдете это полезным.

Чтобы получить доступ к коду: Muhammad-aa/Phishing-Domain-Detection: Это программа Python, использующая машинное обучение для обнаружения фишинга (вредоносного ПО). сайты. (github.com)

Свяжитесь со мной:[email protected]

Обнаружение фишинговых (вредоносных) веб-сайтов с помощью машинного обучения

Вопросы по теме