Наш общедоступный набор данных о вредоносных программах, сгенерированный Cuckoo Sandbox на основе API ОС Windows, вызывает анализ для исследователей кибербезопасности для анализа вредоносных программ в формате файла CSV для приложений машинного обучения.

Github: https://github.com/ocatak/malware_api_class

Если вы найдете эти результаты полезными, пожалуйста, процитируйте их:

@misc{ mal-api-2019,
   author = "Catak, FÖ. and Yazi, AF.",
   title = "A Benchmark API Call Dataset for Windows PE Malware Classification",
   year = "2019",
   url = "https://arxiv.org/abs/1905.01999",
   note = "[arXiv:1905.01999 ]"
 }

Введение

Это исследование направлено на получение данных, которые помогут устранить пробелы в исследованиях вредоносных программ на основе машинного обучения. Конкретной целью этого исследования является создание эталонного набора данных для вызовов API операционной системы Windows различных вредоносных программ. Это первое исследование метаморфного вредоносного ПО для создания последовательных вызовов API. Я надеюсь, что это исследование будет способствовать более глубокому пониманию того, как метаморфические вредоносные программы меняют свое поведение (т. е. вызовы API), добавляя бессмысленные коды операций со своими собственными частями диссемблера/ассемблера.

Типы вредоносных программ и система в целом

В ходе нашего исследования мы преобразовали семейства, создаваемые каждым программным обеспечением, в 8 основных семейств вредоносных программ: троян, бэкдор, загрузчик, черви, шпионское рекламное ПО, дроппер, вирус. В таблице 1 показано количество вредоносных программ, принадлежащих к семействам вредоносных программ в нашем наборе данных. Как видно из таблицы, количество образцов других семейств вредоносных программ, кроме AdWare, довольно близко друг к другу. Такая разница есть, потому что мы не находим слишком много вредоносного ПО из семейства рекламного ПО.

На рисунке показан общий поток генерации набора данных вредоносного ПО. Как показано на рисунке, мы получили хэш-значения MD5 вредоносных программ, которые мы собираем с Github. Мы провели поиск этих хеш-значений с помощью VirusTotal API и получили семейства этих вредоносных программ из отчетов 67 различных антивирусных программ в VirusTotal. Мы заметили, что семейства вредоносных программ, обнаруженные в отчетах этих 67 различных антивирусных программ в VirusTotal, различаются.