Эта история изначально была опубликована на NOVA Next.

Если вы планируете кибератаку на федеральное правительство, не обсуждайте это в социальных сетях. Это кажется здравым смыслом, но опытные хакеры, стремящиеся использовать уязвимости программного обеспечения, часто используют онлайн-форумы для обмена стратегиями и определения целей.

Несмотря на достижения в области современных технологий, сегодня аналитики по-прежнему полагаются на трудоемкий ручной поиск для просеивания интернет-контента и выявления киберугроз. Исследователи из лаборатории Линкольна описали простой автоматизированный метод оптимизации этого процесса — простой почти так же важен, как и автоматизированный, — который недавно был опубликован в собственном журнале лаборатории.

Хотя автоматизированные методы и кибербезопасность были хорошо изучены в соответствующих областях исследований, эта статья является одной из первых работ, объединяющих эти две вещи, сказал Юхэн Ху, доцент кафедры информации и принятия решений в Университете Иллинойса в Чикаго.

Команда Lincoln Lab разработала и протестировала автоматизированную компьютерную программу, называемую классификатором, которая разделяет контент на заранее определенные категории. Они обучили классификатор распознавать ключевые слова в образцах текстов социальных сетей, а затем попросили его использовать эти знания для классификации документов как подозрительных или безопасных. Авторы брали примеры текстов из Twitter, Reddit и Stack Exchange, поскольку эти форумы представляют собой три наиболее распространенных типа интернет-дискурса.

Сам по себе классификатор не понимает содержание разговоров. Вот почему исследователи из лаборатории Линкольна решили создать инструмент, который включает в себя компонент технологии человеческого языка (HLT) в дополнение к традиционному классификатору. HLT использует преимущества контекстного содержания, которого нет у классификаторов, разбивая предложения на более простые части — например, сокращая «хаки», «хакер» или «взлом» до «взломать», — которые затем передаются классификатору.

HLT снова вступает в игру после того, как документы были сгруппированы классификатором, чтобы помочь интерпретировать результаты, и присваивает каждому числовое значение в соответствии с его потенциальной угрозой. Например, «заражение» гораздо менее подозрительно в контексте бактериальных инфекций, чем с точки зрения уязвимостей программного обеспечения. Если рейтинг выше 0,7 считается проблематичным, то эта медицинская справка окажется где-то ниже этого эталона.

«После обучения классификатор узнает ключевые слова, которые представляют определенный тип документа», — сказал Дэвид Веллер-Фэйи, член исследовательской группы. Классификатор, по сути, узнает, какие обсуждения в социальных сетях будут интересны аналитику, не зная, что именно искать.

Однако Ху рекомендовал расширить словарь классификатора, поскольку лексика Twitter постоянно меняется и часто нетрадиционна. «Твиттер очень динамичен, поэтому сложно поддерживать статический словарь», — сказал он.

Веллер-Фахи объяснил, что он получил аналогичные предложения по увеличению сложности классификатора, потому что в академических кругах часто лучше. Но Weller-Fahy обслуживает другого клиента; он нацелен на промышленность и цели своего спонсора.

«Это люди, которые хотят решить определенный набор проблем», — сказал он. «Если я предоставлю им что-то простое, быстрое и решу их проблемы, они будут счастливы». Он добавил, что простые технологии могут делать впечатляющие вещи с очень небольшой вычислительной мощностью, если вы начинаете с правильных данных.

В этом случае он сказал, что чем меньше, тем лучше, потому что классификатор не ограничивается только одним типом данных. Он намеренно игнорирует определенные аспекты сообщений в социальных сетях, такие как имена пользователей, голоса «за» и «против» и т. д., и просматривает только текст. Также можно сжать классификатор и отправить его по электронной почте напрямую аналитикам, хотя Веллер-Фахи надеется, что после официального выпуска он будет автоматически включен в пакеты программного обеспечения.

Тем не менее, классификатор все еще далек от совершенства. Эдуард Хови, профессор Института языковых технологий Карнеги-Меллона, призывает авторов обратить внимание на точность их классификатора, который отсутствовал в их статье. «Ни одна система не работает на 100%», — сказал он. «Но если классификатор прочитал, скажем, 400 сообщений в социальных сетях и нашел три плохих, мы не знаем, пропустил ли он два или нашел их все». Ху повторил эту озабоченность.

Веллер-Фахи подтвердил, что, хотя газета и сообщила о «коэффициенте промахов», она конкретно не раскрывала точность. «Мы сосредоточились только на тех показателях производительности, которые были важны для нашего спонсора», — сказал он, который, конечно же, строго засекречен.

Изображение предоставлено: Markus Spiske raumrot.com / (CC0)