«Сколько тематических исследований вы уже сделали?»

Как честолюбивый специалист в области науки о данных, вы, возможно, слышали совет «занимайтесь проектами в области науки о данных» много раз.

Хотя проекты помогают нам узнать много нового, они не дают полного представления об описании, сравнении, оценке и понимании различных аспектов проблемы.

В этой статье я расскажу вам о реальных примерах, которые должен изучить каждый новичок, вместе с наборами данных и реализованными блокнотами.

Пример 1: Система рекомендаций друзей в Facebook

Система рекомендаций - один из инструментов, используемых в индустрии программного обеспечения, и популярный вариант использования методов машинного обучения.

  • Формулировка проблемы: учитывая направленный социальный граф, необходимо предсказать недостающие ссылки, чтобы рекомендовать пользователей (прогнозирование ссылок на графике).
  • Язык: Python
  • Учебное пособие: Рекомендации друзей в Facebook с помощью Graph-Mining

Этот пример использования поможет вам изучить различные методы анализа графов с использованием библиотеки network-x, чтобы получить представление о данных, а также поможет вам, как работать с массивными данными. эти данные состоят из почти 9,4 миллионов записей в виде ребер графа.

В этом тематическом исследовании вы найдете некоторые методы предварительного ранжирования, такие как ранжирование страницы, оценка katz, индекс Адара и т. д.

Пример 2: Персонализированная диагностика рака

Возможно, вы все занимались классификацией рака или проектом классификации рака груди. это тематическое исследование немного отличается от этого, в данном случае исследование содержит текстовый отчет (написанный врачом) вместе с вариациями генов.

Постановка задачи:

  • Бизнес-проблема:
  1. Молекулярный патолог выбирает список представляющих интерес генетических вариаций, которые он / она хочет проанализировать.
  2. Молекулярный патолог ищет в медицинской литературе доказательства, которые так или иначе имеют отношение к интересующим генетическим вариациям.
  3. Наконец, этот молекулярный патолог тратит огромное количество времени на анализ свидетельств, относящихся к каждой из вариаций, чтобы классифицировать их в любой из 9 различных классов. Наша цель - заменить шаг 3 моделью машинного обучения. Молекулярный патолог все равно должен будет решить, какие вариации представляют интерес, а также собрать для них соответствующие доказательства. Но последний этап, который также требует наибольших затрат времени, будет полностью автоматизирован с помощью модели машинного обучения.

В этом тематическом исследовании вы сможете изучить различные методы суммирования, чтобы улучшить результаты прогнозирования с помощью хорошо откалиброванной модели (что очень важно, чем точность модели).

Пример 3: Обнаружение вредоносного ПО Microsoft

За последние несколько лет индустрия вредоносного ПО очень быстро выросла, это указывает на то, что в настоящее время вредоносное ПО уклоняется от традиционной защиты, вынуждая группы / сообщества по борьбе с вредоносным ПО создавать более надежное программное обеспечение для обнаружения и прекращения этих атак. Основная часть защиты компьютерной системы от атаки вредоносного ПО - это определение того, является ли данный файл / программное обеспечение вредоносным.

На протяжении многих лет Microsoft очень активно создавала продукты для защиты от вредоносных программ и запускает свои программы защиты от вредоносных программ на более чем 150 миллионах компьютеров по всему миру. В результате ежедневно генерируются десятки миллионов точек данных, которые могут быть проанализированы как потенциальное вредоносное ПО. Чтобы эффективно анализировать и классифицировать такие большие объемы данных, мы должны иметь возможность сгруппировать их в группы и идентифицировать их соответствующие семейства.

  • Описание проблемы. Набор данных, предоставленный Microsoft, содержит около 9 классов вредоносных программ. Постановка задачи состоит в том, чтобы построить надежную мультиклассовую классификационную модель, которая может точно классифицировать, к какому классу принадлежит вредоносная программа.
  • Язык: Python
  • Учебное пособие: Обнаружение вредоносных программ Microsoft

В этом тематическом исследовании вы сможете узнать, как классифицировать (мультиклассовая классификация) массивные данные вместе с лучшими функциями и моделями.

Пример 4: Система рекомендаций Netflix по фильмам

Netflix - это подключение людей к любимым фильмам. Чтобы помочь клиентам найти эти фильмы, они разработали систему рекомендаций мирового класса: CinematchSM. Его задача - предсказать, понравится ли кому-то фильм, основываясь на том, насколько им нравятся или не нравятся другие фильмы. Netflix использует эти прогнозы, чтобы составить персональные рекомендации по фильмам с учетом уникальных вкусов каждого клиента.

  • Постановка проблемы: Netflix предоставил множество анонимных рейтинговых данных и планку точности прогнозов, которая на 10% лучше, чем то, что Cinematch может сделать с тем же набором обучающих данных.
  • Язык: Python
  • Учебное пособие: Система рекомендаций по фильмам Netflix

В этом тематическом исследовании вы познакомитесь с различными методами матричной факторизации (что является лучшим методом для рекомендательных систем) с огромным объемом данных (приблизительный размер данных составляет 4 миллиона записей).

Пример 5: Прогнозирование тегов Stackoverflow

Stack Overflow - это крупнейшее и пользующееся наибольшим доверием онлайн-сообщество разработчиков, где разработчики могут учиться, делиться своими знаниями в области программирования и строить свою карьеру.

Stack Overflow - это то, что каждый программист так или иначе использует. Каждый месяц более 50 миллионов разработчиков приходят на Stack Overflow, чтобы учиться, делиться своими знаниями и строить свою карьеру. Он содержит вопросы и ответы по широкому кругу тем в компьютерном программировании. Веб-сайт служит платформой для того, чтобы пользователи могли задавать вопросы и отвечать на них, а также, благодаря членству и активному участию, голосовать за вопросы и ответы вверх или вниз и редактировать вопросы и ответы аналогично вики или Digg. По состоянию на апрель 2014 г. у Stack Overflow было более 4 000 000 зарегистрированных пользователей, а в конце августа 2015 г. количество вопросов превысило 10 000 000. В зависимости от типа тегов, присвоенных вопросам, восемь самых обсуждаемых тем на сайте: Java, JavaScript, C #, PHP, Android, jQuery, Python и HTML.

  • Постановка проблемы: предлагайте теги на основе содержания, которое было в вопросе, опубликованном на Stackoverflow.
  • Язык: Python
  • Учебное пособие: Прогнозирование тегов Stackoverflow

В этом последнем тематическом исследовании вы познакомитесь с передовыми методами НЛП для преобразования исходных данных в данные, подходящие для модели. также делается для улучшения методов EDA для лучшего понимания данных.

Заключение

В этой статье мы попытались охватить для вас 5 реальных примеров, которые помогут вам лучше понять реальные проекты в различных областях с огромным объемом данных и способы работы с этими данными.

Надеюсь, эта статья вам очень помогла. Если это действительно помогло вам, поделитесь с друзьями и, пожалуйста, хлопайте в ладоши, если вам понравилось.