Пошаговое руководство по некоторым вопросам науки о данных из интервью Microsoft

Если вам нравится такой материал, подпишитесь одним из ПЕРВЫХ на мой новый канал YouTube здесь! Пока еще нет видео, я поделюсь таким замечательным контентом, как этот, но в виде видео. Спасибо за вашу поддержку :)

Фон

Вот уже около трех лет я заинтересовался наукой о данных. На втором курсе университета мой друг очень поддерживал мое стремление заняться наукой о данных, несмотря на то, что у меня был опыт работы в бизнесе.

Он так меня поддержал, что отправил мне список вопросов на собеседовании, которые Microsoft попросила его друга занять позицию в кооперативе по науке о данных. Помню, когда я сначала просматривал вопросы, мне казалось, что я читаю на другом языке - это выглядело как полная чушь.

Перенесемся на несколько лет вперед, и я чувствую, что лучше понимаю основы науки о данных, поэтому я решил попробовать ответить на них! Всего 18 вопросов, но в этой статье я отвечу только на первые 9 - следите за остальными вопросами на собеседовании!

Вопросы на собеседовании

Примечание: я не могу на 100% гарантировать, что это было запрошено Microsoft. Однако я подумал, что даже в том случае, если это не так, это все равно будет хорошим упражнением! Кроме того, я имею полное право полагать, что мой друг задал мне правильные вопросы.

В: Можете ли вы объяснить основы наивного Байеса? Как вы установили порог?

A: Наивный Байес - это классификационная модель, основанная на байесовской теореме. Его главное предположение (и почему оно называется «наивным») заключается в том, что он предполагает, что функции условно независимы для данного класса, что обычно не так. (Спасибо, AlexMurphy за разъяснения!)

Чтобы установить порог, вы можете использовать перекрестную проверку, чтобы определить точность модели на основе ряда порогов. Однако, в зависимости от сценария, вы можете принять во внимание ложноотрицательные и ложноположительные результаты. Например, если вы пытаетесь классифицировать раковые опухоли, в идеале вы должны убедиться, что нет ложноотрицательных результатов (модель утверждает, что раковой опухоли нет, когда она есть).

В: Вы можете объяснить SVM?

A: SVM означает машину опорных векторов и представляет собой модель машинного обучения с учителем, обычно используемую в качестве не вероятностного двоичного классификатора [1], но также ее можно использовать и для регрессии. Сосредоточившись на простейшем варианте использования, классифицируя по одной из двух категорий, SVM находят гиперплоскость или границу между двумя классами данных, которая максимизирует разницу между двумя классами (см. Ниже). Затем эта гиперплоскость используется для определения того, попадают ли новые точки данных в ту или иную категорию.

Однако гиперплоскость обычно никогда не бывает такой очевидной и линейной, как на изображении выше. Иногда гиперплоскость бывает трудно определить и она довольно нелинейна. Это когда в игру вступают более сложные темы, такие как функции ядра, регуляризация, гамма и маржа.

Вы можете узнать больше о SVM здесь и ядрах здесь.

В: Как определить, является ли наблюдение выбросом?

О: Есть два общих метода, используемых для определения того, является ли наблюдение выбросом:

Z-оценка / стандартные отклонения: если мы знаем, что 99,7% данных в наборе данных находятся в пределах трех стандартных отклонений, мы можем вычислить размер одного стандартного отклонения, умножить его на 3 и определить точки данных, выходящие за пределы этого диапазона. Точно так же мы можем вычислить z-оценку данной точки, и если она равна +/- 3, то это выброс.
Примечание: при использовании этого метода необходимо учитывать несколько непредвиденных обстоятельств. ; данные должны быть нормально распределены, это неприменимо для небольших наборов данных, а наличие слишком большого количества выбросов может снизить z-оценку.

Межквартильный размах (IQR): IQR, концепция, используемая для построения коробчатых диаграмм, также может использоваться для выявления выбросов. IQR равен разнице между 3-м квартилем и 1-м квартилем. Затем вы можете определить, является ли точка выбросом, если она меньше Q1–1,5 * IRQ или больше Q3 + 1,5 * IQR. Это составляет примерно 2,698 стандартных отклонений.

Другие методы включают кластеризацию DBScan, изолированные леса и надежные леса произвольной вырубки.

В: В чем заключается компромисс между смещением и дисперсией?

О: Смещение представляет точность модели. Модель с большим смещением имеет тенденцию к чрезмерному упрощению и приводит к недостаточной подгонке. Дисперсия представляет собой чувствительность модели к данным и шуму. Модель с высокой дисперсией приводит к переобучению.

Таким образом, компромисс смещения и дисперсии является свойством моделей машинного обучения, в которых более низкая дисперсия приводит к более высокой смещению и наоборот. Как правило, можно найти оптимальный баланс из двух, при котором ошибка сводится к минимуму.

В: Основные статистические вопросы, такие как дисперсия, стандартное отклонение и т. Д.

О: Дисперсия и стандартное отклонение измеряют, насколько разброс набора данных по отношению к его среднему значению. Разница в стандартном отклонении - это квадратный корень из дисперсии.

Если вы хотите узнать больше об основной статистике, ознакомьтесь с моей шпаргалкой по статистике здесь.

В: Обсудите, как случайным образом выбрать выборку из совокупности пользователей продукта.

О: Можно использовать метод, называемый простой случайной выборкой. Простая случайная выборка - это беспристрастный метод, который случайным образом выбирает подмножество людей, каждый с равной вероятностью быть выбранным, из более крупного набора данных. Обычно это делается без замены.

С помощью pandas вы можете использовать .sample () для проведения простой случайной выборки.

В: Опишите, как работает повышение градиента.

О: Повышение градиента - это метод ансамбля, похожий на AdaBoost, который по сути итеративно строит и улучшает ранее построенные деревья, используя градиенты в функции потерь. Прогнозы окончательной модели представляют собой взвешенную сумму предсказаний всех предыдущих моделей. То, как происходит улучшение самой модели за моделью, немного сложно, поэтому я привел несколько ссылок ниже.

Что такое машины для повышения градиента
Объяснение для повышения градиента

В: Что такое норма L1 и L2? В чем разница между ними?

A: L1 и L2 norm - это два разных метода регуляризации. Регуляризация - это процесс добавления дополнительной информации для предотвращения переобучения.

Модель регрессии, реализующая норму L1, называется регрессией лассо, а модель, реализующая норму L2, называется регрессией гребня. Разница между ними заключается в том, что регрессия Риджа принимает квадрат весов в качестве штрафного члена для функции потерь, тогда как регрессия Лассо принимает абсолютное значение весов.

Подробнее о различиях можно прочитать здесь.
Подробнее о нормах L1 и L2 здесь.

В: Что такое центральная предельная теорема (ЦПТ)? Как определить нормальное ли распределение?

A: Statistics How To дает лучшее определение CLT, а именно:

«Центральная предельная теорема гласит, что выборочное распределение выборочного среднего приближается к нормальному распределению по мере увеличения размера выборки, независимо от формы распределения генеральной совокупности». [2]

Есть три основных способа определить, является ли распределение нормальным. Первый способ - визуальная проверка по гистограмме. Более точный способ проверить это - вычислить асимметрию распределения. Третий способ - провести формальные тесты для проверки нормальности - некоторые распространенные тесты включают тест Колмогорова-Смирнова (K-S) и тест Шапиро-Уилка (S-W). По сути, эти тесты сравнивают набор данных с нормальным распределением с тем же средним значением и стандартным отклонением вашей выборки.

В: Какой алгоритм можно использовать для резюмирования ленты Twitter?

О: Я не знал ответа на этот вопрос, поэтому обратился к моему другу Ричи, специалисту по анализу данных в Bell Canada!

Есть несколько способов резюмировать тексты, но сначала важно понять вопрос. «Резюмирование» может относиться к настроению или содержанию, а уровень и сложность резюмирования могут различаться. Я бы лично разъяснил интервьюеру, что они именно ищут, но это не значит, что вы не можете делать предположения (что они в любом случае хотят видеть.

Предполагая, что интервьюер ищет несколько примеров наиболее интересных репрезентативных твитов, например, вы можете использовать TF-IDF (частота-термин-обратная частота документов).

Например, все говорят о нынешнем состоянии отношений между Ираном и США, поэтому вы можете представить себе такие слова, как «война», «ракета», «Трамп» и т. Д., Часто появляющиеся. TF-IDF призван придавать больший вес (или важность) тем наиболее часто используемым словам и снижает влияние таких слов, как «the», «a», «is» из твитов.

Спасибо за прочтение!

Если вам нравится моя работа и вы хотите меня поддержать…

  1. НАИЛУЧШИЙ способ поддержать меня - это подписаться на меня на Medium здесь.
  2. Будьте одним из ПЕРВЫХ, кто подписался на меня в Twitter здесь. Я буду публиковать здесь много новостей и интересного!
  3. Также будьте одним из ПЕРВЫХ, кто подпишется на мой новый канал YouTube здесь!
  4. Следуйте за мной в LinkedIn здесь.
  5. Зарегистрируйтесь в моем списке рассылки здесь.
  6. Посетите мой сайт terenceshin.com.

Другие статьи по теме











использованная литература

[1] Опорно-векторная машина, Википедия.

[2] Центральная предельная теорема, определение и примеры в простых шагах, Статистика: как сделать