3-недельное руководство для начинающих по Ace Data Science Interview: #Day 13

Вопросы для интервью на основе SVM, Naive Bayes

О сериале

Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.

Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.

Я заметил, что есть несколько типов интервью по науке о данных, которые проводят компании, и среди всех интервью я нашел одну общую черту.

Все интервью начинаются с вопросов, основанных на некоторых основных алгоритмах, и по мере того, как вы отвечаете на эти вопросы, сложность начинает увеличиваться, и в какой-то момент вы обнаружили, что ваш интервьюер задает вам так много вопросов по SVM. Поэтому убедитесь, что вы очень четко усвоили каждую маленькую концепцию SVM.

Время вопросов

Вопрос 1.Является ли машина опорных векторов (SVM) линейным классификатором?

По умолчанию SVM работает как линейный классификатор, когда он отображает линейную функцию n-мерных входных данных в пространство признаков, где разделение классов может происходить с использованием (n-1)-мерной гиперплоскости. Но когда он использует ядро, он отображает нелинейную функцию входных данных в пространство признаков, и тогда говорят, что он работает в нелинейной модели.

Вопрос 2.Эффективность SVM зависит от того, какой из следующих параметров:

A) Выбор ядра
B) Параметры ядра
C) Параметр Soft Margin C
>Г) Все вышеперечисленное

Ответ: Д

Эффективность SVM зависит от того, как вы выбираете 3 основных требования (параметр C, тип ядра, параметр ядра), упомянутых выше, таким образом, чтобы максимизировать вашу эффективность, снизить ошибка и переобучение.

Интервьюер будет задавать так много извращенных вопросов, связанных с различными параметрами SVM.

Вопрос 3.Что такое ядро RBF? Предположим, вы используете ядро RBF в SVM с высоким значением гаммы. Что это означает?

A) Модель будет учитывать даже удаленные от гиперплоскости точки для моделирования
B) Модель будет учитывать только точки, близкие к гиперплоскости для моделирования
C) На модель не повлияет расстояние точек от гиперплоскости для моделирования
D) Ничего из вышеперечисленного

Ответ: Б

Ядро RBF – это функция с действительным знаком, значение которой зависит только от расстояния между входными данными и некоторой фиксированной точкой, будь то начало координат.

Гамма-параметр в настройке SVM означает влияние точек либо близких, либо удаленных от гиперплоскости.
Для низкой гаммы модель будет слишком ограниченной и будет включать все точки обучающего набора данных, не фиксируя форму.
Для более высокой гаммы модель будет хорошо отражать форму набора данных.

Вопрос 4.Какая из вероятностных теорем используется в серверной части наивного байесовского алгоритма. И почему его называют «Наивным».

Наивный байесовский алгоритм – это метод классификации, основанный на теореме Байеса.
Называется «Наивный», так как предполагает, что наличие определенной функции в классе не связано с наличием какой-либо другой функции, т. е. мультиколлинеарности среди функций не существует. И выполнение такого предположения слишком редко для любого набора данных, поэтому он называется «Наивным».

Вопрос 5. Поскольку оба алгоритма — логистическая регрессия и наивный байесовский алгоритм — вычисляют вероятность, в чем разница между ними (наиболее часто задаваемые вопросы).

Оба алгоритма вычисляют вероятность; логистическая регрессия, основанная на вероятностном пороге, и Наивный Байес основан на теореме Байеса.

Логистическая регрессия — это дискриминационная модель, которая изучает границу между классами.
Наивная байесовская модель — это генеративная модель, изучающая распределение данных.

Вопрос 6. Теперь у вас есть набор данных. Как вы решите, будете ли вы использовать алгоритм наивного Байеса или логистическую регрессию.

Это своего рода вопрос, посредством которого интервьюер хочет узнать ваш подход к какой-либо проблеме. И чтобы ответить на этот вопрос, вам нужно знать основные понятия алгоритмов.

Выбор среди этих двух алгоритмов действительно зависит от вашей проблемы, нет секретного соуса для выбора алгоритма. Но в классификации Наивный Байес быстро сходится, но обычно имеет более высокую ошибку, чем логистическая регрессия.
В небольшом наборе данных вы можете попробовать наивный байесовский метод, но по мере роста размера вашего набора данных вы получите лучшие результаты с помощью логистической регрессии.

Вопрос 7.Какова роль параметра C в SVM?

Параметр C сообщает оптимизации SVM, насколько вы хотите избежать неправильной классификации каждого обучающего примера. Для больших значений C оптимизация выберет гиперплоскость с меньшим запасом, если эта гиперплоскость лучше справляется с правильной классификацией всех обучающих точек. И наоборот, очень маленькое значение C заставит оптимизатор искать разделяющую гиперплоскость с большим запасом, даже если эта гиперплоскость неправильно классифицирует большее количество точек. Для очень маленьких значений C вы должны получить неправильно классифицированные примеры, часто даже если ваши обучающие данные линейно разделимы.

Вопрос 8.В чем разница между логистической регрессией и SVM?

Логистическая регрессия предполагает, что предикторов недостаточно для определения переменной отклика, но они определяют вероятность, которая является логистической функцией их линейной комбинации. Если шума много, логистическая регрессия (обычно совместимая с методами максимального правдоподобия) — отличный метод.
С другой стороны, есть проблемы, когда у вас есть тысячи измерений, а предикторы почти наверняка определяют ответ, но каким-то трудно программируемым способом. Примером может служить распознавание изображений. Если у вас есть изображение в градациях серого 100 на 100 пикселей, у вас уже есть 10 000 измерений. С помощью различных базовых преобразований (трюк ядра) вы сможете получить линейный разделитель данных.
Методы нерегулярной логистической регрессии плохо работают (фактически подогнанные коэффициенты расходятся), когда есть разделяющая гиперплоскость, потому что максимальная вероятность достигается любой разделяющей плоскостью, и нет никакой гарантии, что вы получите лучшую. То, что вы получаете, — это чрезвычайно надежная модель с плохой предсказательной силой вблизи границы.
SVM обеспечивают лучшую разделяющую гиперплоскость и эффективны в многомерных пространствах. Они похожи на регуляризацию с точки зрения попытки найти вектор с наименьшей нормой, разделяющий данные, но с условием поля, которое благоприятствует выбору хорошей гиперплоскости. SVM с жесткими границами найдет гиперплоскость, разделяющую все данные (если она существует), и потерпит неудачу, если ее нет; SVM с мягким запасом (как правило, предпочтительнее) работают лучше, когда в данных есть шум.
Кроме того, SVM учитывают только точки вблизи границы (векторы поддержки). Логистическая регрессия рассматривает все точки в наборе данных. Что вы предпочитаете, зависит от вашей проблемы.
Логистическая регрессия хороша при небольшом количестве измерений и когда предикторов недостаточно, чтобы дать больше, чем вероятностную оценку ответа. SVM работают лучше, когда имеется большее количество измерений, и особенно в задачах, где предикторы определенно (или почти наверняка) определяют ответы.

Вопрос 9. Объясните схему работы алгоритмов опорных векторов для непрерывных данных. (В этом вопросе интервьюер просто просит вас объяснить, как работает СВР).

Вопрос 10. Обычно люди называют SVM «очень надежным алгоритмом по отношению к выбросам». Объясните, как это?

При изучении максимальной разделяющей гиперплоскости для заданных данных учитываются только точки, находящиеся между +шириной поля и шириной поля. Эти точки удачно называются опорными векторами.

Проверьте, что внутри: -

День1, День2, День3, День4, День5, День6, День7, День8, День9, День10, День11, День12, День13 , День14, День15, День16, День17, День18, День19, День20.

Спасибо за чтение!

Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.

3-недельное руководство для начинающих по Ace Data Science Interview: #Day 13

Вопросы для интервью на основе SVM, Naive Bayes

Время вопросов

Проверьте, что внутри: -

Вопросы по теме