В то время как данные — это новая валюта бизнеса и промышленного мира, наука о данных — это путь к следующей промышленной революции. Растущее значение данных создает спрос на квалифицированных специалистов, хорошо разбирающихся в технологиях обработки данных, таких как машинное обучение (МО) и искусственный интеллект (ИИ).

Тем не менее, получение работы в поле — это не прогулка в парке. Вы должны быть готовы к сложному процессу собеседования, в ходе которого будет оцениваться ваше владение различными навыками работы с данными, такими как ваши базовые знания о науке о данных и концепциях ML; ваша способность анализировать и визуализировать данные; ваши технические навыки и навыки программирования и так далее.

Мы знаем, что интервью могут быть сложными и сложными, поэтому мы подготовили список из десяти наиболее часто задаваемых вопросов на собеседованиях по машинному обучению.

  1. В чем разница между контролируемым и неконтролируемым машинным обучением?

Основное различие между обучением с учителем и обучением без учителя заключается в том, что в то время как обучение с учителем фокусируется на обучении помеченных данных, обучение без учителя не требует явного обучения данных.

Например, для функции классификации обучения с учителем сначала необходимо пометить данные, которые будут использоваться для обучения модели данных для классификации данных на помеченные подмножества. Этот вид специальной подготовки не требуется при обучении без учителя.

2. Что такое параметрические и непараметрические модели?

Параметрические модели относятся к тем моделям, которые содержат конечное число параметров. В такой модели нужно знать только параметры модели, чтобы иметь возможность прогнозировать новые данные. Линейная регрессия, логистическая регрессия, наивный байесовский анализ и персептрон — вот некоторые примеры параметрических моделей.

С другой стороны, непараметрические модели содержат неограниченное количество параметров и, следовательно, являются более гибкими. В этой модели, помимо знания параметров модели, вам также необходимо знать состояние наблюдаемых данных. Деревья решений, SVM и k-ближайших соседей являются примерами непараметрических моделей.

3. Объясните компромисс между предвзятостью и дисперсией.

Прогностические модели обычно имеют компромисс между предвзятостью и дисперсией. В то время как смещение относится к ошибке, возникающей из-за ошибочных или чрезмерно упрощенных предположений в используемом алгоритме обучения, дисперсия — это ошибка, возникающая из-за чрезмерно сложных предположений в рассматриваемом алгоритме обучения.

Целью смещения-дисперсии является минимизация ошибки обучения конкретного алгоритма путем добавления смещения и дисперсии вместе с некоторыми другими неустранимыми ошибками, возникающими из-за шума в базовых наборах данных.

Например, вы можете уменьшить смещение, добавив в модель больше переменных, чтобы сделать ее сложной, но в процессе вы добавите в модель некоторую дисперсию. Таким образом, чтобы достичь идеального баланса в модели, вам необходимо найти компромисс между смещением и дисперсией.

4. В чем разница между стохастическим градиентным спуском (SGD) и градиентным спуском (GD)?

Алгоритмы SGD и GD представляют собой методы поиска набора параметров, которые могут уменьшить функцию потерь модели. Параметры сначала оцениваются по данным, а затем вносятся соответствующие коррективы.

Однако существует тонкая разница в подходе двух алгоритмов. В то время как в GD нужно оценить все обучающие выборки для каждого набора параметров, в SGD вам нужно оценить только одну обучающую выборку для заданного набора параметров. Кроме того, GD идеально подходит для небольших наборов данных, а SGD — для более массивных наборов данных.

5. Какова цель преобразования Бокса-Кокса?

Преобразование Бокса-Кокса — это стандартный процесс степенного преобразования наборов данных для облегчения нормального распределения. Другими словами, он используется для стабилизации дисперсии наборов данных. Поскольку большинство известных статистических методов хорошо синхронизируются с нормально распределенными данными, целесообразно нормализовать распределение с помощью этого метода.

6. Почему наивный байесовский метод «наивен»?

Наивный Байес считается «наивным» главным образом потому, что он делает такие предположения, которые почти невозможно наблюдать в реальных данных. Этот алгоритм предполагает, что наличие или отсутствие определенного свойства класса не связано с наличием или отсутствием какого-либо другого свойства рассматриваемой переменной класса. Это влечет за собой «абсолютную независимость признаков», условие, которое никогда не может быть выполнено в действительности.

7. В чем разница между машинным обучением и глубоким обучением?

Глубокое обучение — это раздел машинного обучения, связанный исключительно с нейронными сетями. Основное внимание уделяется способам использования определенных принципов нейронауки для моделирования больших наборов неструктурированных или полуструктурированных данных с повышенной точностью. Если быть точным, глубокое обучение очень похоже на алгоритм обучения без присмотра, целью которого является «изучение» представлений данных с помощью нейронных сетей.

8. Как вы будете выбирать классификатор на основе обучающей выборки?

В случае, если обучающая выборка невелика, лучше всего подходят модели с высоким смещением/дисперсией, например, Наивный Байес, поскольку вероятность их переобучения меньше. Принимая во внимание, что если обучающая выборка слишком велика, модели с низким смещением/дисперсией, такие как логистическая регрессия, лучше всего подходят, поскольку они могут обнаруживать более сложные отношения в моделях данных.

9.Что такое скрытое распределение Дирихле (LDA)?

Скрытое распределение Дирихле (LDA) — это генеративная модель, которая представляет документы как объединение тем, каждая из которых имеет свое собственное распределение вероятностей возможных слов. Другими словами, LDA — это метод классификации тем или документов по предмету.

10. Что такое кривая ROC? Что такое АУРОК?

Кривая ROC (рабочая характеристика приема) представляет собой графическое представление контраста между истинными положительными показателями и ложноположительными показателями при различных пороговых значениях. Он в основном используется для оценки чувствительности истинных срабатываний по сравнению с вероятностью ложных срабатываний, чтобы вызвать ложную тревогу.

AUROC (площадь под рабочей характеристикой приема) обозначает стандартную метрику производительности, используемую для оценки моделей бинарной классификации.

Вы хотите освоить машинное обучение? Вы хотите начать карьеру в области машинного обучения? Присоединяйтесь к нашему Курсу машинного обучения в Coding Ninjas уже сегодня!

Первоначально опубликовано на https://www.codingninjas.com 1 августа 2018 г.