Здравствуйте, соискатели, вот список вопросов, которые можно задать во время собеседования по работе с Data Science.

Вопрос. Что такое линейная регрессия?
Ответ: Линейная регрессия – это метод статистического моделирования и алгоритм, используемый для установления взаимосвязи между зависимой переменной и одной или несколькими независимые переменные. Он предполагает линейную связь между переменными, где зависимая переменная представляет собой линейную комбинацию независимых переменных.

Вопрос Как работает линейная регрессия?
О: Алгоритм направлен на сопоставление прямой линии (или гиперплоскости в более высоких измерениях) с набором точек данных. Он находит наиболее подходящую линию, сводя к минимуму сумму квадратов разностей между наблюдаемыми значениями и прогнозируемыми значениями из линии. Это делается путем оценки коэффициентов (наклона и точки пересечения), которые определяют линию, с использованием методов математической оптимизации.

Вопрос Каковы предположения линейной регрессии?
О: Линейная регрессия предполагает несколько вещей, в том числе:
1. Линейность: отношение между зависимой переменной и независимыми переменными является линейным.
2. Независимость: наблюдения не зависят друг от друга.
3. Гомоскедастичность : дисперсия ошибок постоянна на всех уровнях независимых переменных.
4. Нормальность: ошибки нормально распределены со средним значением, равным нулю.
5. Отсутствие мультиколлинеарности. Независимые переменные слабо коррелируют друг с другом.

Вопрос Как вы интерпретируете коэффициенты линейной регрессии?
О: В линейной регрессии коэффициенты представляют собой изменение зависимой переменной, связанной с единицей. изменение соответствующей независимой переменной на единицу при неизменности остальных переменных. Термин перехвата представляет собой значение зависимой переменной, когда все независимые переменные равны нулю.

Вопрос. Как вы оцениваете эффективность модели линейной регрессии?
О: Существует несколько показателей для оценки эффективности модели линейной регрессии, в том числе:
1. R-квадрат (коэффициент детерминации): измеряет долю дисперсии зависимой переменной, объясняемой моделью. Более высокие значения указывают на лучшее соответствие.
2. Среднеквадратическая ошибка (MSE) или среднеквадратическая ошибка (RMSE). Эти показатели измеряют среднеквадратичную разницу между наблюдаемыми и прогнозируемыми значениями. Более низкие значения указывают на лучшую производительность.
3. Остаточный анализ. Он включает в себя изучение остатков (разницы между наблюдаемыми и прогнозируемыми значениями) на наличие шаблонов или отклонений от предположений. Остаточные графики могут помочь выявить такие проблемы, как гетероскедастичность или нелинейность.

Вопрос. В чем разница между простой линейной регрессией и множественной линейной регрессией?
Ответ. Простая линейная регрессия предполагает прогнозирование зависимой переменной на основе одной независимой переменной. Он соответствует прямой линии данных. Напротив, множественная линейная регрессия включает прогнозирование зависимой переменной на основе нескольких независимых переменных. Он соответствует гиперплоскости для данных в более высоких измерениях. Множественная линейная регрессия позволяет анализировать более сложные взаимосвязи между переменными.

Вопрос. Каковы некоторые потенциальные ограничения или проблемы линейной регрессии?
О: Линейная регрессия имеет определенные ограничения, в том числе:
1. Предположение о линейности: Если взаимосвязь между переменными не является линейной, линейная регрессия может дать неточные результаты.
2. Нарушения допущений. Нарушения допущений, такие как ненормальность или мультиколлинеарность, могут повлиять на производительность модели.
3. Выбросы : выбросы могут непропорционально влиять на линию регрессии и искажать результаты.
4. Подгонка или недообучение: линейная регрессия может подгонять или подгонять данные, если сложность модели выбрана неправильно.
5. Ограничено линейными отношениями. : Линейная регрессия не подходит для выявления нелинейных взаимосвязей между переменными.

Вопрос. Как вы можете справиться с мультиколлинеарностью в линейной регрессии?
О: Мультиколлинеарность возникает, когда независимые переменные сильно коррелируют друг с другом. Это может привести к нестабильным оценкам коэффициентов и трудностям в интерпретации модели. Чтобы справиться с мультиколлинеарностью, вы можете:
1. Выявить и удалить сильно коррелированные независимые переменные из модели. Выбрав подмножество независимых переменных, которые меньше коррелируют друг с другом, вы можете уменьшить влияние мультиколлинеарности. 2. Гребневая регрессия — это метод регуляризации, который добавляет штрафной член к целевой функции линейной регрессии. Этот штрафной член сужает оценки коэффициентов до нуля и может помочь смягчить эффекты мультиколлинеарности. Гребневая регрессия поощряет более сбалансированные коэффициенты, уменьшая влияние сильно коррелированных переменных.
3. Измерьте VIF, который количественно определяет серьезность мультиколлинеарности в регрессионной модели. Вы можете рассчитать VIF для каждой независимой переменной и определить переменные с высокими значениями VIF (обычно выше 5 или 10). Удаление или преобразование переменных с высоким VIF может помочь уменьшить мультиколлинеарность.

Надеюсь, этого достаточно для базового уровня, пожалуйста, добавьте вопросы, которые вам задавали во время интервью. Спасибо и приятного чтения..!