Каждый энтузиаст машинного обучения или любой, кто ищет работу в этом секторе, наверняка слышал об этом термине либо в интервью, либо где-то читал.
Что такое компромисс смещения и дисперсии?

Теперь не волнуйтесь, эта статья поможет вам и может в значительной степени развеять ваши сомнения. Итак, давайте погрузимся и поймем, что это такое.

Что такое смещение?
Смещение – это разница между значениями, предсказанными нашей моделью машинного обучения, и правильными значениями. Если модель сильно предвзята, это приведет к огромному количеству ошибок как в данных обучения, так и в данных тестирования. Он не будет в значительной степени учитывать обучающие данные, и в результате модель будет чрезмерно упрощена. Результат модели, которую мы видим из-за этого явления, сильно искажен. Это происходит из-за неверных предположений в модели ML, поэтому данные не точно соответствуют набору данных. Это известно как недообучение данных. Из-за этого всегда рекомендуется, чтобы модель всегда была с низким смещением, чтобы избежать недообучения данных. Это происходит, когда представленная гипотеза носит линейный характер. В общих случаях смещение является результатом ошибки или сбоев, вызванных тем, кто обучает алгоритмы машинного обучения. Некоторыми из алгоритмов машинного обучения с низким смещением являются деревья решений, K-NN и SVM, а несколько примеров алгоритмов машинного обучения с высоким смещением включают линейную регрессию и логистическую регрессию.

Что такое дисперсия?
Полная противоположность смещения называется дисперсией. Это не что иное, как чувствительность нашей модели к изменчивости данных. Когда модель начинает учиться на шуме, она начинает искать те функции, которые совсем не полезны. В любой момент времени для любой заданной точки данных переменный характер нашей модели, сообщающий нам о разбросе данных, называется дисперсией. Из-за высокой дисперсии модели данные переобучены. Переоснащение данных происходит, когда модель машинного обучения учится на обучающих данных до такой степени, что начинает учиться также и на шуме, что, в свою очередь, отрицательно влияет на производительность модели. По сути, это ошибка моделирования в статистике.

Компромисс смещения и дисперсии
Эти две вещи обратно пропорциональны друг другу. Думать о модели ML, которая имеет как низкое смещение, так и низкую дисперсию, не очень хорошо, потому что это почти невозможно. Поймите это так: если модель слишком проста для понимания, она может иметь большое смещение и низкую дисперсию, что может привести к ошибкам. С другой стороны, если он подходит слишком сложно, он будет иметь высокую дисперсию и низкое смещение. Теперь между обоими этими условиями возникает ситуация, известная как компромисс смещения и дисперсии.
Алгоритм не может быть одновременно менее сложным или более сложным. Если кто-то хочет построить идеальную модель (почти), он должен найти хороший баланс между смещением и дисперсией и, как результат, уменьшить ошибку. Чтобы иметь этот баланс между ошибкой смещения и ошибкой дисперсии, нам нужно значение k, чтобы модель не училась на шуме и не делала предположений, которые в результате не соответствуют данным.

Как решить эту проблему?
Один из способов уменьшить предвзятость может заключаться в изменении процесса, используемого для создания моделей. Чтобы уменьшить высокое смещение, можно попытаться не использовать модели, которые носят линейный характер. А обучение ваших данных с использованием нескольких моделей может снизить риск высокой дисперсии. Большинство наиболее подходящих решений в области машинного обучения используют ансамблевое обучение для преодоления всех этих проблем. Другой способ может заключаться в том, чтобы обеспечить разнообразие набора обучающих данных и представление всех возможных результатов и групп. Если набор данных для обучения не является разнообразным по своей природе, модель не сможет четко идентифицировать или различать проблему из-за отсутствия данных для обучения. Чтобы преодолеть эту проблему, введите больше данных, чтобы увеличить отношение данных к шуму, что может помочь уменьшить дисперсию модели.

Надеюсь, это поможет вам лучше понять эту концепцию. Просто имейте в виду, что при создании любой модели компромисс между смещением и дисперсией является очень важным аспектом, о котором следует помнить.
Так что продолжайте работать над своими моделями, и в следующей статье мы изучим реализацию того же самого на Python. .
А пока УДАЧНОГО ПРОГРАММИРОВАНИЯ !!

Запланируйте сеанс DDIChat в разделе Кодирование, программное обеспечение и разработка для мобильных устройств:



Подать заявку на участие в программе DDIChat Expert можно здесь.