Отсутствие данных - одна из распространенных проблем, с которой согласятся и специалисты в области науки о данных или аналитики.

Статистически существует три различных типа отсутствующих данных (а именно MCAR, MAR, MNAR), но в реальных данных может быть обнаружен 4-й тип отсутствующих данных, который называется структурированными отсутствующими данными.

Давайте разберемся с каждым из них по отдельности:

1.Структурированные отсутствующие данные: -

Данные, которые отсутствуют в данных по уважительной причине, называются структурированными отсутствующими данными. Это означает, что данные отсутствуют, потому что этого не должно происходить с учетом других переменных.

2 случайно пропавшие без вести (MAR): -

Случайное отсутствие данных означает, что тенденция к отсутствию точки данных не связана с самими отсутствующими данными, а связана с некоторыми наблюдаемыми данными в наборе данных.

Вывод для MAR заключается в том, что значения недостающих данных можно каким-то образом предсказать на основе некоторых других переменных в наборе данных.

Если данные отсутствуют случайным образом, это означает, что нам необходимо использовать либо расширенный метод вменения, например множественное вменение, либо метод анализа, специально разработанный для случайных отсутствующих данных. .

3) Полностью случайно пропавшие без вести (MCAR): -

Тот факт, что определенное значение отсутствует, не имеет ничего общего с его предполагаемым значением и значениями других переменных.

Данные, которые являются MCAR, встречаются на практике, хотя, если вы разрабатываете эксперимент, в котором вы решаете случайным образом исключить меньший процент (скажем, около 5–10%) элементов данных, то Условие MCAR будет выполнено.

Когда данные отсутствуют полностью случайным образом, это означает, что мы можем проводить анализ, используя только те функции, которые имеют полные данные, если у нас достаточно таких функций.

Предположение MCAR редко бывает хорошим. Это может быть правдой только в ситуациях, когда данные отсутствуют из-за действительно случайных явлений (например, если людям случайным образом задали 10 из 15 вопросов в анкете).

Случайное пропускание (MAR) всегда более безопасное предположение, чем полное случайное отсутствие (MCAR), потому что любой анализ, который действителен при предположении, что данные полностью отсутствуют на random также будет действительным при предположении, что данные отсутствуют случайно, но не наоборот.

4 Пропуски не случайно (MNAR): -

Данные, не относящиеся к MAR, называются не пропущенными случайно (NMAR). Данные MNAR являются наиболее сложными. как с точки зрения его поиска, так и с точки зрения борьбы с ним. Отсутствие данных связано с ненаблюдаемыми данными, то есть данными, которых у нас нет, отсутствие связано с факторами, которые мы не учли.

Принято считать, что данные относятся к категории MAR, если нет веских оснований полагать иначе. Кроме того, большинство процедур обработки недостающих данных зависит от предположения MAR. Если данные отсутствуют не случайно (MNAR), это означает, что мы не можем использовать какие-либо стандартные методы работы с недостающими данными (например, вменение или алгоритмы, специально разработанные для пропущенных значений). Если недостающие данные отсутствуют не случайно, любые стандартные вычисления дают неверный ответ.

Небольшая памятка по типам недостающих данных!

Понравилась моя статья? Обязательно хлопайте мне в ладоши и делитесь ими, так как это повысит мою уверенность. Кроме того, я публикую новые статьи каждое воскресенье, так что оставайтесь на связи, чтобы быть в курсе будущих статей из серии статей по основам науки о данных и машинного обучения.

Кроме того, свяжитесь со мной на connectedIn.