5 отличных рекомендаций по статистическому тестированию на Python

Некоторые из моих любимых правил, которым нужно следовать при работе со статистическими тестами.

Вступление

Статистическое тестирование - это задача, которую специалистам по анализу данных часто необходимо выполнить, и которая может быть намного более подвержена ошибкам, чем многие другие работы, которые может выполнить специалист по анализу данных. То есть в большинстве случаев валидация не проводится, как в случае с моделью машинного обучения. В большинстве случаев наша вероятность является подтверждением нашей гипотезы, и нет никакой обратной проверки, которая также проверяет, верна ли наша вероятность. Если это так, то как мы вообще узнаем, является ли наше исследование статистически значимым?

Есть несколько способов избежать многих распространенных ошибок в статистическом тестировании, с которыми, вероятно, знакомо большинство специалистов по анализу данных, которые могут сделать их работу невероятно авторитетной и подлинной. Есть несколько причин, по которым тест может быть неточным, неправильным или даже вводить в заблуждение, хотя статистически верным.

№1: Ищите неверные данные

Несомненно, самое важное, на что нужно обращать внимание при проверке и работе с любым типом аналитики, - это плохие данные. Плохие данные могут испортить практически любую цель, будь то машинное обучение или научный вывод. В аналитическом случае может быть намного сложнее обнаружить неприятный запах плохих данных, потому что часто наблюдения наблюдаются со значениями, которые говорят обо всей совокупности, а не о нескольких выборках.

Плохие данные могут легко исказить эффективность многих функций. Это связано с тем, что часто могут быть неполные, отсутствующие или просто неточные наблюдения, когда дело доходит до данных, передаваемых через Интернет. Большинство данных не собираются через панель наблюдения, а иногда даже не собираются удаленно клинически. Очистка и сортировка неверных данных, чтобы они были удобнее для статистики, - это один из самых важных шагов в процессе работы с этими данными. Имея это в виду, вероятно, будет хорошей идеей убедиться, что ваши данные правильно подготовлены, прежде чем пытаться что-либо протестировать!

№2: Используйте свое суждение

Гипотезы - это гипотетические ситуации, которые могут быть правдой, а могут и нет. Несмотря на то, как кажется на первый взгляд проверка гипотез,

просто потому, что гипотеза принята, еще не становится фактом.

Например, мы могли бы представить себе странную корреляцию, такую как количество смертей в бассейне и количество смертей в автокатастрофах. Исходя из нашего суждения, мы, вероятно, могли бы пойти дальше и сказать, что нет никакой возможности, чтобы эти два были коррелированы. Однако могут быть некоторые данные, которые могут вызвать иллюзию того, что эти двое тесно связаны. Совпадение - всегда важное понятие, которое необходимо учитывать в статистике. Что-то, что может отделить ваши исследования от других, - это то, что ваше исследование может показаться реалистичным и важным, несмотря на гипотезу, которая уже была вами отвергнута.

В большинстве случаев я думаю, что большая часть этого на самом деле заключается в изучении и понимании данных, с которыми вы, возможно, работаете. Если у вас есть только общее представление о функции и, возможно, нет понимания, кроме ее названия, вы можете захотеть узнать больше о данных, чтобы вы могли делать предположения о значениях внутри них, прежде чем даже работать с ними. Лучший способ лучше разобраться в большом количестве данных - обратиться непосредственно к распространителю данных, часто у них может быть больше информации о данных, например, за кем наблюдались, когда за ними наблюдали и что может означать каждая особенность. Кроме того, может быть еще более интересная информация о свойствах данных, которую вы, возможно, не видели раньше.

Другая тактика, которую я использовал в прошлом, пригодится, когда данные проверяются в другом домене или в чем-то подобном. В прошлом я работал с некоторыми данными о воздействии психоделических препаратов в клинических условиях для смягчения проблем психического здоровья. Хотя это было то, что меня интересовало, потому что психическое здоровье - это то, что я считаю очень личным для моей собственной жизни, я действительно не знал много о мире психоделиков и даже не знал, что половина наркотиков в данных таблица существовала! Для решения этой проблемы я получил уникальные особенности и наблюдения и начал исследовать практически каждый термин. Я также узнал намного больше о сфере психического здоровья, клинических испытаниях и встретился с некоторыми из самых важных профессионалов, работающих над этим в мире.

Глубокое погружение в свои данные и более тщательный анализ наблюдений в виде учетных записей и записей может серьезно поднять вашу науку о данных на новый уровень. И не только это, но я думаю, что это может вызвать новый интерес к вещам, к которым некоторые, возможно, никогда не захотят подходить, что может привести к еще более долгосрочным и полезным исследованиям! Самое замечательное в жизни в то время, в котором мы живем, заключается в том, что многие из этих знаний также можно найти прямо с клавиатуры!

№3: ИГНОРИРОВАТЬ АУТЛИЕРОВ

Если вы работаете с непрерывными значениями, у которых есть много значений, которые более чем на два стандартных отклонения от среднего, вам может быть лучше просто отбросить их, чем пытаться с ними работать. В некоторых случаях это может означать, что данные имеют очень высокую дисперсию. Это может быть проблематично, потому что эти выбросы статистически значимы.

Кроме того, маска, с помощью которой вы тестируете, может содержать один выброс, который может указывать на значимость там, где ее нет. Это довольно опасно, потому что результаты могут быть полностью изменены одним значением, которое выходит за пределы допустимого диапазона в относительно небольшой выборке. Во многих ситуациях при непрерывном машинном обучении модели знают, как обрабатывать выбросы или даже значения, которые немного отличаются от нормы, и могут работать с ними намного лучше, чем с чем-то столь же простым, как статистический тест. Это делает это важное руководство более важным для запоминания, потому что часто, как инженеры по машинному обучению, мы можем напрямую относиться к этой концепции.

№4: Узнайте больше о тесте, который вы выполняете

Существует множество математических распределений, которые можно использовать для статистического тестирования. В некоторых случаях некоторые тесты могут дать более точный результат, чем другие. При этом очень важно знать хотя бы немного о типе статистического теста, который вы используете. Это правда, потому что это может помочь вам лучше понять, что вам может потребоваться сделать с данными для предстоящих операций, а также значительно упростит интерпретацию результатов и понимание того, почему эти результаты возникли.

Вероятно, самый популярный тип статистического теста - это независимый T-тест. Этот тест построен на основе распределения T. Твердое понимание T-распределения, безусловно, будет важным для понимания цели его тестов. Хотя, возможно, не так важно знать формулы для функций распределения, важно, по крайней мере, иметь твердое представление о том, что они из себя представляют и для чего используются. Для распределения T мы можем наблюдать возврат T через функцию плотности вероятности, а затем получить значение P, проталкивая эту статистику со степенями свободы в регуляризованную нижнюю неполную бета-функцию, которая является кумулятивной функцией распределения. Понимание этих концепций очень важно для понимания статистики, и понимание того и другого направит вас в нужное место для точного тестирования некоторых данных!

№5: Для некоторых тестов опустить пропущенные значения.

Во многих случаях замена недостающих данных для сохранения наблюдений потенциально может принести больше вреда, чем пользы. Это особенно верно в области проверки гипотез и аналитики, поскольку данные и статистика часто намного более чувствительны к изменениям в выборке. Например, у вас может быть T-распределение, в котором новый набор значений является статистически значимым, однако, поскольку среднее значение и стандартное отклонение являются двумя основными компонентами для большинства непрерывных распределений, вполне возможно изменить эти две характеристики данных. .

Часто, когда недостающие наблюдения заполняются непрерывными данными, это делается со средним значением. Хотя это, конечно, никогда не изменит среднего или стандартного отклонения, это изменит степени свободы для нашего T-теста, не обеспечивая никаких наблюдений в ту или иную сторону. По этой причине, в зависимости от попадания в наблюдения и от того, знаете ли вы, какие функции вы хотите протестировать, часто может оказаться гораздо лучшей идеей просто отбросить недостающие значения и исправить курс, работая только с надежными наблюдениями. .

Цель

Я думаю, что при обсуждении всех этих интересных тем и руководств было бы важно отметить, какова фактическая цель проверки гипотез, поскольку я считаю, что ее часто можно неправильно истолковать. Более того, я думаю, что неправильное толкование цели проверки гипотез также может привести к принятию желаемого за действительное и потенциально исказить результаты. Существуют сотни, если не тысячи способов изменить статистику случайно или намеренно. Я считаю, что неверное представление результатов теста - опасная вещь, потому что это может привести не только к бесполезным исследованиям, но и к неверным статьям, исследованиям или к тому, что рассерженный бизнесмен запаковывает ваш стол.

Целью статистического тестирования никогда не должно быть доказательство гипотезы. Этот способ мышления предполагает, что есть способ изменить результат, и если только мы не наблюдаем за данными и не проводим эксперименты с независимой переменной, которая является динамической, цель состоит в том, чтобы доказать, является ли гипотеза или нулевая гипотеза правильной. верный. Поставьте перед собой цель доказать, что ваше исследование может привести к превращению результатов вашей гипотезы в доказательство того, что ваша гипотеза верна, даже если это не так. Я думаю, что это важная вещь, которую нужно помнить при работе с научными тестами, и понимание того, что доказательство гипотез - это еще не все, безусловно, пригодится при работе со статистикой.

Заключение

Статистическое тестирование может быть довольно сложной и утомительной дисциплиной. Это особенно верно, когда малейшее изменение данных может привести к полностью ложному результату и сделать гипотетический вывод неверным. Это может быть большим давлением, однако поиск ваших данных и следование некоторым основным правилам с навыками наблюдения может полностью смягчить эту проблему и может быстро сделать ваше исследование намного более значимым и достоверным. Наиболее распространенная проблема, которую часто упускают из виду в этом отношении, - это, безусловно, аспекты обработки данных и обработки данных. Обычно это самая утомительная часть работы по анализу данных, поэтому легко понять, почему некоторые могут захотеть ее избежать. Однако эти шаги, безусловно, очень важны для получения точных научных выводов и, что еще лучше, для получения вашего продвижения по службе. Спасибо за чтение!