В своей предыдущей статье я говорил о Количество данных как о реальной проблеме, с которой сталкиваются многие инженеры машинного обучения. В этой статье мы перейдем к следующей оси, охватывающей другую проблему, связанную с данными, но прежде чем двигаться дальше, я предлагаю вам прочитать мои предыдущие статьи, чтобы получить полное представление о том, о чем я говорю, и продолжайте свое путешествие по ML правильно через эту серию (порядок идет снизу вверх),



Проблемы, связанные с данными-ML-(часть I)
medium.com







во время наших последних дискуссий мы сказали, что:

  • Нерепрезентативные обучающие данныене дают реальной модели для обучения модели и, следовательно, плохо обобщают. Как правило, это связано с тем, что ваши обучающие данные не представляют случаи, которые вы хотите обобщить.

Пример:

Что ж, чтобы вывести данный результат для совокупности, вы должны убедиться, что ваш метод выборки учитывает все категории этой совокупности, конечно, это не так просто, особенно в случае небольших данных (шум выборки), но чтобы сообщать о хороших решениях, мы должны быть внимательны и проводить различные тесты.

…но даже очень большие выборки могут быть нерепрезентативными, если метод выборки несовершенен. Это называется систематической ошибкой выборки.

Орельен Жерон

Как вы можете заметить:

  • Выборка не так проста.
  • Наличие большого количества данных не гарантирует хороших оценок.

Из приведенного выше графика мы можем заметить, что:

  • По мере увеличения размера выборки шум выборки уменьшается, и наоборот.
  • Наличие достаточного количества данных хорошего качества часто уменьшает шум.

Подводить итоги:

  • Прежде чем собирать какие-либо данные, убедитесь, что они достойны и имеют хорошее качество, тестируйте и тестируйте, прежде чем проводить какой-либо результат.
  • Хороший исследовательский анализ данных часто приводит к хорошему пониманию ваших данных и секрета, стоящего за ними.
  • Не торопитесь с предварительной обработкой данных, потому что задачи моделирования зависят от данных хорошего качества.

И я заканчиваю этой замечательной цитатой великого человека:

Единственное, что вы можете узнать из хороших результатов тестирования, это то, что система хорошо работает в средах, ситуациях, наборах данных и популяциях, которые аналогичны условиям тестирования. Любые предположения о его производительности вне этих условий, которые вы могли бы сделать, являются фикцией. Внимательно тестируйте и не делайте поспешных выводов! Кэсси Козырков

Это все, что касается этой статьи. Следите за новостями в следующей статье, в которой я расскажу об качестве данных.

Спасибо за ваше время,

Посетите мой веб-сайт: Домашняя страница — IsmailOuahbi.com
Следуйте за мной в LinkedIn, чтобы узнать больше.