Предвзятые образцы могут убить ваши проекты по науке о данных. Представьте, что вы решили создать приложение для визуального распознавания, встроенное в приложение для смартфона. Пользователи могут использовать приложение, навести камеру своего телефона на гриб, и приложение сообщит им, является ли найденный ими гриб ядовитым или съедобным.

Модель визуального распознавания внутри приложения, конечно же, нуждается в обучающих данных. Вы решили собрать изображения грибов, которые люди загрузили и опубликовали на различных платформах и в социальных сетях.

Вы обучаете свою модель, развертываете ее, люди используют ваше приложение, ааааа, и они едят много ядовитых грибов, потому что ваше приложение утверждает, что они съедобны. Что пошло не так?

Наука о данных — это вопрос и скептицизм. Одним из аспектов вашего проекта, который вам нужно подвергнуть сомнению, являются ваши данные. Проблема заключается в происхождении набора данных, который мы использовали для обучения. Для простоты предположим, что соотношение съедобных и ядовитых грибов в природе 50:50. В ваших тренировочных данных соотношение отличалось — может быть, 99:1 в пользу съедобных грибов. Люди гораздо чаще размещают в сети фото съедобных грибов, чем ядовитых. Если подумать, вы бы взяли ядовитый гриб и разместили его фотографию?

Таким образом, мы получили отличную модель для распознавания съедобных грибов, но плохую для распознавания ядовитых. Ключевой урок: никогда не доверяйте своим данным слепо. Оставайтесь скептиком и сомневайтесь в его происхождении.

Эта обучающая история взята из нашего онлайн-курса Be Aware of Data Science, который можно найти здесь (автор этой статьи также является автором связанного курса). Вы также можете узнать больше о нашей работе на нашем сайте.