Три основных ошибки в машинном обучении

Мифология, связанная с машинным обучением, может привести к неправильному суждению о том, когда и как его применять.

У меня было как бы обратное знакомство с аналитикой. Моим первым серьезным участием в каком-либо специализированном аналитическом проекте был проект машинного обучения. Я имею в виду, если вы собираетесь это сделать, почему бы не сделать все возможное?

Не то чтобы я жалуюсь. Это был потрясающий опыт обучения. Это научило меня многому о технических подходах к продвинутой аналитике. Я узнал о технологиях и управлении данными. Но самое главное, я узнал о том, как возник миф вокруг термина машинное обучение, хотя на самом деле в этом нет ничего мифического. Я помню, как проводились командные собрания, на которых непосвященные участники описывали то, что мы делали, как «темные искусства».

Реальность такова, что в машинном обучении нет ничего темного, загадочного или мифического. Большинство статистических методов, используемых в подходах к машинному обучению, известны десятилетия или даже столетия в случае байесовских подходов. Популярность термина «машинное обучение» связана с технологией и тем, как она позволяет нам применять эти подходы к большим наборам данных способами, которые ранее казались сложными или совершенно невозможными для вычислительных ресурсов.

Тем не менее мифология сохраняется. Есть много людей, которые верят или склоняются к убеждению, что проект машинного обучения может творить своего рода ультрасовременную магию, которая бросит вызов всем человеческим подходам к той же проблеме. Это опасно, потому что это может означать, что отдельные лица или группы предпринимают усилия, которые требуют много ресурсов и времени, исходя из веры в то, что произойдет какое-то волшебство, и без соответствующей критической мысли и человеческого суждения.

Прежде чем продолжить, я хочу уточнить: я не критикую машинное обучение как таковое. Существует бесчисленное количество случаев, когда это приносит пользу и эффективность, и наша сегодняшняя жизнь не была бы такой, если бы не прорывы, которым способствовало машинное обучение. Нет, я хочу сказать, что мы не должны верить в то, что машинное обучение работает во всех ситуациях, и мы должны более осмотрительно относиться к тому, как и когда мы инвестируем в эти методы.

Чтобы проиллюстрировать мою точку зрения, вот три моих основных недостатка, свидетелем которых я стал в проектах машинного обучения.

1. Неправильная постановка цели

Согласно еще одной недавней статье, которую я написал, важно знать и уточнить цель проекта машинного обучения. Либо вы строите свою модель, чтобы объяснить что-то, либо вы строите ее, чтобы что-то предсказывать. В большинстве случаев модель, которая лучше объясняет явление, не оптимальна для его предсказания. Кроме того, модели, которые действительно хорошо предсказывают что-либо, часто имеют действительно очевидные особенности и составляют большую часть предсказательной силы, так что это не дает им больших объяснительных возможностей.

Очень важно, чтобы цель машинного обучения была разъяснена и согласована всеми сторонами. Мы строим модель в первую очередь для объяснения или в первую очередь для прогнозирования. В первую очередь он не может делать и то, и другое. В этом не должно быть никаких сомнений.

2. Плохой экспериментальный план

Представьте, что вы работаете в торговой компании и хотите построить модель, объясняющую, что движет успешными продажами представителей. Одна из вещей, которую вы уже знаете и знаете всегда, - это то, что торговые представители делают более успешные продажи существующим клиентам, чем новым.

Вы собираете все данные, которые можете найти, проводите свое обучение, а затем объявляете на большом собрании, что три основных объясняющих фактора продаж:

Покупал ли клиент раньше
Является ли это клиентом, которого представитель посещал раньше
Высоко ли клиент оценивает представителя в опросах обратной связи

Совершенно очевидно, что все эти драйверы связаны с фактором, который, как мы уже знаем, важен, и поэтому эти усилия не принесли никакой дополнительной ценности, и фактически, включение этих данных в математику модели теперь во многом зависит от фактора, который мы уже знали. о. Этого можно было бы избежать, если бы кто-то заранее продумал, как спланировать усилия. Возможно, мы могли бы удалить эти данные или ограничить выборку клиентами за пределами этой группы.

3. Плохое практическое планирование

Приступаете ли вы к ML в целях объяснения или прогнозирования, мало кто задумывается о последствиях успеха.

Если вы создаете модель, которая может помочь диагностировать причины невыходов на работу среди персонала, или модель, которая может предсказать производственные проблемы или что-то еще, вам необходимо иметь возможность развернуть ее на практике. Это когда вы обнаруживаете, что некоторые из источников данных, используемых в модели, были извлечены из файлов, которые требуют массивных ручных манипуляций. Или вы обнаруживаете, что некоторые исходные данные были условно исчислены на основе отсутствующих данных.

Дело в том, что если вы разрабатываете машинное обучение в надежде, что оно будет развернуто в будущем, чтобы помочь диагностировать или более эффективно прогнозировать вещи, вы должны быть уверены, что входные данные могут легко поступать в механизм прогнозирования. Я видел так много усилий по машинному обучению, в которых используются данные, которые не могут быть легко спроектированы, и это создает совершенно новую головную боль, которую можно было бы лучше предвидеть.

Хотя машинное обучение предлагает огромный потенциал для понимания данных, мы все еще далеки от того момента, когда успешное обучение гарантировано для любого набора данных. Фактически, без четкого проектирования и планирования, а также без хорошего инстинкта структуры данных проект машинного обучения может закончиться гигантской тратой времени и усилий. Проверив цели, экспериментальный дизайн и практическое планирование, вы поймете, стоит ли оно того.

Изначально я был чистым математиком, затем стал психометриком и специалистом по анализу данных. Я увлечен применением всех этих дисциплин к сложным человеческим вопросам. Я также помешан на программировании и большой поклонник японских ролевых игр. Найдите меня в LinkedIn или Twitter.

Три основных ошибки в машинном обучении

Мифология, связанная с машинным обучением, может привести к неправильному суждению о том, когда и как его применять.

1. Неправильная постановка цели

2. Плохой экспериментальный план

3. Плохое практическое планирование

Вопросы по теме