Как (не) выиграть соревнование Kaggle

Если бы только выиграть было так же легко, как проиграть

Что такое Kaggle?

Вы когда-нибудь задумывались, каково быть врачом? Чтобы иметь возможность изучить возможность, не практикуя? Если это так, то вы не одиноки. Однако, учитывая сложность современной медицины и нюансы связанных с ней юридических и юридических обязательств, крайне маловероятно, а может быть, даже невозможно иметь «испытательный» период для того, чтобы стать врачом. То же самое не относится к Data Science.

Kaggle - это платформа для всех, кто интересуется аналитикой данных и наукой о данных, чтобы исследовать тщательно отобранные наборы данных и решать очень конкретные проблемы. Если вы заинтересованы в разработке моделей для решения задач классификации, регрессии и распознавания изображений, в Kaggle есть наборы данных и группа поддержки, которые позволят любому научиться работать с данными. Если вас больше интересует визуализация данных или исследовательский анализ данных, существуют наборы данных, доступные исключительно для этого. Есть много других функций, которые может предложить Kaggle, которые любой оценит. Одна особенность, которая больше всего интересует, - это соревнования Kaggle.

Каждое соревнование, спонсируемое разными компаниями, включает набор данных с набором доступных для использования переменных и конкретной переменной, которую вы хотите предсказать. Обычно существует метрика, связанная с соревнованием, и цель соревнования - оптимизировать этот показатель. Победитель или победители конкурса обычно получают приз, обычно включающий денежный приз, но не исключая возможности работать с организаторами конкурса.

Каждый участник развертывает стратегию в надежде выиграть соревнование. Однако всегда есть четкая решающая проигрышная стратегия.

Мы обсудим стереотипные стратегии, которые чаще всего используются для победы (проигрыш), и обсудим, почему эта стратегия никогда не дает выигрышного результата.

Типичная стратегия выигрыша (проигрыша)

Типичная стратегия, которую участник использует для победы, включает в себя две основные концепции: разработка конвейера обработки данных и достижение максимально возможной метрики оптимизации. Обе эти концепции необходимы для победы в соревновании Kaggle. Однако чрезмерное внимание к этим двум концепциям обычно является причиной проигрыша участником.

Давайте сначала рассмотрим достижение максимально оптимизированной метрики. По мере проведения соревнований Kaggle разрабатываются два табло. Существует начальное табло, которое все используют в первую очередь, и обычно в соревновании предлагаются два набора данных. Один набор данных предназначен для обучения вашего конвейера обработки данных, а затем есть набор данных для тестирования вашего конвейера обработки данных. Набор данных, на котором вы тестировали свой процесс, отправляется на первоначальный отбор на доске, где они измеряют, насколько точны ваши прогнозы, или подмножество ваших прогнозов, и используют это в качестве вашей начальной оценки в соревновании. Когда наступает дата окончания соревнования, открывается второе табло, и оценивается полный набор прогнозов, полученных из проверенного набора данных, и этот результат является определяющим результатом того, кто выиграет или нет.

К сожалению, большинство из них сосредоточено на достижении высокого результата в первом раунде в надежде получить высокий результат в финальном раунде. Это причина того, что большинство не выигрывают. В науке о данных есть понятие переобучения. Переобучение относится к обучению набору данных и оптимизации метрики для этого набора данных. Даже если вы не тренируете свой процесс науки о данных на наборе данных, который будет использоваться в процессе оценки, вы все равно можете переоснастить свой процесс анализа данных, выполнив последние настройки прогнозов, чтобы получить лучшую оценку для себя на первой доске. Если бы это была единственная доска, о которой нужно было беспокоиться, то, возможно, эта техника БЫЛА той техникой, которую нужно использовать. Однако, учитывая вторую плату, это не так. Те «оптимизированные, эффективные» прогнозы, сделанные для первого раунда, обычно не работают так же хорошо в последнем раунде. Это первая ошибка, которую делают многие.

Вторая ошибка, которую чаще всего совершают, - это предположение, что существует только один способ создать производительный конвейер обработки данных, и, возможно, для создания такого конвейера нужен только один участник. Цитата «Все дороги ведут в Рим» применима именно здесь.

Обе эти тактики по сути важны и необходимы. Однако сосредоточение внимания исключительно на них не позволяет вам продвигаться вперед и побеждать.

Путь к выигрышной стратегии

Способ разработки выигрышной стратегии включает в себя те же две базовые концепции при разработке проигрышной стратегии: разработка конвейера обработки данных и достижение наилучшего возможного результата. Разница между ними заключается в том, как вы действуете в соответствии с этими двумя базовыми концепциями.

Пытаясь достичь максимально возможного результата, вы должны ожидать, что ваш процесс анализа данных будет эффективным и будет хорошо обобщать. Чтобы обеспечить обобщение, вы должны разделить свой обучающий набор данных на два разных набора данных. Вы должны иметь набор данных для проверки, проверить свой конвейер обработки данных и иметь подмножество исходного набора данных для обучения, на котором можно будет обучать свой процесс анализа данных. Оба они необходимы. Таким образом, цель не в том, чтобы набрать лучший результат на первом табло. Табло - это скорее средство определения действительности вашей схемы проверки. Ваша цель должна заключаться в том, чтобы увидеть, насколько хорошо работают ваши метрики валидации, и убедиться, что они улучшаются наряду с метриками обучения.

Опять же, при разработке своего пайплайна науки о данных большинство сосредотачивается на том, чтобы делать это самостоятельно, и что их способ - единственный путь. Это не так !!

Чтобы выиграть соревнование Kaggle, необходимо сотрудничество.

В Kaggle вы можете создавать группы, сотрудничать с другими и комбинировать свои конвейеры обработки данных, чтобы выиграть. Большинство победителей объединились в команды. Сотрудничество и командная работа - необходимые элементы для победы.

В заключение, чтобы подчеркнуть пару моментов, чтобы выиграть соревнование kaggle, вы должны иметь надлежащую схему проверки и сотрудничать.

Если это сообщение вызвало у вас отклик, подпишитесь на мою рассылку, перейдя на мою домашнюю страницу.



Если вас интересуют другие мои статьи, нажмите на ссылку ниже