В беседе с Фатихом Озтюрком: специалистом по анализу данных и гроссмейстером конкурса Kaggle.

В этой серии интервью я представляю истории признанных Data Scientists и гроссмейстеров Kaggle на H2O.ai, которые делятся своим путешествием, вдохновением и достижениями. Эти интервью призваны мотивировать и воодушевить других, кто хочет понять, что нужно для того, чтобы стать гроссмейстером Kaggle.

В этом интервью я расскажу о своем взаимодействии с Фатихом Озтюрком. Он является гроссмейстером Kaggle Competitions и специалистом по анализу данных в H2O.ai. Фатих с отличием получил степень бакалавра в области промышленного строительства в Университете Богазичи в Стамбуле. До прихода в H2O.ai он работал специалистом по обработке данных в UrbanStat. Фатих присоединился к Kaggle почти четыре года назад и выиграл семь золотых медалей, включая сольное. Он также имеет статус Мастера на уровне обсуждения.

В этом интервью мы узнаем больше о его академическом прошлом, его увлечении Kaggle и его работе в качестве Data Scientist. Вот отрывок из моего разговора с Фатихом:

У вас есть опыт работы в области промышленного машиностроения. Что побудило вас выбрать профессию в области Data Science?

Фатих: Моим основным направлением в области промышленного инжиниринга было исследование операций (OR), цепочки поставок и статистика. Помимо этих основных блюд, у нас также была возможность выбрать конкретные факультативы в зависимости от наших интересов. В моем последнем семестре я выбрал «Интеллектуальный анализ данных» в качестве одного из факультативных курсов. Одной из причин выбора этого варианта была его популярность. Изучая интеллектуальный анализ данных, я впервые столкнулся с такими понятиями, как случайный лес, классификация, предсказание и т.д. Я понял, что моя страсть лежит в области анализа данных, и сразу понял, в какой области мне нужно будет работать после окончания учебы.

Как началось ваше свидание с Kaggle и что поддерживало вас на протяжении всего пути вашего Грандмастера?

Фатих: Моя первая работа была младшим специалистом по данным в технологическом стартапе. Я был единственным специалистом по данным, и мы работали там только со страховыми компаниями. Через несколько месяцев после прихода в компанию мой начальник узнал о соревновании Porto Seguro на kaggle и спросил меня, могу ли я посмотреть на него, поскольку это был случай использования страховки. Мне понравилось то, что я узнал на этом конкурсе, потому что я увидел, что люди много делятся. Итак, во время этого соревнования я понял две основные вещи:

  • Моя скорость обучения была намного выше, когда я работал с ядрами и обсуждениями.
  • Моя соревновательная сторона была задействована, и я узнал, что мне очень нравится соревноваться.

Конкуренция и обучение игре идут рука об руку. Это моя основная мотивация участвовать в любом соревновании. Быть Мастером или Грандмастером - естественный результат этого процесса.

Не могли бы вы рассказать нам немного о своем любимом соревновании Kaggle?

Фатих: Мне понравился конкурс Риск дефолта жилищного кредита. Наборы данных не были полностью анонимными, и, следовательно, оставалось много возможностей для разработки функций. Было весело пытаться понять, в чем состоят конкуренты, а затем иметь возможность создавать полезные функции. Более того, у нашей команды была хорошая стратегия проверки, которая в итоге оказалась очень успешной для частной таблицы лидеров. Мы переместились с 29 места в публичной таблице лидеров на 10 место в частной.

Как вы обычно подходите к проблеме Kaggle?

Фатих: Для любого соревнования моя первая попытка - всегда иметь на своей стороне надежную схему проверки. Наличие хорошо коррелированного отношения CV-LB - это все. Итак, как этого добиться? Это в основном зависит от правильного исследовательского анализа данных (EDA). Выяснить, чем набор тестов отличается от набора поездов (если так), а затем воспроизвести это в своей схеме проверки, является хорошей отправной точкой. Помимо выполнения EDA с графиками и числами, я также проверяю оценки состязательной проверки в этом отношении.

После того, как у меня есть хорошая стратегия проверки, я сосредотачиваюсь на поиске полезных вещей, которыми не делятся на публичном форуме, потому что наличие разных уловок имеет решающее значение для получения хорошего ранга в конце.

Для любого соревнования моя первая попытка - всегда иметь на своей стороне надежную схему валидации. Наличие хорошо коррелированного отношения CV-LB - это все

Не могли бы вы познакомить нас с вашим набором инструментов, например с любимым языком программирования, IDE, алгоритмами и т. д.

Фатих: Я использую Python и большую часть времени работаю с JupyterLab. У меня также есть учетная запись Google Colab pro для доступа к графическим процессорам, поскольку у меня нет локальной учетной записи. Я считаю, что это хорошее вложение, поскольку у нас ограниченное количество часов графического процессора в неделю на ноутбуках Kaggle.

Мой любимый алгоритм моделирования - Lightgbm. Я по-прежнему считаю, что это очень эффективный и удобный для производства алгоритм, учитывая, насколько легко его настраивать и насколько быстро он может получить достаточно хорошие результаты.

Вы регулярно выступаете на встречах. Как обстоят дела в области науки о данных в Турции и вокруг нее?

Фатих: Я считаю, что интерес людей к науке о данных весьма заметен в Турции, и он растет с каждым днем. Все больше и больше студентов выбирают информатику в качестве своей специальности по сравнению с другими инженерными специальностями. Основная причина такой популярности - повсеместное распространение науки о данных во всех отраслях.

Число турок, которых я встречаю на соревнованиях по кагглу, тоже довольно быстро растет. Это отрадно, поскольку несколько лет назад этого не было. Похожая ситуация отражена и в сообществе митапов. Также резко выросло количество мероприятий и участвовавших в них студентов. В последнее время многие турецкие компании начали проводить классные соревнования на Kaggle.

Каковы ваши роли в качестве специалиста по обработке данных в H2O.ai и в каких конкретных областях вы работаете?

Фатих: Я участвую в POC и других проектах, связанных с клиентами, чтобы помочь им получить больше от AI без водителя. Кроме того, я разрабатываю новые приложения через Wave framework и тестирую AI без драйверов с новыми наборами данных.

Область науки о данных стремительно развивается. Как вам удается быть в курсе всех последних событий?

Фатих: Я думаю, что социальные сети являются ключом к этому. Практически невозможно оставаться в курсе событий в одиночку. Однако, если вы находитесь в правильных каналах Slack и у вас есть значимая лента LinkedIn, вам будет легче следить за новостями. . Кроме того, еще одним полезным ресурсом является участие в соревнованиях kaggle и регулярное отслеживание обсуждений на форумах соревнований.

Как вы планируете проводить время с Kaggle в 2021 году? Есть какие-то особые вехи, которых вы хотите достичь?

Фатих: Я хочу принять участие в соревнованиях по компьютерному зрению в 2021 году. Я был бы рад попасть в число 50 лучших в качестве индивидуального участника одного из этих соревнований. Золотая медаль в команде тоже, конечно, была бы фантастикой. 😃

Совет для соискателей науки о данных, которые только начали или хотят начать свой путь в науке о данных?

Фатих: я бы посоветовал не слишком беспокоиться о таких вопросах, как - с чего начать, какие курсы выбрать, какие инструменты изучить и т. д. Вместо того, чтобы сначала разбираться со всеми этими вопросами , рекомендуется сразу перейти к проекту или конкурсу в области науки о данных и учиться на чужом коде. Так я улучшил себя, пачкая руки на ранней стадии. Анализируя код других людей и задавая вопросы вроде - Что здесь делает этот фрагмент кода? Почему автор так написал код? Как это помогает в этом проекте / конкурсе? и т.д. были некоторыми из способов, которые позволили мне отточить свои навыки. Следующая задача - тогда ответить на эти вопросы. Можно было либо искать ответы в Интернете, либо использовать дискуссионные форумы.

Достижения Фатиха в Kaggle отражают его страсть к решению проблем и постоянную склонность к тяжелой работе. То, как он перешел от промышленного инжиниринга к науке о данных, а затем за два года получил титул Kaggle GrandMaster, заслуживает похвалы.

Прочтите другие интервью из этой серии: