В беседе с Филиппом Сингером: специалистом по анализу данных, двойным гроссмейстером Kaggle и доктором философии. в области компьютерных наук.

В этой серии интервью я представляю истории признанных Data Scientists и гроссмейстеров Kaggle на H2O.ai, которые делятся своим путешествием, вдохновением и достижениями. Эти интервью призваны мотивировать и воодушевить других, кто хочет понять, что нужно, чтобы стать гроссмейстером Kaggle.

В этом интервью я расскажу о своем взаимодействии с Филиппом Сингером, более известным как Пси в мире Kaggle . Он является двойным гроссмейстером Kaggle и старшим специалистом по анализу данных в H2O.ai. Филипп получил докторскую степень. с отличием получил степень бакалавра компьютерных наук в Техническом университете Граца, где он также получил степень магистра в области разработки программного обеспечения и управления бизнесом.

У Филиппа несколько достижений, в том числе многократные победы и высшие места на Kaggle и несколько научных наград, таких как награда за лучшую работу на известной Всемирной веб-конференции. В прошлом он занимал первое место, а в настоящее время занимает второе место в мировом рейтинге соревнований Kaggle, что одновременно впечатляет и вдохновляет.

Одним из самых заметных достижений Филиппа стала победа во втором ежегодном соревновании NFL's Big Data Bowl в команде с другим специалистом по данным H2O.ai - Дмитрием Гордеевым. Более 2000 специалистов по данным со всего мира соревновались в Kaggle, чтобы предсказать исход игры в спешке. Филипп Сингер и Дмитрий Гордеев своим подходом захватили главный приз в размере $ 50 000.

В этом интервью мы узнаем больше о его академическом прошлом, его увлечении Kaggle и его работе в качестве Data Scientist. Вот отрывок из моего разговора с Филиппом:

У вас есть докторская степень. в области компьютерных наук. Почему вы выбрали для своей карьеры Data Science, а не академические исследования?

Филипп: Я получил степень доктора философии. Он получил степень бакалавра компьютерных наук в Техническом университете Граца в Австрии и работал научным сотрудником в Германии. За свою научную карьеру я затронул множество различных тем в области науки о данных и опубликовал множество статей и статей на известных конференциях и в журналах. Следующим шагом в этой карьере я должен был стать профессором, что звучало интригующе. Однако, хотя я люблю преподавать, я также хотел углубиться в более прикладную работу, а это значит, что я хотел, чтобы моя работа имела большее влияние, чем то, что в основном возможно в исследованиях. Это побудило меня заняться наукой о данных в качестве карьеры. Тем не менее, мне очень понравилась моя докторская степень. и многому научился за это время, но теперь я также рад быть в авангарде науки о данных и машинного обучения и играть настоящую роль в H2O.ai.

Как началось ваше свидание с Kaggle и что поддерживало вас на протяжении всего пути вашего гроссмейстера?

Филипп: Я зарегистрировался на Kaggle около восьми лет назад, это было близко к моим первым шагам в качестве доктора философии. потому что я слышал о платформе и хотел ее проверить. Но я сделал всего лишь образец материала, а затем перестал прикасаться к Kaggle на шесть лет. Около двух лет назад мы с Дмитрием (dott1718 на Kaggle, а теперь и коллегой по работе) решили вместе поучаствовать в конкурсе на Kaggle в качестве побочного проекта. на работе. Мы пошли на это с нулевыми ожиданиями, но в итоге выиграли соревнование, что меня зацепило, и с этого началось мое путешествие в Kaggle.
В Kaggle мой подход всегда заключался в том, чтобы решать новые типы проблем, чтобы сохранять мотивацию, и есть еще новые интересные проблемы, которые нужно решать регулярно. Мне также нравится встречаться и работать с талантливыми людьми на Kaggle и видеть, как сообщество стремится к этому.

В последнее время вы попадаете в таблицу лидеров Kaggle с некоторыми впечатляющими результатами, последним из которых стал NFL 1st and Future - Impact Detection, где вы заняли второе место. Как вы подходите к решению таких проблем и как хорошо живете?

Филипп: Меня часто спрашивают, как они могут выиграть соревнования Kaggle, и я не думаю, что есть какой-то общий секретный соус, который можно применить. Большой успех на Kaggle основан на опыте и желании прикоснуться и узнать о вещах, о которых, на первый взгляд, вы мало что знаете. Со временем я собрал особый общий набор инструментов, который включает строительные блоки из каждого соревнования, с которым я работал. Например, я понимаю, как настроить правильную перекрестную проверку, какие библиотеки использовать для моих моделей, как правильно подбирать модели, отслеживать их производительность и тому подобное. Так что у меня уже есть больше времени, чтобы сосредоточиться на новых и важных аспектах недавних соревнований. Я всегда стараюсь улучшить свой рабочий процесс после каждого соревнования, чтобы стать более эффективным и конкурентоспособным.

Большой успех на Kaggle основан на опыте и желании прикоснуться и узнать о вещах, о которых на первый взгляд вы мало что знаете.

Как вы решаете, в каких соревнованиях участвовать?

Филипп: в основном я пытаюсь решать новые типы задач или соревнований, которые кажутся интересными с точки зрения данных или проблемы, которую нужно решить. Иногда я также испытываю удачу с более стандартными соревнованиями, чтобы быть в курсе еженедельно меняющегося состояния искусства.

Как вы обычно подходите к проблеме Kaggle? Есть ли какие-нибудь любимые ресурсы машинного обучения (MOOCS, блоги и т. Д.), Которыми вы хотели бы поделиться с сообществом?

Филипп: Я стараюсь прибегнуть к своему репертуару методов, инструментов и опыта, который я уже накопил, а затем пытаюсь исследовать конкретную проблему. Это означает, что я буду изучать предыдущие решения аналогичных проблем на Kaggle и читать соответствующие статьи. Лучший способ узнать о проблеме - это учиться на практике.

Каковы ваши роли как специалист по анализу данных в H2O.ai и в каких конкретных областях вы работаете?

Филипп: В H2O.ai моя роль очень многогранна. Я регулярно участвую в проектах, ориентированных на клиентов, и моя цель - поддержать проекты с помощью моего опыта в области науки о данных. Кроме того, как Kaggle Grandmasters мы всегда стараемся использовать наш опыт и знания о последних достижениях, чтобы постоянно улучшать наши продукты и разрабатывать новые передовые прототипы и решения. Например, это может означать, что мы вносим предложения по новым функциям в AI без драйверов или разрабатываем приложения AI в Wave, демонстрирующие новые методы или решения для анализа данных с полным конвейером.

Какие из лучших вещей, которые вы узнали с помощью Kaggle, вы применяете в своей профессиональной работе в H2O.ai?

Филипп: Одна важная вещь, которую вы узнаете на Kaggle, - это как создавать надежные модели, которые могут хорошо обобщаться и не подвержены сильному переобучению. Это очень важно для Kaggle, так как вам нужно хорошо работать с невидимыми личными данными. Это означает, что вы многое узнаете о надежной перекрестной проверке и позаботитесь о других аспектах данных, таких как сдвиги в распределении функций или некоторые важные аспекты. Я могу использовать эти знания в своей работе в H2O.ai, поскольку они также являются неотъемлемой частью наших продуктов. Мы хотим, чтобы клиенты могли выполнять надежное машинное обучение, опираясь на наш опыт и знания в этой области.

Область науки о данных стремительно развивается. Как вам удается быть в курсе всех последних событий?

Филипп: в основном я использую Kaggle, чтобы быть в курсе последних событий; это отличный фильтр новых техник, которые либо работают над практическими и прикладными проблемами, либо не работают. Обычно надежные методы выживают, а маргинальные методы, которые работают только время от времени, отфильтровываются. В то же время я стараюсь быть в курсе, следя за известными исследователями и практиками в Twitter и на других платформах.

Есть ли какие-то конкретные области или проблемы, в которых вы хотели бы применить свой опыт в области машинного обучения?

Филипп: я не имею в виду ничего конкретного; Обычно я стараюсь удивляться интересным проблемам, которые возникают либо на работе, либо в Kaggle. Очень важно вникать в проблемы, которые на первый взгляд не кажутся вам интересными. Вы также можете объективно взглянуть на проблему и, вероятно, также применить свой опыт, полученный при решении других проблем, к имеющимся данным.

Совет для соискателей Data Science и Kaggle, которые только начали или хотят начать свой путь в Data Science?

Филипп: Запачкайте руки, не бойтесь неудач и всегда стремитесь узнавать что-то новое.

Путешествие Филиппа Kaggle было весьма примечательным. Я уверен, что его путь, преданность делу и достижения станут источником вдохновения для тех, кто уже работает или пытается сделать карьеру в этой области.

Прочтите другие интервью из этой серии: