Data Science; давайте поговорим о данных.

Под влиянием сенсационной риторики, связанной с машинным обучением и наукой о данных, вы обращаетесь к Google. Вы набираете «научиться машинному обучению» или «как начать с машинного обучения», или, возможно, амбициозное «как стать специалистом по данным» . Появляется множество онлайн-материалов, которые часто направляют вас от линейной регрессии к нейронным сетям или к некоему псевдостандарту того, что значит изучать машинное обучение. Все эти материалы кажутся отдаленно похожими; объединение статистических концепций с некоторыми инструментами программирования и библиотеками. Вы начинаете понимать, что наука о данных и машинное обучение - это способы поиска закономерностей в данных и использования этих закономерностей для прогнозирования.

Но я бы хотел, чтобы мы все нашли минутку, чтобы поговорить о данных. Данные!! Большие данные! Огромные данные! Самые большие данные, которые вы когда-либо видели! Хорошо хорошо. Итак, изучение наборов данных, часто используемых для обучения машинному обучению, является более общим и безличным, чем они должны быть (это то, что у нас было до сих пор!). Я встречал классические наборы данных об автомобилях, ценах на жилье или ботанике ирисов. Я видел кучу медицинских данных (глаукома, диабет, рак). Я видел несколько забавных наборов данных о Корги или Титанике. Некоторые из этих наборов данных имеют такие проблемы, как ориентация на мужчин или изоляция маргинализированных групп населения. Некоторые из этих наборов данных слишком нишевые (глядя на вас, набор данных iris! извините за всех ботаников). Некоторые из этих наборов данных предполагают, что у вас больше базовых знаний о предмете, чем на самом деле (например, многие медицинские наборы данных). Некоторые из этих наборов данных забавны, но их сложно обобщить. И некоторые из этих наборов данных просто скучны.

Я требую более точные данные для моего обучения. С изобилием разнообразной активности в Интернете и алгоритмов, прогнозирующих наши предпочтения и поведение, почему бы не использовать это для лучшего обучения? В эпоху, когда мы можем отслеживать все о себе и делиться так много о себе, почему бы не использовать все эти данные для маркетинга или развлечений, чтобы расширить свои возможности как учеников? Каждый из нас как личность обладает богатым опытом и знаниями о себе. На мой взгляд, использование этих фондов знаний для обучения жизненно важно для создания более разнообразной и представительной среды. Нам всем есть что предложить друг другу, и изучение собственных данных имеет большой потенциал для мотивации к обучению. Используя самих себя в качестве примера, мы можем открывать закономерности в себе и изучать столь желанные науки о данных в процессе.

Какую роль в обучении играют данные?

Давайте приготовимся к метафоре. При обучении машинному обучению нам нужен большой набор данных. Некоторым алгоритмам требуется больше данных, чем другим, и есть способы выполнять однократное обучение. Но в целом нам нужно много данных. Данные - это ингредиенты, с которыми мы работаем в нашем рецепте. Данные - это цвета краски, с помощью которой мы будем создавать. Данные - это музыкальные инструменты, на которых мы можем играть, чтобы создать нашу симфонию! Итак, ради бога, давайте использовать данные, которые нам небезразличны! Выберите для своего следующего торта аромат, который вам нравится. Используйте свои любимые цвета в своем следующем шедевре. И выберите свой любимый инструмент, чтобы сыграть ноты в своей следующей песне. (Моя метафора уже разваливается?)

Звучит здорово, но как мне это сделать?

Возможно, в учебнике, который вы используете для изучения концепции машинного обучения, используется набор данных, далекий от ваших интересов, опыта или актуальных проблем, которые вы хотите решить. Код в учебнике использует этот набор данных, и у этого набора данных есть определенные свойства, чтобы научить концепции под рукой. Вы хотели бы использовать свои собственные данные, но вы также хотите пройти через это руководство! У меня есть несколько предложений.

  1. Если вы просто пытаетесь получить базовые навыки в области науки о данных, загрузите свои данные из Facebook! Просмотрите его немного, а затем выберите то, что вы хотели бы узнать о себе. Возможно, это что-то простое, например, самые распространенные слова, которые вы используете в своих сообщениях. Возможно, это что-то ужасно сложное, например: «Неужели я действительно наклоняю голову одинаково на каждой фотографии в Facebook?». Если у вас нет данных Facebook или вы не хотите использовать эту платформу, примените этот метод к какой-нибудь другой онлайн-платформе, которую вы используете. Возможно, вам придется выполнить парсинг веб-страниц на ваших собственных платформах, таких как Pinterest или Reddit (используйте API-интерфейсы или инструменты, такие как scrapy Python). В общем, выбирайте вопрос на основе того, что вам интересно, когда вы смотрите на свои собственные данные.
  2. Если у вас есть конкретная техника, которую вы хотите освоить, взгляните на примеры задач. Видите ли вы какие-либо возможности использования ваших собственных данных или волнующую вас проблему? Не бойтесь переключить набор данных и возиться с кодом. Это совершенно справедливо, если вы чувствуете, что просто хотите узнать, как он вас учит, и не хотите слишком сильно отклоняться от учебника. Но я могу вам сказать, вы научитесь лучше, если копаетесь в коде и работаете со своими данными. Лишь бы просто овладеть необходимыми навыками программирования и отладки!

Для меня определенно недостаточно утверждать, что обучение машинному обучению сложно, потому что наборы данных утомительны. В Data Science есть много других концепций, которые сложно осмыслить. Мне не хватало опыта в статистике, математике и программировании, чтобы понять основы, даже когда многие люди вокруг меня уже знали словарный запас и методы. Это был долгий путь. Но один из способов вызвать веселье, любопытство и стойкость - это использовать науку о данных, чтобы узнать больше о себе.