Сегодня команда BBC Datalab выкладывает в открытую сеть материалы курса, которые она разработала для новичков в науке о данных на BBC.

Наука о данных, и особенно машинное обучение, сейчас в тренде, как никогда раньше. Всего за 12 минут (!) Билеты на NIPS раскупились быстрее, чем на Burning Man в этом году, и если кого-то еще нужно убедить, посмотрите этот сюжет:

Это показывает нам, что совсем недавно, в этом году, оба термина обогнали слово хипстер в поиске в Интернете. Хотя это может быть не очень хорошей новостью для продаж авокадо, похоже, что сейчас хорошее время для кого-то, кто работает с данными! Но, как всегда, с разоблачением часто может прийти замешательство. Итак, сначала давайте попробуем дать четкие определения.

BBC обрабатывает терабайты (читай - «много») новых данных каждый день, а наука о данных - это область исследований, которая помогает нам использовать эти данные для принятия более эффективных решений и предоставления большей ценности нашей аудитории. . Машинное обучение между тем - это лишь один из классов статистических методов, широко используемых в науке о данных, которые, как оказалось, являются особенно мощными. Однако это не волшебство. Вместо этого это набор инструментов и методов, которые используют математику для вывода на основе данных.

Можно возразить, что ничто не указывает больше на необходимость публикации учебного курса, чем момент, когда тема превосходит в веб-трафике крутое слово, которое используют миллениалы (привыкли?). Но у нашей команды были и другие причины для открытия этого курса. Вот всего три:

  1. Чтобы заинтересовать людей изучением данных и машинного обучения; особенно когда информационная грамотность настолько высока в списках желаний многих работодателей.
  2. Чтобы поделиться некоторыми интересными проблемами, с которыми сталкивается BBC в области данных.
  3. Чтобы продемонстрировать, как крупные организации, такие как BBC, могут использовать данные своей аудитории для положительного воздействия.

Продолжать создавать привлекательный контент, в то время как ожидания наших (особенно молодых) членов аудитории постоянно меняются, является одной из наших самых больших проблем. Чтобы соответствовать этим новым ожиданиям, нам важно проанализировать и понять условия и модели поведения, которые приводят к большей или меньшей вовлеченности.

В этом курсе мы используем данные, чтобы изучить вопрос: «Что привлекает аудиторию BBC?». Если у вас есть хотя бы базовое понимание программирования на Python (статистика будет бонусом!) И здоровый интерес к вашим первым шагам в области науки о данных, мы думаем, вам будет очень весело изучать наш курс.

Мы отправляем читателей в путешествие, состоящее из четырех частей, которое следует типичной схеме многих проектов, основанных на данных. Предполагается, что на выполнение каждой части у читателей уйдет около часа. Основное внимание уделяется: исследованию данных, преобразованию данных, моделям классификации и регрессии. модели.

В исследовании данных мы сначала изучаем, как сформулировать нашу задачу науки о данных, и проводим предварительный анализ, чтобы лучше понять наши данные. Затем в разделе преобразование данных мы знакомим читателей с некоторыми основами теории машинного обучения и рассмотрим процесс подготовки данных для использования в наших статистических моделях. В последних двух частях (классификация и регрессия) начинается собственно машинное обучение, где мы объясняем, как обучать, оценивать и выбирать наиболее подходящую модель для нашей цели.

Набор данных, над которым вы работаете, содержит журналы от 10 000 пользователей BBC iPlayer. Как и следовало ожидать, такая государственная вещательная компания, как Beeb, серьезно относится к конфиденциальности данных. Таким образом, хотя набор данных, который мы используем, является «реальным», вы можете быть уверены, что мы ввели особенно строгую анонимность, чтобы невозможно было восстановить личность пользователей.

С помощью такого вводного курса мы не ожидаем, что за одну ночь кто-нибудь станет экспертом в области науки о данных. Тем не менее, мы надеемся, что те из вас, кто воспользуется им, получат массу удовольствия, а также получат некоторую ценную информацию о решениях, которые мы принимаем при работе с данными на BBC.

Темы, затронутые в онлайн-курсе, - это лишь малая часть проблем науки о данных, с которыми мы ежедневно сталкиваемся на BBC. Если вы хотите узнать больше о проблемах, с которыми мы сталкиваемся, и о том, как мы используем науку о данных и машинное обучение для поиска инновационных решений для взаимодействия с аудиторией, свяжитесь с нами!

Мы всегда стремимся улучшить содержание курса, поэтому, если у вас есть какие-либо отзывы или идеи для дальнейших статей, мы бы очень хотели их услышать.

Ссылка на курс: https://github.com/bbc/datalab-ml-training

И если вам понравилось это обучение, и вы получили от него удовольствие, почему бы не присоединиться к нам? Https://findouthow.datalab.rocks/