Добро пожаловать в третью часть нашей серии статей о науке о данных, посвященной демистификации! В предыдущих постах мы обсуждали что такое наука о данных и что требуется для проекта по науке о данных. Теперь мы проведем различие между двумя инициативами в области данных, которые люди часто путают: большие данные и наука о данных.

Почти все инструменты и службы, которые мы используем, потребляют или генерируют данные. Сделайте шаг назад и подумайте об этом. От электронных писем, которыми мы обмениваемся, и веб-сайтов, которые мы посещаем, до продуктов, которые мы покупаем в интернет-магазинах. Кроме того, Интернет вещей (IoT) предоставляет дополнительные данные от носимых устройств с датчиками, умных домов и даже умных городов, которые мы постоянно используем. Чтобы представить данные в перспективе, в 2015 году мы генерировали более 2,5 экзабайт каждый день (правильно, с 18 нулями). Чтобы понять идею экзабайта, если бы вы транслировали весь каталог Netflix 3000 раз, вы бы потребляли только 1 экзабайт. Наличие такого огромного количества информации представляет собой огромную неиспользованную возможность для многих организаций.

Появились две разные попытки использовать потенциал данных: большие данные и наука о данных. Эти термины часто используются взаимозаменяемо, несмотря на принципиальные различия. По сути, большие данные — это сбор (часто в реальном времени) и обработка огромных объемов разнообразных данных. Возможно, вы слышали о 3V больших данных: объем, разнообразие и скорость. С другой стороны, наука о данных — это создание математических моделей для захвата базовых закономерностей в сложных наборах данных, среди других задач.

К сожалению, многие компании, стремящиеся присоединиться к шумихе вокруг данных, сосредотачиваются на сборе данных, не имея соответствующей стратегии ни для того, ни для другого. В конце концов, сбор не означает открытие, и ценность бизнеса не увеличивается только за счет сбора большего количества данных.

Размытая грань между большими данными и наукой о данных

Хотя мы установили разницу между большими данными и наукой о данных, есть проекты, в которых они переплетаются. Это сотрудничество будет определяться такими факторами, как:

  • Память и вычислительная мощность. При обучении алгоритмов машинного обучения потребуется доступ, хранение и обработка больших объемов данных. Для этого проекта необходимы навыки работы с большими данными.
  • Связь между набором данных и моделью. Количество данных, необходимых для обучения модели, зависит от ее сложности.

Примером отношения между набором данных и моделью являются важные соображения, применяемые при обучении нейронной сети. Этот алгоритм пытается имитировать то, как мозг обрабатывает данные, предполагая сложенные слои соединений, которые могут легко масштабироваться до сотен тысяч. Если количество соединений в нейронной сети больше, чем количество наблюдений в вашем наборе данных, модель запоминает обучающие примеры и, вероятно, будет плохо работать с новыми данными после развертывания системы. Это делает большие наборы данных важным требованием для обучения нейронных сетей, поскольку они обеспечивают более высокое соотношение наблюдений на соединение.

В целом нейронные сети были успешно реализованы для многих задач обработки естественного языка (NLP), таких как обнаружение намерений, обнаружение дублирования документов, языковой перевод и т. д. Как вы можете себе представить, вам нужно много данных для обучения надежных моделей для различных задач. Чтобы придать смысл слову «большой», рассмотрите следующие открытые наборы данных, которые можно использовать для различных задач НЛП:

  • Википедия на английском языке: 100 ГБ в сжатом виде; 10 ТБ без сжатия
  • Набор данных WMT 14 с английского на французский: 950 МБ, ~ 50 млн слов на язык
  • Корпус UMBC WebBase: 13 ГБ без сжатия, 3 млрд слов
  • Google Книги N-грамм: 2,2 ТБ
  • Amazon Reviews: 11 ГБ, ~35 миллионов отзывов

Эти наборы данных не могут быть обработаны с использованием традиционных подходов (некоторые даже не помещаются в память обычных компьютеров), поэтому для эффективного выполнения вычислений необходимы технологии больших данных. Именно в таких ситуациях большие данные и наука о данных идут рука об руку, даже если они разные.

Следите за нашим следующим постом, в котором мы обсудим повседневные применения науки о данных! Ознакомьтесь с открытыми ролями в Wizeline здесь.

Об авторах:

Диего имеет степень бакалавра наук в области прикладной математики со специализацией в области машинного обучения и статистического обучения. Последние четыре года он занимался моделированием данных в стартапах в Дубае и Мексике. В Wizeline он участвует в исследованиях Deep Learning.

Хуан имеет степень магистра наук. в области статистики и операционных исследований Эдинбургского университета с отличием. В настоящее время он преподает на кафедре промышленной инженерии ITESM. До прихода в Wizeline Хуан несколько лет проработал в HP Labs в качестве помощника исследователя по математической оптимизации. Сейчас он занимается анализом рынка недвижимости в США и участвует в исследованиях Deep Learning.