4 самых горячих тенденции в науке о данных на 2020 год

2019 год стал важным годом для всей Data Science.

Я пишу информационный бюллетень для учащихся под названием Mighty Knowledge. Каждый новый выпуск содержит ссылки и основные уроки из самого лучшего контента, включая цитаты, книги, статьи, подкасты и видео. Каждый выбран специально для того, чтобы научиться жить более мудрой, счастливой и полной жизнью. Зарегистрируйтесь здесь.

Компании во всем мире из самых разных отраслей прошли через то, что люди называют цифровой трансформацией. То есть компании берут традиционные бизнес-процессы, такие как найм, маркетинг, ценообразование и стратегия, и используют цифровые технологии, чтобы сделать их в 10 раз лучше.

Наука о данных стала неотъемлемой частью этих преобразований. Благодаря Data Science организациям больше не нужно принимать важные решения на основе догадок, предположений или небольших опросов. Вместо этого они анализируют большие объемы реальных данных, чтобы принимать решения на основе реальных фактов, основанных на данных. В этом и заключается суть Data Science - создание ценности с помощью данных.

Эта тенденция интеграции данных в основные бизнес-процессы значительно выросла, и, согласно Google Search Trends, за последние 5 лет интерес к ним вырос более чем в четыре раза. Данные дают компаниям резкое преимущество перед их конкурентами. Имея больше данных и более опытных специалистов по данным, которые могут их использовать, компании могут получать информацию о рынке, о существовании которой их конкуренты могут даже не подозревать. Это станет игрой данных или погибнет.

В современном постоянно развивающемся цифровом мире для того, чтобы опережать конкурентов, требуются постоянные инновации. Патенты вышли из моды, в то время как гибкая методология и быстрое улавливание новых тенденций очень популярны.

Организации больше не могут полагаться на свои давние и надежные методы. Если появится новая тенденция, такая как Data Science, Искусственный интеллект или Блокчейн, ее необходимо заранее предвидеть и быстро адаптировать.

Ниже приведены 4 самых горячих тенденции в области науки о данных на 2020 год. Эти тенденции вызывают растущий интерес в этом году и будут продолжать расти в 2020 году.

(1) Автоматизированная наука о данных

Даже в сегодняшнюю цифровую эпоху Data Science по-прежнему требует много ручной работы. Хранение данных, очистка данных, визуализация и изучение данных и, наконец, моделирование данных для получения реальных результатов. Эта ручная работа просто требует автоматизации, и, таким образом, произошел рост автоматизированной науки о данных и машинного обучения.

Почти каждый этап конвейера Data Science был или находится в процессе автоматизации.

Автоматическая очистка данных стала предметом серьезных исследований в последние несколько лет. Очистка больших данных часто занимает большую часть дорогостоящего времени специалиста по анализу данных. И стартапы, и крупные компании, такие как IBM, предлагают автоматизацию и инструменты для очистки данных.

Другая большая часть науки о данных, известная как разработка функций, претерпела значительные изменения. Featuretools предлагает решение для автоматического проектирования функций. Кроме того, современные методы глубокого обучения, такие как сверточные и рекуррентные нейронные сети, изучают свои собственные функции без необходимости ручного проектирования функций.

Возможно, наиболее значительная автоматизация происходит в области машинного обучения. И Data Robot, и H2O зарекомендовали себя в отрасли, предлагая платформы сквозного машинного обучения, что дает специалистам по обработке данных очень простой способ управления данными и построения моделей. AutoML, метод автоматического проектирования и обучения моделей, также стал популярным в 2019 году, поскольку эти автоматизированные модели превосходят самые современные. Google, в частности, вкладывает большие средства в Cloud AutoML.

В целом компании вкладывают значительные средства в создание и покупку инструментов и услуг для автоматизированного анализа данных. Все, что угодно, чтобы сделать процесс дешевле и проще. В то же время эта автоматизация также обслуживает более мелкие и менее технические организации, которые могут использовать эти инструменты и услуги для доступа к Data Science без создания собственной команды.

(2) Конфиденциальность и безопасность данных

Конфиденциальность и безопасность всегда являются деликатными темами в технологиях. Все компании хотят действовать быстро и внедрять инновации, но потеря доверия клиентов из-за проблем с конфиденциальностью или безопасностью может быть фатальной. Таким образом, они вынуждены сделать это своим приоритетом, по крайней мере, до минимума, чтобы не допустить утечки личных данных.

Конфиденциальность и безопасность данных стали невероятно горячей темой за последний год, поскольку проблемы усугубляются огромными публичными взломами. Совсем недавно, 22 ноября 2019 года, в Google Cloud был обнаружен незащищенный сервер без защиты. Сервер содержал личную информацию 1,2 миллиарда уникальных людей, включая имена, адреса электронной почты, номера телефонов и информацию профилей LinkedIn и Facebook. Даже ФБР пришло для расследования. Это один из крупнейших случаев раскрытия данных за все время.

Как данные попали туда? Кому это принадлежит? Кто отвечает за безопасность этих данных? Это было на сервере Google Cloud, который действительно мог создать кто угодно.

Теперь мы можем быть уверены, что весь мир не закроет свои учетные записи в LinkedIn и Facebook после прочтения новостей, но это действительно вызывает удивление. Потребители становятся все более осторожными в отношении того, кому они сообщают свой адрес электронной почты и номер телефона.

Компания, которая может гарантировать конфиденциальность и безопасность данных своих клиентов, обнаружит, что им гораздо легче убедить клиентов предоставить им больше данных (продолжая использовать их продукты и услуги). Это также гарантирует, что, если их правительство примет какие-либо законы, требующие протоколов безопасности для данных клиентов, они уже будут хорошо подготовлены. Многие компании выбирают SOC 2 Compliance, чтобы иметь доказательства прочности своей безопасности.

Весь процесс Data Science основан на данных, но большая их часть не анонимна. В чужих руках эти данные могут быть использованы для разжигания глобальных катастроф и нарушения частной жизни и средств к существованию обычных людей. Данные - это не просто необработанные числа, они представляют и описывают реальных людей и реальные вещи.

По мере развития науки о данных мы также увидим трансформацию протоколов конфиденциальности и безопасности, связанных с данными. Это включает процессы, законы и различные методы установления и поддержания безопасности, защиты и целостности данных. Неудивительно, что кибербезопасность станет новым модным словом года.

(3) Крупномасштабная наука о данных в облаке

За годы, пока Data Science превратилась из ниши в свою полноценную область, данные, доступные для анализа, также резко выросли в размерах. Организации собирают и хранят больше данных, чем когда-либо прежде.

Объем данных, который может потребоваться проанализировать типичной компании из списка Fortune 500, намного превышает возможности персонального компьютера. Приличный ПК может иметь что-то вроде 64 ГБ оперативной памяти с 8-ядерным процессором и 4 ТБ памяти. Это прекрасно работает для личных проектов, но не очень хорошо, когда вы работаете в глобальной компании, такой как банк или розничный торговец, у которой есть данные, охватывающие миллионы клиентов.

Вот где облачные вычисления входят в сферу применения. Облачные вычисления дают возможность любому человеку в любом месте получить доступ к практически безграничным вычислительным мощностям. Поставщики облачных услуг, такие как Amazon Web Services (AWS), предлагают серверы с 96 виртуальными ядрами ЦП и до 768 ГБ оперативной памяти. Эти серверы можно объединить в группу автомасштабирования, где сотни из них могут быть запущены или остановлены без особых задержек - вычислительная мощность по запросу.

Помимо вычислений, компании, занимающиеся облачными вычислениями, также предлагают полноценные платформы для анализа данных. Google Cloud предлагает платформу под названием BigQuery, бессерверное и масштабируемое хранилище данных, дающее специалистам по данным возможность хранить и анализировать петабайты данных на единой платформе. BigQuery также можно подключить к другим сервисам GCP для Data Science. Использование Cloud Dataflow для создания конвейеров потоковой передачи данных, Cloud DataProc для запуска Hadoop или Apache Spark с данными или использование BigQuery ML для построения моделей машинного обучения на огромных наборах данных.

Все, от данных до вычислительной мощности, растет. По мере развития науки о данных мы можем в конечном итоге сделать науку о данных исключительно в облаке из-за огромного объема данных.

(4) Обработка естественного языка

Обработка естественного языка (НЛП) прочно вошла в науку о данных после огромного прорыва в исследованиях глубокого обучения.

Наука о данных сначала начиналась как анализ чисто сырых чисел, поскольку это был самый простой способ обработать их и собрать в электронные таблицы. Если вам нужно было обработать какой-либо текст, его обычно нужно разбить на категории или каким-то образом преобразовать в числа.

Тем не менее, довольно сложно сжать абзац текста до одного числа. Естественный язык и текст содержат так много разнообразных данных и информации - мы упускали это из виду, поскольку у нас не было возможности представить эту информацию в виде чисел.

Огромные достижения в области НЛП благодаря глубокому обучению способствуют полной интеграции НЛП в наш регулярный анализ данных. Нейронные сети теперь могут невероятно быстро извлекать информацию из больших массивов текста. Они могут классифицировать текст по различным категориям, определять тональность текста и выполнять анализ сходства текстовых данных. В конце концов, всю эту информацию можно сохранить в одном числовом векторе признаков.

В результате НЛП становится мощным инструментом Data Science. Огромные хранилища текстовых данных, не только ответы из одного слова, но и целые абзацы, могут быть преобразованы в числовые данные для стандартного анализа. Теперь мы можем исследовать гораздо более сложные наборы данных.

Например, представьте новостной веб-сайт, который хочет узнать, какие темы набирают больше просмотров. Без продвинутого НЛП все, от чего можно было бы исходить, - это ключевые слова или, может быть, просто догадка о том, почему одно название хорошо работает по сравнению с другим. С помощью сегодняшнего НЛП мы сможем количественно определять текст на веб-сайте, сравнивая целые абзацы текста или даже веб-страницы, чтобы получить более полное представление.

Технический обзор наиболее важных достижений НЛП за последние несколько лет вы можете найти в руководстве Виктора Саня.

Data Science в целом растет. По мере роста его возможностей он внедряется во все отрасли, как технические, так и нетехнические, и каждый бизнес, как малый, так и крупный.

По мере того, как эта область развивается в долгосрочной перспективе, неудивительно, что она демократизируется в больших масштабах и становится доступной для гораздо большего числа людей в качестве инструмента в нашем программном наборе инструментов.