Открытие аналитических данных в области науки о данных с помощью новых подходов к машинному обучению

Я всегда ценил необычное, неожиданное и удивительное в науке и данных. Как однажды сказал известный научный писатель Артур Кларк: «Самая захватывающая фраза, которую можно услышать в науке, та, которая возвещает новые открытия, - это не« Эврика! »(Я нашел ее), а« Это забавно! »» Это основная причина, по которой я мотивировал большинство докторантов, которых я наставлял в GMU, работать над некоторыми вариантами открытия новизны (или открытия неожиданности) для их докторской степени. диссертации.

«Неожиданное открытие» для меня - гораздо более позитивная и захватывающая фраза, чем «обнаружение выбросов» или «обнаружение аномалий», и она намного богаче смыслом, алгоритмами и новыми возможностями. Наше восклицание «Это забавно!» вдохновляет обнаружение в ваших данных удивительной неожиданности, которая может сигнализировать о великом открытии (либо о качестве ваших данных, либо о недостатках вашего конвейера данных, либо о некоторых полностью новая научная концепция). Как сказала известный астроном Вера Рубин: «Наука прогрессирует лучше всего, когда наблюдения заставляют нас изменить наши предубеждения».

Два моих учебных занятия будут рассматривать две разные темы с общей точки зрения, отражающей тему «новизны», посредством изучения некоторых необычных примеров. В частности, некоторые (надеюсь, большинство) из этих примеров могут изменить предвзятые мнения участников (в положительную сторону) о ваших приложениях для обработки данных и типичных алгоритмах машинного обучения, которые вы используете каждый день. На каждом из учебных занятий будет представлена серия примеров (примерно по 10 каждый), чтобы продемонстрировать общую идею, представленную в названии соответствующего занятия.

Мои учебные занятия будут сосредоточены на новых подходах и способах размышления об общих методах и алгоритмах машинного обучения, которые часто используют специалисты по данным. К ним относятся теорема Байеса, анализ независимых компонентов, моделирование Маркова, рекомендательные механизмы, кластеризация K-средних, K-ближайшие соседи, нейронные сети, глубокое обучение, TensorFlow, графы знаний и многое другое.

Проблема холодного старта машинного обучения находится в центре внимания моего первого сеанса. В нем будут рассмотрены примеры метаобучения и оптимизации, когда имеется очень мало начальных знаний о том, с чего начать в пространстве гиперпараметров модели. Это частая проблема в приложениях для обработки данных, с которой сталкиваются либо когда имеется очень мало помеченных данных для адекватного обучения контролируемой модели обучения, либо когда наша цель - выяснить, что данные нам говорят (т.е. применяя обучение без учителя, чтобы исследовать их без дополнительного багажа наших предубеждений относительно того, что, по нашему мнению, раскрывают данные). Мы рассмотрим обратное распространение и TensorFlow в том же контексте.

Моя вторая тренировка будет посвящена изучению нетипичных приложений некоторых типичных алгоритмов машинного обучения. Это будет включать в себя прогнозирование усиления тропических штормов с использованием анализа корзины розничных товаров, а также прогнозирование воздействия солнечной бури на космонавтов в космосе с использованием методов картирования путешествий клиентов. Он даже будет включать в себя примеры гонок Формулы 1 и поиск лекарства от рака. Самым удивительным примером может быть тот, когда компания достигла 100 000% рентабельности инвестиций в аналитику данных, чтобы сократить отток клиентов - и они использовали, пожалуй, самый простой алгоритм во всей известной Вселенной.

Когда мы по-новому взглянем на методы и алгоритмы, которые мы используем каждый день, что затем приводит к неожиданным и удивительным открытиям в данных, которые должны волновать нас каждый новый день с данными.

Примечание. Кирк проведет два тренинга на Виртуальной конференции ODSC East 2021. Один будет сосредоточен на « Решение проблемы холодного старта специалиста по данным на примерах машинного обучения », а другой - на Атипичные приложения типичных алгоритмов машинного обучения . »

Открытие аналитических данных в области науки о данных с помощью новых подходов к машинному обучению

Вопросы по теме