Сочетание точности предсказания и объяснимости

Откройте сегодня любой форум по науке о данных, и вы увидите беспрецедентную дискуссию о глубоком обучении и искусственных нейронных сетях. Глубокое обучение рекламируется как абсолютно необходимое знание для специалистов по обработке и анализу данных, критическое для компаний, чтобы использовать его для решения своих общих бизнес-задач, и как предвестник следующей волны конкурентного преимущества. Благодаря сложности скрытых сетей, нелинейным отношениям и обучению с подкреплением алгоритмы прогнозирования теперь движутся к более высоким уровням точности. В этом блестящем мировоззрении, в котором доминируют сложные модели, охватывающие весь спектр от независимых от моделей методов до свободных от моделей, в этой статье делается попытка повторить, почему простые генерирующие идеи и параметрические модели по-прежнему занимают свое место в современном мире. И почему палочка ИИ несовершенна в своем волшебстве до тех пор, пока не начнет работать так же, как мозг — сочетая точность предсказания с объяснимостью.

Чтобы понять силу генерации идей в объяснительных моделях, нам нужно немного вернуться в историю. Анализ данных или «количественные исследования» развились как механизм для работы с большими объемами данных. Большая часть исторического анализа в количественной области была связана с показателями центральной тенденции — среднего, медианы и моды, а также с более высокими порядками моментов, таких как дисперсия и асимметрия. Велся поиск одного числа (или набора чисел), которое описывало бы данные и рассматривало их с точки зрения того, как часто и с какой интенсивностью что-то происходило. Если бы распределение данных можно было понять и воспроизвести, тогда можно было бы сравнивать распределения, понимать влияние переменных друг на друга (корреляция и ковариация), измерять влияние и важность этих переменных с помощью линейной регрессии, бета-коэффициентов и т. д. Любой, кто прошел базовый курс статистики за последние 20 лет, будет иметь отношение к борьбе с теоремой Чебычева и центральной предельной теоремой.

Весь механизм статистического/количественного анализа, который был направлен на агрегирование показателей данных, привел к созданию линейных моделей, которые носили пояснительный характер («у» коррелирует с x1, x2, x3) и построены на принципах наилучших линейных несмещенных оценок. Преобразования или разбиение наборов данных использовались главным образом для того, чтобы сделать данные более приемлемыми для ограничений наших алгоритмов моделирования (кластеризация для уменьшения гетероскедастичности, анализ основных компонентов для уменьшения мультиколлинеарности и т. д.).

Основные методы анализа той эпохи были обусловлены затратами на сбор, хранение и обработку данных. Данные приходилось собирать с помощью опросов и других дорогостоящих методов; дизайн исследования стал важным для сбора наиболее надежных и достоверных данных, а также для оценки пригодности одного и того же набора данных для получения нескольких идей. Целые отрасли были построены вокруг кодификации данных и их анализа; поскольку обработка данных требовала инвестиций в оборудование и программное обеспечение, парадигмой стали линейные методы (с добавлением некоторых приемлемых альтернатив нелинейности).

За последнее десятилетие эти ограничения больше не действуют. Социальные сети генерируют беспрецедентное количество данных; доступность смартфонов и планшетов сделала сбор данных опроса мгновенно машиночитаемым; затраты на хранение данных преодолевают барьер за барьером в гонке к нулю; Hadoop и аналогичные кластерные механизмы свели ограничения «обработки данных» к в основном теоретическому обсуждению; облачные вычисления превратили «локальные вычисления», когда-то причудливый термин, в устаревшую причуду. Аналитика данных в режиме реального времени доступна круглосуточно и без выходных.

Ниже приведены пять различных причин, по которым глубокое обучение изменило способ работы Google Analytics. Естественный прогресс — увеличение объемов данных; общепопуляционный анализ; модели, построенные на секционированных наборах; прогностическое моделирование на основе анализа на уровне единиц.

1. Продвижение к большим наборам данных. Круглосуточная связь и множество точек взаимодействия для сбора информации сделали доступными постоянно растущие наборы данных. Поскольку чем больше набор данных, тем выше точность построенных на нем моделей, следовательно, эта прогрессия естественна сама по себе и со временем будет только увеличиваться.

2. Анализ всего населения. Доступностьданных для всего населения, которые могут быть проанализированы, вызвало необходимость по-иному взглянуть на алгоритмы анализа данных — когда МОЖНО проанализировать все население, нет смысла тщательно выбирать образец. Это изменило характер алгоритмов, которые мы используем при анализе данных. В параметрической парадигме или парадигме, основанной на распределении, использовалось влияние и важность переменных (используя оценки их коэффициентов, их t-тесты и определяемые пользователем доверительные интервалы), чтобы выяснить, скажем, как определить лошадь-победителя в скачках на основе, например, на силу, выносливость, скорость или другие факторы. Текущая парадигма машинного обучения и глубокого обучения использует большие объемы данных, чтобы точно определить, какая лошадь выиграет, а не оценивать компоненты, составляющие прогноз. Понимание того, «почему» определенное событие сработало так, как оно сработало, — это только ступенька к выяснению того, «какое» событие увенчается успехом (или потерпит неудачу).

3. Модели, построенные на секционированных наборах — вычислительная мощность, которая очень доступна и недорога, позволяет нам сопоставлять несколько алгоритмов, которые работают для очень специализированных подмножеств данных. Объединение слоев различных нелинейных моделей, которые точно работают для небольших подмножеств данных без потери информации, делает переход от единой модели, которая соответствует данным «в пределах определенного доверительного интервала», к очень точным моделям для каждого раздела. В то время как традиционные модели регрессии используются для оптимизации ошибок на общем уровне модели, модели глубокого обучения уменьшают ошибки для каждого подпространства или для каждого отдельного выходного узла и объединяют эти пути для уменьшения ошибки на общем уровне.

4. Прогностическое моделирование на основе анализа на уровне единиц. Теперь мы переходим от общей универсальной модели к конкретным моделям подпространств, которые объединены в единое целое. Для этого требуется большой полный набор данных, помеченный для контролируемого обучения (поскольку модели учатся на самих данных и на допущенных ими ошибках). Компетентность модели зависит от количества данных: если все мыслимые сценарии, которые могут произойти, имели место, и идентификация шаблонов сходится с более высоким опытом и мало сюрпризов, модели работают лучше, чем даже их человеческие аналоги.

Итак, вкратце, алгоритмы прогнозирования, использующие машинное обучение и глубокие нейронные сети, захватили мир.

Однако люди мыслят не только с точки зрения предсказания. Способность рационализировать решение и объяснить его «простыми словами, понятными ребенку» — отличительная черта великого человека. Если это так, то искусственный интеллект и глубокое обучение, несмотря на их способность обрабатывать данные и предсказывать результат, по-прежнему нелегко понять с точки зрения «что к чему привело». Если бы кто-то утверждал, что статистика развилась как ответ на потребность человеческого разума знать, «что вызвало что», тогда ИИ и механизмы глубокого обучения только отодвинули нас от этой цели.

В то время как компании могут работать с алгоритмами прогнозирования, чтобы определить, что показать в качестве следующего лучшего действия, как обрабатывать информацию и голосовые команды, принятие решений с точки зрения того, какого кандидата нанять, на какой рынок выйти и на сколько снизить цену, по-прежнему требует обоснования. для действий, которые ИИ еще не предоставил. Механизм ИИ, который не может «рассказать вам о своем мыслительном процессе», ограничивается сбором данных и объяснением функций, а не сидит за столом в зале заседаний.

Я хотел бы поделиться с вами одной историей из нашего опыта работы с ведущим поставщиком услуг, который привлекает независимых подрядчиков к модели агрегации услуг. Нам было поручено определить, кто из их подрядчиков справится исключительно хорошо, а кто не сможет достичь своих целей. Созданные нами модели машинного обучения сделали то, что и должны были сделать — определили лучших, средних и отстающих. Но клиент нашел что-то тревожное — у них не было отзывов, которые они могли бы передать своим подрядчикам или в отдел обучения с точки зрения возможных действий для вмешательства. В конце концов мы сопоставили результат с программным алгоритмом дерева решений, который имел удобочитаемые правила и традиционные параметрические модели, которые определяли влияние и важность различных демографических и психографических характеристик подрядчиков. В этой ситуации наш клиент был готов пожертвовать точностью ради интерпретируемости и выбрал модели, которые могли объяснить его интуицию.

Этот анекдот показывает ценность интерпретируемости, и именно здесь сейчас палят большие пушки AI/ML. Объяснимый искусственный интеллект (XAI) — это новый рубеж, и очень скоро у нас должны появиться программы искусственного интеллекта, создающие действенные модели с высокой точностью в своих прогнозах, а также способные «объяснить нам» решение. До тех пор доверие будет с трудом завоеванным товаром в ИИ.

Сочетание точности предсказания и объяснимости

Вопросы по теме