Основная диаграмма Венна в науке о данных

Основная диаграмма Венна для науки о данных

Несколько лет назад Дрю Конвей придумал и поделился своей теперь вездесущей Диаграммой Венна для науки о данных. Это было полезно, и мы все получили просветление. Спасибо, доктор Конвей!

Далее последовал ряд вариантов, и здесь я предлагаю свои усовершенствования. Надеюсь, они также будут поучительными. Я предлагаю два дополнения: дифференциацию статистических приложений (многомерные против. Немноговариантных) и добавление дисциплинарных сущностей (т.е., основной вклад или функция каждого набора навыков).

Прежде всего, позвольте мне сказать, что моя диаграмма Венна, как и все диаграммы Венна, по своей сути ошибочна. Почему? Потому что это двухмерная диаграмма, иллюстрирующая многомерную динамику. Частично это отражено в заявлении об отказе от ответственности в нижнем углу, где не показаны параметры коммуникации (аудиальный + визуальный) и soft skills. Креативность, упорство, интроспективная честность и другие атрибуты также отсутствуют в графике.

Необходимость

Статистика широко занимается количественной оценкой структуры дисперсии, удачным результатом которой является возможность построения описательных, объяснительных, прогнозных и предписывающих моделей (результаты науки о данных). Поэтому нет ничего постыдного в том, чтобы отметить самый большой источник дисперсии статистических методов на самой диаграмме Венна Data Science: разницу между многомерными статистическими методами (где оценивается ≥ 3 переменных) vs . [одномерные и двумерные] статистические методы.

Да, я имею в виду, что это большая разница, чем разница между контролируемым и. неконтролируемое статистическое моделирование, параметрическое vs. непараметрическое моделирование и т. д.. Показатель дисперсии, на котором я основываю это утверждение, - это явное несоответствие в осведомленности о передовых статистических методах среди населения. Необходимо, чтобы люди были более осведомлены о многомерной аналитике, играющей ключевую роль в четвертой промышленной революции.

Одно из следствий этого разграничения состоит в том, что «традиционные исследования» по большей части недостаточно использовали многомерную статистику. В зависимости от вашей дисциплины это утверждение может не соответствовать действительности. К сожалению, для многих дисциплин это действительно. Можно сказать, что этот факт является частью того, почему так много отраслей подвержены сбоям.

Примером этого является постоянная чрезмерная зависимость от коэффициента детерминации (R-квадрат), продолжающаяся во многих кругах. R-квадрат не устойчив к выбросам, относится только к целевой переменной, может увеличиваться с помощью серийно коррелированных данных и во многих других случаях может быть ненадежным. Тем не менее, он широко используется - отчасти потому, что Excel и почти все другие графические инструменты делают его легко доступным. Хотя R-квадрат может быть полезным инструментом, его следует использовать правильно (например, для оценки двух линейных ассоциаций).

Для решения многомерных задач требуются многомерные инструменты, и большинство бизнес-задач по своей природе являются многомерными. Многим аналитикам и техническим специалистам еще предстоит пройти долгий путь, чтобы научиться правильно применять многомерную вычислительную статистику (⊆ машинное обучение). Таким образом, они по-прежнему подвержены сбоям со стороны конкурентов, которые лучше понимают данные, используя многомерные алгоритмы ... или сбоям со стороны самих себя из-за принятия недопустимых стратегий (например, дилемма новатора, типичным примером которой является игнорирование спада рынка, возможности с более низкой маржой, где в будущем, вероятно, возникнет конкуренция).

Важное значение

Три области знаний можно также описать проще, говоря о том, что они предоставляют (т.е., их сущность): Интуиция, Действительность и Автоматизация. Автоматизацию также можно назвать масштабированием. Их слияние дает нам улучшенный анализ. Как показано, понимание может также происходить просто из-за наложения действительной интуиции (автоматизация не является обязательным условием). Так было на протяжении большей части истории. Нынешний ажиотаж в отношении расширенной аналитики в основном связан с ускорением понимания за счет автоматизации сбора, обработки и анализа данных.

Опасность «предвзятости» существует в зоне «традиционных исследований» и является основным источником вдохновения для этого обновления диаграммы Венна в области науки о данных. Статистическая «систематическая ошибка» - это исключение или игнорирование значимых переменных, что мало чем отличается от разговорного значения. Поскольку большинство людей не знакомы с работой с многомерным анализом, опасность смещения легче всего закрадывается, когда многомерные задачи рассматриваются как двумерные или одномерные. Как отмечалось выше, наличие предвзятости делает организации восприимчивыми к сбоям со стороны новичков, чьи многовариантные подходы делают их более проницательными конкурентами.

Также обратите внимание, что перекрывающаяся область, соответствующая «машинному обучению», лишена интуиции (т.е., это «тупица» - ярко выраженная форма предвзятости). Некоторые, несомненно, возразят против этого. Но учтите, что за наши десятилетия взаимодействия с физическим миром и обществом люди достигают такого уровня интуиции, к которому никакая модель машинного обучения и близко не приблизилась (instance gratia, знает любое приложение машинного обучения, которое знает и ценит вкус соли?). Модели машинного обучения знают только то, что мы им говорим (данные, которые мы предоставляем), и выходные данные модели в конечном итоге это отражают. Модели машинного обучения могут стать очень хорошими в том, чему мы их обучаем, но их все равно нужно обучать людям. (Примечание: даже молодые люди должны обучаться более старыми и мудрыми.) Контекст, полученный из обширного опыта, развивает интуицию. Контекст имеет значение.

Область, обозначенную как «традиционное программное обеспечение», описать проблематично. Это связано с ограничениями попытки резюмировать многомерную систему с помощью двухмерной графики. Это совпадение также могло быть использовано для характеристики механической автоматизации (которая, безусловно, составляет значительную часть мировой экономики). Для целей этого обсуждения и в контексте большинства интеллектуальных усилий белых воротничков достаточно сказать, что эта область может отражать отсутствие строгости при проведении оценки рисков.

Порядок действий

В большинстве случаев существует неотъемлемый порядок операций или «передовой опыт» в последовательности включения каждой области знаний. Последовательность вовлечения обычно - сначала интуиция, , затем проверка, затем автоматизация. Обычно мы проверяем, верна ли идея после того, как наша интуиция в первую очередь привела нас к этой идее. Точно так же мы не должны масштабировать (автоматизировать) реализации, если они сначала не будут признаны действительными.

Есть ли исключения из предложенной выше последовательности? Безусловно! Нередко результаты машинного обучения доводят до сведения специалиста по предметной области ассоциацию, которую они ранее уволили или не знали. Также существует множество случаев, когда эвристика экспертов предметной области уже была реализована в автоматизированных системах и позже подтверждена, когда сбор данных стал возможным. Давайте также не забывать о роли автоматизации, которая помогает нам собирать данные в первую очередь, которые впоследствии могут быть оценены с помощью экспертных знаний и статистической строгости.

Σ

Подводя итог, эта новая диаграмма Венна сообщает нам то, что мы уже знали, но, возможно, формально не вербализуем. Это простая схема, которая может помочь людям лучше расставить приоритеты в своих рабочих процессах. Например, он побуждает специалистов по обработке данных начать свою работу с разговоров с экспертами в предметной области - то, что уже считается лучшей практикой. Если вы относитесь к типу людей, которых не устраивает список того, что следует делать, а также вы хотите понять почему, понимая помогает суть того, как все происходит.

Почти 70 лет назад Сэмюэл Уилкс писал, что однажды статистическое мышление станет таким же необходимым для эффективного гражданства, как и умение читать и писать. В ближайшем будущем многомерное статистическое мышление может стать предпосылкой для гораздо большего числа профессий. Если мое перефразирование диаграммы Венна в науке о данных поможет кому-нибудь в этом, я буду считать это потраченным временем потраченным не зря.

Мир - это то, что мы делаем из него, и он должен быть умнее. Если вам понравилась эта статья, подумайте о том, чтобы поделиться ею с другом.

(Примечание. Эти графики диаграммы Венна могут использоваться с указанием авторства. Первые итерации приведенных выше диаграмм были впервые опубликованы на www.adret-llc.com и LinkedIn в начале 2017 года.)

Дополнение

(ноябрь 2020 г.)

Эффекту автоматизации не уделялось достаточного внимания в первоначальном черновике этой статьи. Некоторые формы автоматизации необходимы для поддержания жизни более 7 миллиардов человек, населяющих эту планету. В то же время некоторые другие формы автоматизации представляют собой большие угрозы для общества, а именно те, которые используются бесчеловечно и нерационально. Два ресурса, которые я рекомендую для понимания рисков автоматизации, - это книга Оружие разрушения математики и фильм Социальная дилемма.

Дезинформация теперь приходит к нам с алгоритмической скоростью. Некоторые злоумышленники выяснили, что они могут скрыть свои эгоистичные поступки, затопив население пожарным шлангом лжи. В более коварных случаях они алгоритмически используют наши отношения с семьей и друзьями, чтобы кормить нас дезинформацией. Идиот рождается каждую минуту, а идиотов можно производить каждую секунду, если они проводят слишком много времени на Facebook или YouTube. Людей сейчас противопоставляют хорошо обученным черным ящикам с машинным обучением, предназначенным для оптимизации прибыли или пропаганды. Люди часто проигрывают.

Даже броская фраза «фальшивые новости» (к сожалению, частично основанная на истине) использовалась для того, чтобы увести людей от полупроверенных источников новостей к платформам социальных сетей, изобилующим дикими теориями заговора. Учитывая дополнительный трафик, который получают социальные сети в результате, неудивительно, что те же самые социальные сети в конечном итоге продвигают ложное представление о том, что новости основных СМИ (МСМ) - это все фальшивки.

Угрозы физической автоматизации также могут оказаться ужасными для общества. Американский средний класс, уже пострадавший из-за перевода бесчисленных производственных рабочих мест в офшор, сталкивается с надвигающейся угрозой выполнения множества дополнительных рабочих мест способными и маневренными роботами. От вождения грузовика до переворота гамбургеров, от проверки юридических документов до диагностики рака, от рисования до сочинения музыки - все больше и больше профессий становятся доступными для автоматизации. (Действительно, это самое заявление может потребовать еще одного дополнения всего через несколько лет.)

Поскольку тенденции автоматизации еще больше усугубляют социальное неравенство и / или вежливость, они могут дестабилизировать само общество. Учитывая опасности дестабилизированного общества (подумайте о безудержном использовании гильотин во время Французской революции), все лица, принимающие решения, контролирующие усилия по автоматизации, должны мыслить целостным образом. Оптимизация должна быть не только денежно-кредитной задачей, но также существовать в рамках социально устойчивой структуры. Это может помочь каждому сохранить прохладу в голове… и правильно установить там, где ему положено.

Те, кто знаком с психологической динамикой треугольника жертвы (он же драматический треугольник, инструмент транзакционного анализа), знают, что единственный способ вырваться из водоворота страданий - это быть ответственным за решение проблемы. В случае анализа данных это подразумевает ответственность за балансирование интуиции, достоверности оценок, и реализованных автоматизация… как для наших организаций, так и для наших сообществ.