Вся статистика, наука, эпистемология, анализ данных, машинное обучение (или, действительно, обучение в целом) и т. Д. Сводятся к одному: оценивать как можно большую часть книги, рассматривая как как можно меньше страниц. В общем, все они следуют следующим шагам (на самом деле это расширение предыдущего поста):

  1. Это реальность. Он сложный, большой, и в нем много движущихся частей. Мы, вероятно, никогда не сможем увидеть все это, и нам на самом деле не нужно все это понимать, если мы заинтересованы в решении конкретной проблемы.
  2. Есть данные, часть реальности, которую мы можем увидеть и измерить. Он взят из реальности, почти наверняка с помощью какого-то механизма, который на самом деле не является случайным.
  3. У нас есть некоторые представления о реальности. Как мы их получаем, нет последовательной логики. В некоторые вещи мы просто верим. Некоторые вещи мы узнаем, глядя на данные. В некоторые вещи мы верим, соединяя точки в соответствии с некоторой логикой.

Что делает науку, так это отношение, связывающее веру и данные: по крайней мере, в принципе, мы не принимаем наши убеждения настолько серьезно, чтобы не игнорировать данные. Однако даже в этом случае относительный вес данных и убеждений различается. Превосходная рецензия Ариэля Рубинштейна на новую книгу Дэни Родрика открывает окно в давнюю дискуссию о том, насколько научна экономика (и, если уж на то пошло, все социальные науки). Разве отношение к данным, такое как полный упор на научный метод, хороший дизайн исследования и эффективное использование данных, делает науку? Или это дедуктивное логическое мышление, как подчеркивал Родрик, квалифицирует что-либо как науку? Или, что более реалистично, их комбинация? Это, конечно, старые дебаты, уходящие в глубь веков, если не дольше. Владимир Вапник был не просто изобретателем методологий статистического обучения, но и серьезным мыслителем, склонным к философским размышлениям, и его книга о машинах опорных векторов обращает внимание Поппера и других на размышления о связи между наукой и эмпирическим мышлением - например, квалифицируется ли как наука астрология (специалисты которой все чаще разрабатывают последовательную логику и сложные математические модели для поддержки своего мастерства, чего бы это ни стоило) или метеорология (продукты которой остаются менее чем полностью надежными, особенно в среднесрочной или долгосрочной перспективе).

Стоит отметить, что ньютоновская физика (или, позже, квантовая механика) предлагала сравнительно мало очевидных проверяемых предсказаний, учитывая технологию, доступную на момент их создания, и многие из них были довольно впечатляюще ошибочными (хотя они также предлагали объяснения, почему они были неправы - и потенциально открыли путь к тому, как их можно будет оценивать, если и когда доступные технологии позволят им). Казалось бы, что делает науку, так это то, что что-то не подчиняется слепо ни эмпирике, ни теории. Его ошибочность может быть доказана эмпирическими данными, но только на тех условиях, которые изложены в его собственной внутренней логике. Иными словами, наука зависит от условной логики: не то, что X является X безоговорочно, но X есть X, пока выполняются A, B и C. Таким образом, первый закон движения не является явным ложным с точки зрения эмпирических данных - поскольку на Земле, где большинство людей собирает свои данные, наблюдается очень мало вечного движения, - поскольку он устанавливает условия, при которых он был бы верным (например, отсутствие трения, что исключает большую часть данных, которые у нас есть).

Условная логика науки имеет решающее значение для ее практического применения или отсутствия (немедленной) общей практической применимости в реальной жизни. Наука составляет большую картину, построенную на ее теоретических основах, но на самом деле это шум. Чтобы иметь дело с реальной жизнью с научной точки зрения, нам нужно продвинуться в два отдельных шага: составить общую картину и затем установить различные способы, которыми реальная жизнь расходится с общей картиной. Часто успешная инженерия использует второй шаг, а не первый. Продолжая глупый пример, первый закон движения Ньютона бесполезен для практических целей - если все вещи будут двигаться вечно, нам не нужно беспокоиться о топливной эффективности и тому подобном. Настоящей проблемой для транспорта является трение - «шум», если говорить о первом законе Ньютона. Но полностью понимать, почему и как работает трение в целом, не обязательно, нужно только трение, которое применяется в конкретных обстоятельствах. Итак, у нас есть гигантский набор таблиц с константами трения во всевозможных обстоятельствах, которые позволяют приблизительно оценить, как трение влияет на движение, которые мы можем использовать для практических приложений закона Ньютона. (Кстати, вот почему я нахожу одержимость «наукой» в «науке о данных» потенциально тревожной. Я не понимаю, как большие данные со всем их шумом могут обеспечить общую теорию чего-либо, имеющего более конкретную чем ньютоновская физика. Я ожидаю, что большие данные позволят открыть общие принципы, которые могут служить полезной отправной точкой, но для конкретных приложений нам нужны пружинные константы, константы трения и все другие меры условного шума, которые повторяются на полу -регулярный базис - полурегулярный в том смысле, что их эффекты представляют собой вероятностные распределения, а не бесшумный скаляр. Чем больше у нас данных, тем больше мы можем разбить данные на подмножества, которые соответствуют определенным условиям, и оценить соответствующие «константы» для эти условия, а также установить подмножества, в которых правила и константы не могут применяться надежно - по сути, это часть установления дисперсии распределения эффектов. По сути, нам необходимо b Узнайте больше о шуме, отклонениях от больших закономерностей. Откровенно говоря, чтобы увидеть большие закономерности, нам не нужны чертовски большие данные - если они достаточно большие, мы увидим это даже в небольших данных. Это, конечно, скорее инженерный менталитет, возможно, устаревший.)

Этот образ мышления, ориентированный в большей степени на условности, подразумевает иной подход к сбору данных, чем тот, который, кажется, практикуется в настоящее время. Похоже, что в настоящее время слишком много современных размышлений сосредоточено на сборе большего количества данных в целом, независимо от того, откуда они берутся. Но большинство данных неинтересны, распространены и предсказуемы. Чтобы оценить «константы» Марса, нам нужны марсианские данные, а не земные. Если мы действительно хотим знать марсианские константы, нам нужно потратить миллионы долларов на то, чтобы отправить туда зонд и собрать несколько наблюдений, а не посылать группы для сбора большого количества данных по Нью-Йорку. Иными словами, большие данные полезны больше, потому что в качестве побочного продукта их сбора мы можем уловить больше необычных данных, которые мы можем использовать - и чем больше данные, тем больше фрагментов полезных небольших данных может быть среди большого количества не очень полезные данные. Но даже самые большие данные, в зависимости от процесса сбора данных, могут не улавливать достаточно данных, которые нам нужны.

Эти константы, которые мы оцениваем, конечно, будут не истиной, а условными истинами - вещами, которые мы считаем правдой, потому что мы узнали о них индуктивно при определенных условиях, из имеющихся у нас данных, которые мы (shoud) знать быть неполным. (но тогда и дедуктивные истины не являются истинами - они являются истинами только в той мере, в какой то, что мы считаем логическим обоснованием реальности, на самом деле является логическим обоснованием, которое применимо в широком смысле. Откуда мы это знаем, кроме как с помощью аксиоматического утверждения? Даже установление того, что мы дедуктивно считаем истинным, требует эмпирики или, как минимум, может извлечь пользу из эмпирики.) Они возвращают нас к фундаментальной проблеме статистики (в отличие от теории вероятностей): мы не знаем истины. Мы можем лишь приблизительно оценить правду на основании имеющихся у нас данных. Если мы видим закономерности в данных, мы доверяем им только в той мере, в какой мы можем выбросить данные - а иногда мы не можем далеко их выбросить. Мы должны постоянно помнить о том, как далеко мы можем забросить данные (а также о методологии их сбора и анализа). Современные технологии значительно увеличили силу аналитики данных, но некоторые данные остаются очень тяжелыми, и их трудно перебросить, и никакие данные в любом случае нельзя перебросить на бесконечное расстояние. Если данные говорят, что ответ - три, это не значит, что ответ - три. Это просто означает, что данные в ходе нашего опроса говорят, что ответ - три. Поэтому мы верим, что способ сбора и анализа данных настолько отражает реальность, что мы думаем, что ответ - три - что может быть достаточно в большинстве случаев, - но иногда это может быть не так. Мы могли бы захотеть узнать, что это за иногда, возможно, для размышления, стоит ли нам покупать страховку от этого.

Я не совсем честен: дух экспериментов или A / B-тестирования для специалистов по науке о данных отражает эту логику, согласно которой доступные данные «естественно» ограничены, и иногда необходимо искать неестественные данные. Однако более старые работы по экспериментальному дизайну с их детально проработанными описаниями латинских квадратов и других чудовищ гораздо более заинтересованы в настройке соответствующих совпадений для правильного сравнения и расчетов мощности, необходимых для создания необходимой уверенности с учетом теории. Можно было бы подумать о том, как можно творчески использовать сложные экспериментальные разработки прошлых лет в современной обстановке. Условные средние и дисперсии имеют решающее значение для установления значимости экспериментальных эффектов: мы знаем, что если P (X1 | все то же самое, насколько нам известно, кроме A = 0)! = P (X1 | все то же самое, насколько нам известно, кроме A = 1 ), возможно, A имеет какое-то отношение к X1. Но это накладывает логику теории вероятностей на статистику: мы (думаем, что) знаем, что A имеет эффект, поэтому мы будем запрашивать данные, чтобы выяснить это, даже если путем создания полуискусственных данных, которые редко встречаются в природе (с помощью экспериментов). Но , часто у нас действительно нет веских причин ожидать, влияет ли A на X1 априори. Мы хотели бы использовать какой-то алгоритм, чтобы определить, существуют ли такие переменные, как A.

Что ж, мы уже делаем такие вещи постоянно: у нас есть таблицы непредвиденных обстоятельств (или сводные таблицы). Мы разрезаем данные и показываем их условные средние и другую статистику в зависимости от того, к какому подмножеству они принадлежат. Потенциальная оговорка заключается в том, что чем больше таблица, тем сложнее ее разобраться, но алгоритмы такие вещи не беспокоят. Мы уже используем меры сходства в схемах классификации: это небольшой скачок, чтобы использовать это для искусственного создания «сходства по всем переменным, кроме одной (или двух или трех)» для всех интересующих переменных и сравнения условных средних. Достаточно большие пробелы в условных средствах → то, на что стоит посмотреть дальше человеческими глазами. Это становится логическим эквивалентом гигантского латинского квадрата с любопытными пробелами, будь то в вычисленных значениях условных средних в выборке или при отсутствии достаточных данных для потенциальных группировок, идентифицированных логикой, запрограммированной в алгоритме. (Потенциально не менее интересным подходом было бы сосредоточение на условных дисперсиях: некоторые группы переменных, взятые вместе, могут дать очень надежные прогнозы; другие группы могут привести к тому, что реальные данные будут повсюду. Люди, занимающиеся прогнозной аналитикой, могут быть ошеломлены, обнаружив такие группы, но это просто требует более пристального человеческого внимания и воображения.)

Наука - это не данные, данные - это не наука, ни наука - это не дедуктивная логика. На самом деле наука представляет собой творческую смесь умного использования данных в сочетании с дедуктивной логикой, построенной на условных вероятностях: не то, что A → B, а A → B | X, Y, но не Z, и все интересные открытия относятся не столько к A → B, но «X, Y, но не Z». (A → B - это хорошо, но, вероятно, не требует больших данных или умных экспериментов.) Обоснование условной вероятности, я думаю, применимо даже в большей степени, когда наука используется для практических целей. У нас нет вечного двигателя. Нам нужно знать, о каком трении нужно беспокоиться в различных настройках - о шуме, если хотите. Самое замечательное в том, что сейчас мы все больше владеем технологиями и данными для систематического анализа шума на больших массивах данных, то есть, если у нас есть желание идти по этому пути. К сожалению, слишком часто условная часть сводится к «техническим деталям»: люди продаются на «эй, наука! говорит A → B! » Нет, не совсем. настоящая «наука» заключается в «X, Y, но не Z». По иронии судьбы, при правильном обучении люди на самом деле очень хорошо разбираются в условных вероятностях, даже с большим количеством нюансов. Люди плохо разбираются в огромных объемах данных и видят большие закономерности - таким образом, люди переоснащаются и чрезмерно обобщают, видя редкие условия гораздо чаще, чем есть. Если ИИ может помочь указать, где люди могут действительно быть полезными, и держать их подальше от того места, где они могут увидеть то, чего там нет, это было бы круто.

PS. Первоначальный заголовок читался 3 минуты, затем меня отвлекли, и я продолжил гораздо дольше ...