Генеральный директор Datanomers с видением демократизации машинного обучения.

Редко я был так взволнован, чтобы написать статью о машинном обучении (ML). Недавно меня осенил инновационный способ решения серьезной проблемы, с которой сталкивается ML (отсутствие хороших обучающих данных для обучения модели ML). Старая поговорка «мусор на входе, мусор на выходе» применима и к машинному обучению; если данные плохие, то его супервизорное обучение создаст неточную модель машинного обучения, которая будет давать неверные прогнозы и неверные выводы. В продолжении будет объяснен метод решения этой проблемы, который может стать огромным благом для продуктивности специалистов по обработке и анализу данных.

Данные на предприятии часто бывают грязными. Он фрагментирован (разделен на несколько систем), неполный (отсутствуют важные переменные, влияющие на переменную результата), в нем есть дыры (некоторые переменные имеют нулевые значения) и страдает от систематической ошибки (неправильные значения переменных, корреляция переменных с результатом, который случайно пробирается внутрь). Это утомительно, но мы можем работать над устранением проблем с разрозненными данными (объединить разделы с помощью инструментов BI) и дыр в данных (удалить записи с нулевыми значениями и, в худшем случае, присвоить их).

Однако другие проблемы — неполные и предвзятые данные — общеизвестно, что их трудно понять и решить, и они приводят к хаотичному поведению модели машинного обучения, что приводит к тому, что специалисты по данным тратят бесчисленные часы на устранение неполадок в данных. Как решить эти две проблемы?

Именно здесь в игру вступает расширенный интеллект прозрачного машинного обучения. Прежде чем мы обсудим, как он выполняет эту магию, давайте кратко определим дополненный интеллект. Это метод машинного обучения для извлечения информации из данных об интересующем нас результате. Информация представлена ​​​​простым правилом — переменные и их пороги, взятые вместе в некотором порядке.

Важно отметить, что это не имеет ничего общего с предсказаниями, так как это распространенное заблуждение, что машинное обучение ограничивается узкой ролью предсказаний. Не менее важно и то, что для того, чтобы расширенный интеллект мог исправить проблемы с данными, он должен быть действенным. Он должен иметь показатель достоверности, сопровождающий каждое понимание, чтобы мы уделяли приоритетное внимание правильным выводам, которые вероятны, вместо того, чтобы быть введенными в заблуждение неправильными выводами с низкой вероятностью. Таким образом, показатель достоверности является мерой правильности понимания. Вооружившись этими концепциями, мы можем теперь приступить к заполнению наших данных и устранению их систематической ошибки.

Давайте сначала разберемся с предвзятостью данных. Что представляет собой предвзятость? Исходя из нашего определения, приведенного выше, есть две проблемы: первой является переменная, которая не связана с результатом, кажется коррелированной, или наоборот, когда связанная переменная кажется несвязанной. К счастью, разработка функций ML сокращает список переменных, чтобы сузить его до тех, которые влияют (или коррелируют) на результат. Мы знаем влиятельные переменные, а также то, насколько они влиятельны. Эксперт в предметной области может проверить это и, если есть сомнительные переменные, исследовать данные, чтобы увидеть, не является ли это ошибкой, вызванной случайным смещением данных.

У предвзятости данных есть еще одна более серьезная проблема — неправильные значения переменных. Приведем пример. Предположим, интересующий результат состоит в том, чтобы предсказать, есть ли у пациента Covid-19. Одной из переменных, позволяющих предсказать результат, является температура тела. Это влиятельная переменная. К сожалению, пока записывались показания термометра, он ненадолго вышел из строя. Некоторые показания, скажем, 116 градусов, что, как мы знаем, неверно для температуры тела. Погребенные в море ценностей, разбросанных по нескольким пациентам в течение длительного периода времени, ценности избегают ручного обнаружения. Хотя разработка признаков правильно определила, что температура является влиятельной переменной, она не смогла обнаружить наличие неправильных показаний, и эти искаженные данные могут построить плохую модель.

Расширенный интеллект может обнаружить это. Например, один вывод из дополненного интеллекта может заключаться в том, что результат будет положительным на Covid-19, если (горло = першение, боль в теле = правда, температура тела > 111 F) с разумной доверительной оценкой 0,59 (нормализовано между 0 и 1) . Очевидно, что температура тела отключена, но расширенный интеллект предупредил нас о возможности искажения показаний температуры в верхней части данных.

Теперь о второй проблеме неполных данных. Жизненно важно включить в модель в качестве входных данных все влиятельные переменные; в противном случае модель будет предсказывать неточно. Однако чрезвычайно сложно понять, включили ли мы в данные все влиятельные переменные. Опять же, расширенный интеллект может помочь.

Предположим, что расширенный интеллект извлекает информацию из данных и ранжирует их по показателю достоверности. Допустим, вывод с максимальной оценкой достоверности выглядит следующим образом: результат положительный на Covid-19, если (горло = першение, боль в теле = правда, температура тела > 102 F) с оценкой достоверности 0,26. То, что понимание, наиболее очевидное в данных, по-прежнему имеет ужасно низкий показатель достоверности 0,26, сбивает с толку. Дополненный интеллект не смог извлечь какую-либо надежную информацию из данных. Обычно это происходит, когда в данных отсутствуют важные переменные, которые являются ключевыми для прогнозирования ценности результата. Расширенный интеллект предупредил вас. Мы решили одну из самых сложных проблем в науке о данных.

Как реализовать то, что описано в статье? Еще до того, как мы будем беспокоиться о грязных данных, нехватка данных является серьезной проблемой. Присвоение результату точных меток — еще одна проблема для данных. Мы рекомендуем уточнять данные постепенно; начните с возможного набора, который далек от совершенства, поэкспериментируйте с ним, наберитесь уверенности, а затем приложите усилия, чтобы развить его. В целом, успешное внедрение включает в себя определение масштаба проекта, выбор правильной платформы машинного обучения и получение поддержки от профессионалов при обучении вашей организации.

Многие компании, занимающиеся машинным обучением, усердно работают над внедрением расширенного интеллекта, в то время как некоторые стартапы внедрили новшества с оценкой достоверности, чтобы сделать выводы действенными. Платформы наконец прибыли. Пришло время избавить науку о данных от мистики и формализовать ее с помощью логических процедур, таких как расширенный интеллект, чтобы повысить производительность наших специалистов по обработке и анализу данных.

Технологический совет Forbes — это закрытое сообщество для ИТ-директоров, технических директоров и технологических руководителей мирового класса. Соответствую ли я требованиям?

Первоначально опубликовано на https://www.forbes.com.