Постоянная опасность машинного обучения

В нашем февральском посте о тенденциях в области машинного обучения и данных мы обсуждали, считает ли кто-то, что MLOps преодолел пропасть или нет, рост MLOps (т.е. DevOps для ML) сигнализирует о переходе отрасли от PoC (как создавать модели) к операциям (как для запуска моделей). Несмотря на то, что этот сдвиг - то, что нас очень волнует, из года в год мы постоянно сталкиваемся с проблемой, которая не дает нам покоя: качество данных.

В опросе O’Reilly от 2019 года 26% респондентов со зрелой практикой машинного обучения заявили, что низкое качество данных является узким местом № 1, сдерживающим их от дальнейшего внедрения ИИ / машинного обучения.

Перенесемся в 2021 год, и ситуация, похоже, только ухудшилась: 34% респондентов в недавнем опросе Rackspace, в который вошли 1870 организаций из различных отраслей, назвали низкое качество данных основной причиной неудач машинного обучения. НИОКР, а еще 31 процент заявили, что им не хватает данных, готовых к производству.

Мы можем наблюдать многолетнюю эпидемию машинного обучения, которая становится скорее опасностью, чем проблемой: качество данных.

Нам нужны инженеры по данным

Результаты исследования Rackspace, проведенного в январе 2021 года, показали, что проблемы инженерии данных представляют собой серьезную проблему для компаний любого размера. Разрозненные данные, отсутствие таланта для подключения разрозненных источников данных и недостаточная скорость обработки данных осмысленным образом… список можно продолжить.

Инженеры по обработке данных - это люди, которые перемещают, формируют и преобразуют данные из источника в инструменты, извлекающие понимание. На инженеров по обработке данных возложена ответственность за то, чтобы данным можно было доверять - чтобы они предоставлялись последовательно, вовремя и с ожидаемым качеством.

Мы не думаем, что для столь важной роли инженеры по обработке данных получат ту любовь и признательность, которых они действительно заслуживают. Инженерия данных не пользуется такой шумихой и не имеет такого же количества подготовительных программ, как, например, наука о данных, но это не менее важно. Многие возразят, что сегодня это гораздо важнее.

Мы считаем, что инженеры по обработке данных - это агенты перемен и незамеченные герои десятилетнего процесса, который произведет революцию в данных. Неудивительно (по крайней мере, для нас), что разработка данных - это самая быстрорастущая работа в сфере технологий прямо сейчас.

Пандемия высветила наши уязвимости машинного обучения

Мы на собственном опыте убедились в опыте таких компаний, как Uber, Facebook и Amazon, какие проблемы с производительностью могут оказать влияние на компании, управляемые данными, с моделями машинного обучения в производстве в критических условиях эксплуатации.

Пандемия COVID-19 высветила необходимость для компаний управлять своими данными и моделями и контролировать их, поскольку в начале 2020 года из-за быстро меняющейся рыночной конъюнктуры в мире сломались операционные модели машинного обучения. Во многих отношениях 2020 год стал годом, когда все данные изменились и подчеркнули необходимость непрерывного машинного обучения и мониторинга данных.

В качестве конкретного примера: Instacart на собственном опыте испытал, как их модели прогнозирования запасов превратились в бананы, поскольку потребители быстро изменили свое поведение на заднем пятке пандемии.

Точность модели Instacart снизилась с 93% до 61%, в результате чего покупатели вводили в заблуждение и раздражали покупателей невыполненными покупками или доставкой, не оправдавшей ожиданий клиентов.

Машинное обучение против программной инженерии

Процесс разработки моделей машинного обучения часто сравнивают с установленным процессом разработки программного обеспечения. Однако ключевое различие между ними заключается в сильной зависимости между качеством модели машинного обучения и качеством данных, используемых для обучения или выполнения прогнозов. Вкратце: традиционная разработка программного обеспечения детерминирована. Развитие машинного обучения носит вероятностный характер. Это приводит к обоюдному существованию моделей машинного обучения.

С одной стороны, производственные модели машинного обучения в идеальном сценарии со временем должны улучшаться. По мере увеличения объема обрабатываемых данных их точность прогнозов также должна возрасти. С другой стороны, модели обычно начинают портиться в процессе производства. Почему? Основная причина этого обычно связана с дрейфом данных. Когда модель машинного обучения внедряется в производство, главной проблемой обычно является актуальность модели с течением времени. Улавливает ли модель новые входящие данные и работает ли она так же хорошо, как на этапе проектирования, обучения и тестирования? Дрейф данных происходит естественным образом, поскольку реальный «грязный» мир всегда меняется и отличается от среды обучения закрытой модели.

Дрейф данных может привести к серьезным и обычно невидимым сбоям системы машинного обучения. Проблема здесь часто заключается в том, что при выходе из строя традиционных программных систем обычно появляется предупреждение, например сбой системы или ошибка времени выполнения или 404. Однако системы машинного обучения терпят неудачу незаметно. Пользователи даже не знают, что система вышла из строя, и могли продолжать использовать ее, как если бы она работала. Это часто приводит к плохому пользовательскому опыту и, в конечном итоге, к различным финансовым потерям.

В подавляющем большинстве случаев проблемы с качеством данных (и последующие финансовые потери) возникают в организациях за кулисами и не раскрываются публично - в отличие от проблемы качества данных, с которой Гавайские авиалинии столкнулись в 2019 году из-за сбоя при обновлении программного обеспечения, что привело к тому, что с десятков клиентов в течение почти недели взимались сотни тысяч долларов в качестве комиссии по кредитной карте.

Компании, управляемые данными, должны отслеживать и проверять свои данные (на уровне наборов данных и точек данных) проактивно как на предмет проблем с качеством данных, так и на предмет дрейфа данных. Проблемы с качеством данных могут, например, происходят из-за того, что значения данных неверны (данные отсутствуют / неполны, данные ошибочны или просто не попадают в ожидаемые диапазоны) или имеется нарушение ожидаемых схем. Дрейф данных происходит, когда данные, которые передаются в модель машинного обучения в производственной среде, расходятся с данными обучения модели или когда распределение данных (например, низкое качество данных) смещается так, что модель перестает быть репрезентативной.

Каждая современная команда данных, использующая модели машинного обучения в производстве, должна спросить себя: соответствуют ли данные и статистические свойства нашим ожиданиям?

Ваша модель никогда не была вашим IP, это ваши данные

Требования к качеству машинного обучения высоки, а плохие данные могут вызвать двойную обратную реакцию: когда модели прогнозирования обучаются на (плохих) данных и когда модели применяются к новым (плохим) данным для информирования будущих решений. Низкое качество данных - главный враг широко распространенного и прибыльного использования машинного обучения. Вместе с дрейфом данных низкое качество данных является одной из основных причин, по которой точность модели машинного обучения ухудшается со временем.

По мере того, как модели и алгоритмы машинного обучения становятся все более массовыми, ключевой отличительной чертой являются данные.

Поскольку мы начали дистанцироваться от ажиотажа в отношении ИИ, который достиг пика в конце 2010-х годов, современные компании понимают, что их модели машинного обучения никогда не были их интеллектуальной собственностью; это их данные и, как следствие, то, как они обеспечивают качество данных непрерывно и в режиме реального времени.

Один из наиболее охраняемых «секретов» повышения производительности модели - это данные высокого качества.

Ранее в этом году Google опубликовал исследовательскую работу Все хотят работать с моделью, а не с данными ». В своей статье команда Google заключает, что, как это ни парадоксально, данные являются наиболее недооцененным и лишенным гламура аспектом машинного обучения, рассматриваемым как операционный по сравнению с превознесенной работой по созданию новых моделей и алгоритмов. Они пришли к выводу, что интуитивно разработчики AI / ML понимают, что качество данных имеет значение, часто тратя чрезмерное количество времени на задачи с данными, НО по-прежнему большинство организаций не могут создать или удовлетворить какие-либо стандарты качества данных из-за недооценки работы с данными по сравнению с моделью. разработка.

Постоянная опасность низкого качества данных никоим образом не изолирована от машинного обучения: оно влияет на все процессы принятия решений, основанные на данных, от инструментов бизнес-аналитики и информационных панелей до оптимизации клиентского опыта, бизнес-анализа и бизнес-операций.

Кто такие незамеченные герои, которых мы не заслуживаем, но которые должны спасти нас от этой опасности?

Вы уже догадались: инженеры по обработке данных.