Сторонние модели данных сейчас популярны, и это неудивительно. Используя машинное обучение (ML), организации могут сократить трудоемкие процессы и, как следствие, количество сотрудников, необходимых для выполнения соответствующей задачи. Однако базовые организации должны начать создавать собственные модели машинного обучения, что сопряжено со многими сложностями. Прежде чем что-либо строить, нужно проверить короткий список тяжелых подъемников. В произвольном порядке организациям нужны качественные данные, специалисты по данным, понимание данных в масштабах всей фирмы (или, по крайней мере, SME с функциональными данными для распространения информации о данных/моделях) и своего рода управление проектами или ИТ-группа. Предполагая, что когорта специалистов по данным подразумевает своего рода ИТ-группу, мы сосредоточимся на специалистах по данным как на задаче номер один. Объединив понимание данных и данные о качестве, мы сосредоточимся на управлении данными (DG) как на задаче номер два.

Специалисты по обработке и анализу данных пользуются большим спросом, но лишь немногие компании нанимают достаточно сотрудников для самостоятельного создания машинного обучения. На рисунке 1 видно, что только в 3% компаний работает более 1000 специалистов по данным. А в 61% компаний работает менее 11 специалистов по данным.

Этот недостаток специалиста по данным не из-за отсутствия необходимости — с 2012 по 2017 год количество вакансий специалиста по данным в LinkedIn увеличилось более чем на 650 процентов (KDnuggets). Без сильной группы специалистов по данным у организаций может не быть иного выбора, кроме как полагаться на модели, созданные другими компаниями.

Проблема номер два, управление данными, может оказаться столь же тяжелой задачей, как и проблема номер один. Если в организации еще не запущена программа DG, процесс может занять много лет и миллионы долларов продуктивных человеко-часов. Ценность понимания и качества данных в долгосрочной перспективе, большинство организаций предпочитают встать на этот путь, независимо от времени и усилий, которые это требует. Однако в ожидании результатов управления данными учреждения нередко либо пренебрегают своими внутренними активами данных, либо просто ждут более полной программы управления. Ожидая (или пренебрегая), организации полагаются на проприетарные модели данных других организаций для продвижения своих идей.

Преимущество сторонних моделей данных заключается в том, что они позволяют организациям идти в ногу с конкурентами, независимо от качества их собственных данных. Однако за эту уверенность приходится платить — как денежную, так и этическую. Практически невозможно узнать качество данных, используемых для обучения сторонних моделей. Даже те фирмы, которые строят модели, часто используют данные, собранные другими фирмами, на несколько степеней выше. Такая неопределенность — от сбора данных до очистки и использования — может быть опасной. Алгоритм COMPAS, который используется судьями для присвоения оценки риска, указывающей на вероятность того, что подсудимый совершит преступление в будущем, присвоил афроамериканцам непропорционально более низкие оценки, чем их кавказским коллегам, которые с одинаковой вероятностью совершат повторное преступление, в результате чего Американцы получают более длительные сроки содержания под стражей в ожидании суда. КОМПАС был обучен на данных, доступных в записях об арестах, демографических характеристиках обвиняемых и других переменных, но ему не хватало должной бдительности в отношении распространенных ловушек систематической ошибки и доверенных лиц (брукингов). Эта история не редкость, от Amazon Rekognition до Apple Card и Clearview AI, эти проблемы преследуют даже те компании, у которых, казалось бы, бесконечные ресурсы.

Организации, которые не используют свои большие данные, могут упустить большие возможности, но это сложно и дорого. Те фирмы, которые заинтересованы в развитии своих возможностей машинного обучения, должны быть терпеливы и осторожны, чтобы не слишком полагаться на сторонние модели данных.