Проблемы с использованием машинного обучения на раннем этапе: (Техническая часть для тех, кому нужно…

В статье Что такое машинное обучение и почему оно важно для цветных мы говорили о силе машинного обучения как инструмента. Вы можете использовать его для автоматического обучения выполнению заданий, включающих классификацию или прогнозирование. Алгоритм будет действовать как новый сотрудник, и сверхурочная работа потребует минимального контроля для выполнения задачи. Если вы хотите прочитать об этом, нажмите на ссылку.

Однако, поскольку машинное обучение — это новый блестящий инструмент, все предполагают, что им нужен инженер по машинному обучению за 150 000 долларов в год, чтобы извлечь какую-либо пользу из своих данных. Затем предполагается, что если вы управляете небольшим бизнесом и не можете позволить себе инженера по машинному обучению, то данные для вас бесполезны или вы отстаете и не играете с большими собаками. Это неверно.

Моя работа в качестве консультанта по данным заключается в том, чтобы помочь людям понять, как извлечь пользу из своих данных и создать компанию/организацию, основанную на данных.

Одной из моих первых работ в этой роли была работа консультантом по данным, которая работала с данными Wi-Fi библиотек. У библиотеки было много разных посетителей из разных кампусов и сообществ (библиотека колледжа), и когда кто-то использовал Wi-Fi, предоставляемый библиотекой, им приходилось входить в нее. Наша работа заключалась в том, чтобы систематизировать эти данные об использовании беспроводной сети и превратить их в полезную информацию для библиотеки.

Мы стремились помочь им использовать данные Wi-Fi, чтобы ответить на такие вопросы, как оценка того, сколько людей было в библиотеке в любое время, есть ли в библиотеке места, которым нужно предоставить большую пропускную способность, чтобы посетителям было легче работать, кто использовал Wi-Fi в библиотеке. больше всего и какие гранты должны покрывать это использование.

Моей команде дали набор данных с сотнями тысяч точек. Данные сообщили нам модели компьютеров, которые вошли в Wi-Fi, время и дату, когда они вошли в систему, и время и дату, когда они вышли из нее, они сказали нам, на какой дополнительный Wi-Fi они вошли и в какой раздел библиотеки они вошли (это также рассказал нам кучу других вещей, которые я не буду здесь перечислять).

Мы подумали: «Хорошо, что у нас есть большой набор данных, мы можем использовать модель машинного обучения, прогнозировать, классифицировать и повышать ценность, как титаны Кремниевой долины». Это была наша первая ошибка. Машинное обучение не является панацеей от всех проблем с данными. Когда машинное обучение работает, оно работает хорошо, когда нет… не работает.

Я собираюсь поделиться своим опытом из первых рук о том, почему использование машинного обучения было таким сложным при нашем первом взаимодействии с нашими партнерами с целью сделать их библиотеку более эффективной.

Первая проблема со слишком ранним использованием машинного обучения:

Данные были/есть/всегда будут беспорядочными

Что значит иметь беспорядочные данные? Часто, когда данные собираются, они собираются в разных форматах и для разных целей, в разное время и у разных людей. По сути, это означает, что данные есть везде. Данные также будут содержать ошибки в орфографии, написании заглавных букв и обычных грамматических вещах. Будут некоторые пустые точки данных и некоторые дважды заполненные данные. Будет хаос.

В нашем случае это означало, что у нас были сотни тысяч точек данных, которые были отформатированы по-разному, в течение каждого набора месяцев данные о времени и дате собирались по-разному для разных целей, данные об использовании имели разное масштабирование, и когда кто-то входил в систему как гость записывался по-разному.

Для людей наш мозг может ориентироваться в беспорядке, и хотя мы предпочитаем порядок и определенную степень организации, мы можем справиться, если что-то не совсем так, как нам говорят. Компьютеры… не такие. Для заказа работника компьютера это не подлежит обсуждению. Если что-то не совсем так, как вы говорите компьютеру, что-то есть, ОН БУДЕТ БЕЗУМНО. Не имеет значения, находится ли нужная вещь прямо рядом с тем местом, на которое вы указали, если она находится не там, где вы сказали, компьютер будет смешно смотреть на вас. Если информация, на которую вы указываете, выглядит не совсем так, как вы ее рассказали, она будет смотреться на вас смешно. А когда компьютер смешно посмотрит на вас, он перестанет работать и более или менее объявит забастовку.

И вот в чем фишка… Большая часть данных очень беспорядочна. Каждый использует свои данные для разных целей. Практически невозможно охватить все форматы и варианты использования на этапе сбора данных. Это означает, что если вы передаете данные от одного человека к другому… это, вероятно, будет беспорядочно.

Первая работа инженера по машинному обучению/ученого данных/статистика часто заключается в том, чтобы очистить данные и сделать их пригодными для использования (об этом есть множество статей, и если вы не найдете, я буду рад написать несколько). Если у вас есть компания, которая зарабатывает сотни тысяч, миллионы, сотни миллионов, вы можете заплатить человеку или фирме за очистку данных для вас. Если вы все еще развиваете свой бизнес, и у вас его нет… у вас, вероятно, нет назначенного специалиста по очистке данных. Мы смогли очистить данные от таких вещей, как единообразие и ошибки, однако у нас не было времени на очистку данных в достаточной степени, чтобы быть готовыми к запуску с машинным обучением.

На самом деле, в нашем конкретном случае данные были структурированы таким образом, что нам пришлось бы искажать, изменять и преобразовывать их 9 миллиардов раз (дань уважения вам, поклонники Dr.Stone — это было чрезмерным преувеличением для вас, не- Фанаты Dr.Stone), чтобы извлечь из этого пользу из машинного обучения.

Вторая проблема, связанная с тем, что мы слишком рано используем машинное обучение:

Компьютеры не говорят на человеческом языке

Нам поручили ответить на вопросы, которые помогут библиотеке хорошо работать. Неважно, насколько причудливым было решение, им просто нужны были ответы. Ответы, которые мы давали библиотеке, должны были быть понятны людям. Компьютеры бегло говорят по математике/статистике. Тем не менее, моя работа как человека, работающего с данными, состоит в том, чтобы понять, что говорит компьютер, и сделать это понятным. Не каждый человек говорит на языке математики и статистики. На самом деле, худшие кошмары некоторых людей связаны с выполнением математических или статистических операций и публичным смущением во время акта.

Когда компьютер выполняет автоматизированную задачу, такую как искусственный интеллект / машинное обучение, его вывод, скорее всего, будет на математическом языке, а не на понятном человеку языке. Это прекрасно работает, если компьютер разговаривает с другим компьютером, но не так ценно, когда компьютер разговаривает с человеком.

Зачем компьютеру разговаривать с человеком? Прежде всего, чтобы извлечь пользу из наших данных, нам нужно их понять.

Чтобы извлечь пользу из наших данных, в первую очередь нам нужно их понять.

Прежде всего, чтобы извлечь пользу из наших данных, нам нужно их понять. (Обратите внимание на ударение)

Даже если мы создаем крутой инструмент робота/ИИ/машинного обучения, важно, чтобы мы в первую очередь знали, что входит в компьютер. Это не только работа «специалиста по данным», но и работа каждого в организации — понимать, что происходит. Не всем нужно понимать сложные алгоритмы, однако каждый должен знать, что входит и что выходит, и как обе эти вещи представляют миссию организации.

(!!!) Независимо от того, насколько высоко платят специалисту по данным, нам нужны вклад и опыт команды, с которой мы работаем, чтобы придать данным реальную ценность. Без возможности сообщить данные заинтересованным сторонам, а специалисты по обработке данных подобны Ferrari без двигателей, очень дорогим, очень роскошным и очень бесполезным.

Третья проблема слишком раннего использования машинного обучения:

Машинное обучение/искусственный интеллект требует времени, а время стоит денег

Создание чего-либо технического требует опыта и времени.

Опыт * время = деньги.

Будь то в некоммерческих организациях, на местах, в корпорациях, в личной жизни — у всех нас есть сроки и финансовые ограничения (за исключением особых случаев). У нас было определенное количество времени, чтобы представить эту информацию нашим клиентам, и у них была определенная сумма денег, которую они должны были заплатить за это время.

Сотруднику по машинному обучению требуется время, чтобы обучить и сделать его пригодным для использования, и когда он используется, он работает только для одной проблемы за раз.

Чтобы построить наши алгоритмы машинного обучения: вы должны пройти процесс настройки рабочей среды для сотрудника (очистка данных), определить цель, определить задачи, а затем обучить алгоритм/сотрудника, пока он не будет достаточно хорош в своей работе. выйти в поле (Что такое машинное обучение и почему оно важно для цветных людей). В течение времени, необходимого для создания алгоритма машинного обучения, ваши данные просто лежат там, не реализуя свой потенциал.

Если бы мы решили использовать наш опыт и время для создания полностью пригодного для использования алгоритма машинного обучения, мы бы упустили много хороших возможностей использовать данные для создания положительной и полезной информации.

Машинное обучение в целом

Использование данных в вашей организации похоже на знакомство с кем-то новым. Машинное обучение — это эквивалент знакомства с арендой дома в сельской местности и переездом к партнеру. Однако это может быть милым шагом в конце игры, если это то, что вы делаете на своем первом свидании, прежде чем узнаете, во что ввязываетесь… удачи.

Точно так же, если первое взаимодействие с вашими данными — это машинное обучение, в 9 из 10 раз вы тратите много времени, энергии и денег впустую.

Итак, если не машинное обучение, что мы делаем с нашими данными?

Моя мама всегда говорит: «Не говори о том, чего не умеешь, говори о том, что умеешь!». Хотя покупка целой загородной виллы с кем-то может быть плохой идеей только потому, что вы считаете его крутым, это не значит, что вы не можете познакомиться с ним за чашечкой вкусного кофе ;).

С точки зрения данных, что это означает? Задолго до того, как приступать к серьезным действиям и тратить кучу денег и времени на продукты для обработки данных, изучите свои данные.

Знакомство с вашими данными означает, что вся ваша команда (а не только ваш «специалист по данным») понимает ценность данных, которые они используют. Для этого часто требуется больше средств коммуникации, чем математика.

Как оказалось, помочь нашим клиентам/партнерам узнать их данные было самым ценным, что мы могли для них сделать. Вместо того, чтобы создавать для них сотрудников с машинным обучением, мы показали им, как взаимодействовать со своими данными с помощью историй данных и визуализаций данных.

Мы создали простые визуализации, которые помогли им увидеть, что происходит в их библиотеке. Один из выделяющихся рассказал им, какие группы используют Wi-Fi в каких частях библиотеки.

Визуализация выглядела так (я отредактировал столбцы и легенды, потому что… конфиденциальность):

Каждый цвет представлял другую группу/кампус, которая использовала библиотеку, каждая полоса была еще одним разделом библиотеки, где люди использовали WIFI, а длина полосы подсчитывала, сколько людей использовали Wi-Fi в этом месте. Мы сделали разные графики для каждого дня недели и сделали гифку, которая менялась в зависимости от дней недели (сложно импортировать гифку в текущем формате, правда, один день).

Этот график вместе с нашей историей и презентацией поделился с нашими партнерами несколькими ключевыми идеями:

Кто чаще всего пользовался библиотекой

Библиотека обслуживала несколько сообществ, и, имея возможность определить, какие сообщества использовали библиотеку больше всего, а какие сообщества использовали библиотеки меньше всего, библиотека могла создавать программы по работе с другими сообществами и программы, которые обслуживают сообщество, уже использующее библиотеку.

Где в библиотеке люди чаще всего пользовались Wi-Fi

Эта информация позволила библиотеке точно распределить пропускную способность и персонал для определенных частей здания, чтобы они могли сэкономить деньги и время.

В какие дни и в какие часы люди чаще всего посещали библиотеку

Хотя библиотекари могли оценить это на основе своего опыта, наличие графиков дало библиотеке инструменты для назначения персонала в определенные дни и часы. Это позволило им сэкономить время и деньги за счет точного подбора персонала, когда это было необходимо, и свести к минимуму время, необходимое библиотекарям для ответа на вопросы и проблемы, потому что они знали, когда и где они, скорее всего, получат эти вопросы.

В заключении

Очень немногие компании имеют варианты использования, в которых построение модели машинного обучения является необходимым направлением действий. Машинное обучение требует, чтобы большие объемы данных были правильно организованы и очищены, чтобы получить очень нишевый и особый результат. То, что вы не используете машинное обучение, не означает, что ваши данные бесполезны.

Подождите немного, прежде чем включить машинное обучение в свой обычный рабочий процесс.

Единственный случай, когда вы должны начать взаимодействовать с моделями машинного обучения, это когда: вы понимаете данные, с которыми работаете, и если машинное обучение обязательно лежит в основе того, что вы делаете. Примером этого может быть, когда вы создаете продукт машинного обучения, где вы уже протестировали рынок и знаете, что можете получить ценный для вас результат машинного обучения.

Тем не менее, даже не используя причудливые и дорогие инструменты машинного обучения, мы смогли предпринять ценные действия, которые позволили нашим партнерам еще лучше решать проблемы своих клиентов/сообщества. Наши решения помогли нашим партнерам сэкономить деньги, создать социальную ценность и, что очень важно, начать ухаживание с правильного использования своих данных. Хотя поначалу они только пьют кофе с нашей датой, мы открыли дверь, чтобы начать разговор о том, «куда идут эти отношения».

Если бы мы начали с больших машин машинного обучения, мы бы потратили много времени на создание чего-то, что команда, с которой мы работали, не обязательно знала бы, как использовать/понимать ее ценность. Это то, что мы называем напрасными усилиями. Когда мы работаем с сообществами со скудными ресурсами и у нас есть определенная миссия, напрасные усилия — это именно то, чего мы хотим избежать.

Если вы хотите узнать больше о том, как извлечь ценную информацию из данных и сделать вашу организацию более ориентированной на данные, подпишитесь на блог/журнал Ethegra Technologies, поскольку мы продолжаем знакомить сообщество с технологиями!

Дополнительные статьи: Что такое статистический анализ, Как сделать вашу организацию более управляемой данными (я еще не написал их, но вы знаете, если вам интересно...).