Сосредоточение внимания на данных и их обслуживание — это способ разработать лучшую и более ответственную систему AI/ML.

Аамар Хуссейн, директор по данным Azure в Microsoft, посетил всемирный веб-семинар по искусственному интеллекту, чтобы объяснить, почему данные должны быть в центре внимания вашего следующего проекта искусственного интеллекта и машинного обучения. Вот несколько основных моментов его выступления!

Смотрите его выступление на нашем сайте и YouTube-канале.

Почему вы должны сосредоточиться на данных, чтобы построить более эффективную систему AI/ML?

По словам Аамара, поскольку системы AI/ML состоят из кода и данных, традиционно акцент делался на код. В течение нескольких последних десятилетий системы машинного обучения обучались путем загрузки и экспериментов с общим набором данных с целью точной настройки модели. Теперь акцент начинает смещаться в сторону данных как правильного подхода к построению более систематической модели машинного обучения с более высокой производительностью и точностью.

Кроме того, он заявил, что данные являются источником жизненной силы любой системы AI/ML. Чтобы контролируемые формы машинного обучения, особенно подходы многоуровневой нейронной сети с глубоким обучением, работали, они должны быть снабжены большими объемами правильных данных. Он также процитировал исследовательский документ, в котором сообщается, что 80% времени, затрачиваемого на проекты ИИ, приходится на обработку данных, что доказывает, что эта подготовительная работа является трудоемкой. Короче говоря, как выразился Аамар, мусор на входе — это мусор на выходе.

Однако больше данных не всегда является решением. Для больших моделей с 17–19 миллиардами параметров требуется много ресурсов. В июне 2019 года исследователи из Массачусетского университета в Амхерсте обнаружили, что, например, обучение и запуск ИИ для обработки естественного языка. модель может выбрасывать более 626 000 фунтов углекислого газа. Это почти в пять раз превышает количество углекислого газа, выбрасываемого средним автомобилем за время его эксплуатации. Энергозатраты также могут достигать миллионов долларов.

Аамар предположил, что для решения этой проблемы мы могли бы сосредоточиться на имеющихся у нас данных и использовать их более эффективно.

Затем он поделился основанным на данных подходом к варианту использования разговорного ИИ, над которым он и его команда работали вместе, более подробную информацию вы можете посмотреть на нашем веб-сайте и канале YouTube.

Лучшие практики и рекомендации

Поскольку Аамар наблюдал за процессами лидеров мнений из различных отраслей, у него есть несколько рекомендаций для любых команд или предприятий, которые собираются построить модель AI/ML.

Он рекомендовал начать с формулирования проблемы и определения масштаба проекта. Попробуйте ответить на следующие вопросы:

  • В чем проблема вашего бизнеса?
  • Какую область вы хотите решить?
  • Решается ли это с помощью ИИ или вы можете использовать отчетность или визуализацию?

Затем вам нужно собрать данные. Какой тип данных вам нужен? В какой форме вы хотите, чтобы ваши данные были? У вас настроен конвейер данных?

Как только вы это сделаете, вы можете обучить модель. Здесь вам предстоит выполнять итеративный цикл обучения, анализируя ошибки и постоянно совершенствуясь.

Наконец, вы можете развернуть модель в рабочей среде и продолжать отслеживать и обслуживать систему по мере продвижения по пути AI/ML.

Аамар также порекомендовал еще несколько советов по использованию данных:

  • Улучшение и дополнение ваших данных
  • Стандартизация и форматирование данных
  • Работа с повторяющимися выбросами
  • Выборка данных
  • Снижение шума
  • Непредвзятость и анонимность

В заключение, наличие эффективной стратегии обработки данных имеет решающее значение для процветания любого бизнеса и успешного использования потенциала AI/ML.

Подпишитесь на нас в LinkedIn, Twitter, Facebook и YouTube, чтобы получать ежедневные отраслевые обновления!