Данные в контексте машинного обучения

В моем последнем блоге в середине апреля я говорил о трех аспектах машинного обучения, таких как люди, процессы и данные. Как объяснялось в этом блоге, сегодня я хотел бы углубиться в аспекты данных в контексте машинного обучения — в частности, я расскажу о различных ролях данных, которые задействованы при машинном обучении.

Как мы все знаем, данные — это новое масло и основа машинного обучения при создании приложений с искусственным интеллектом. Существует огромное количество транзакционных данных и метаданных, которые используются при создании корпоративных приложений на основе ИИ. Прежде чем перейти к конечной точке встроенных приложений ИИ, давайте разберемся с данными с разных точек зрения инженеров инфраструктуры данных, инженеров данных (также известных как администраторы баз данных в прошлом), аналитиков данных, ученых по данным, инженеров-программистов (также известных как разработчики приложений), инженеров машинного обучения. Евангелисты ИИ и, наконец, бизнес-аналитики.

Инженеры инфраструктуры данных. Концепция сбора различных форм данных, таких как данные датчиков, потоковые данные, данные сигналов, структурированные данные, неструктурированные данные из различных источников данных, можно назвать проектированием инфраструктуры данных. . Основной задачей здесь является сбор различных типов данных перед выполнением анализа, исследования и других задач обработки данных.

Аналитики данных. Как аналитик данных, различные виды собираемых данных должны быть сначала проверены и проанализированы. Как я объяснял ранее, будут данные, которые будут структурированными или неструктурированными, связанными с датчиками, связанными с сигналами и т. д. Проведение надлежащего анализа данных является ключевой задачей аналитика данных с некоторыми базовыми знаниями предметной области собираемых данных. Можно выполнить минимальный сценарий данных, а затем выполнить визуализацию данных для улучшения отчетов и анализа.

Инженеры данных: Проанализированные ранее необработанные данные теперь необходимо извлечь, преобразовать (в некоторых случаях), переместить и сохранить в других формах. Понимание ключевых принципов извлечения данных с использованием таких инструментов, как ETL и т. д., является одним из важных шагов. Вы также можете классифицировать администраторов баз данных в этой категории, которые работают с основными запросами данных для чтения, записи и хранения данных в разных таблицах или пространствах данных. Это также может способствовать извлечению данных из различных источников данных через озера данных и т. д. и обработке этих данных. Некоторые инженеры данных также могут использовать такие методы, как смешивание данных, управление данными, оптимизация запросов и т. д., при перемещении данных по фабрике данных технических ландшафтов. и облачные системы. Не запутайтесь с этим новым термином Data Fabric — это не что иное, как концепция, объясняющая, как данные перемещаются между различными источниками, прежде чем они достигнут своего окончательного состояния. Данные не всегда нужно хранить в облаке, их можно перемещать в разные места без потери характеристик данных. Аналогией может служить информационная магистраль, имитирующая обычную магистраль. Существуют разные магистрали, соединяющиеся с разными местами, которые составляют структуру ландшафта данных или взаимосвязанных облачных систем. Данные можно рассматривать как транспортное средство, проезжающее по одной из автомагистралей из точки А в точку Б. Здесь данные или информация не теряются, а просто перемещаются из одного места в другое. Я знаю, что мы немного отвлеклись, говоря о задачах инженера данных, которые в основном заключаются в перемещении и хранении данных путем принятия правильных методов извлечения с минимальным количеством сценариев по мере необходимости.

Продвинутый аналитик данных. В этой роли продвинутого аналитика данных можно не только исследовать данные, но и выполнять некоторую очистку и подготовку данных для реальных задач моделирования. Как только данные будут очищены и доступны, эти данные также будут подвергаться некоторой базовой агрегации данных и соответствующим действиям по маркировке. В этом контексте продвинутый аналитик данных будет тесно сотрудничать с специалистом по данным, чтобы убедиться, что данные доступны в правильном состоянии с помощью методов агрегирования, маркировки и т. Д., Для прохождения моделирования на следующем этапе.

Исследователи данных. Это одна из ключевых ролей, связанных с машинным обучением и прогнозной аналитикой. Специалисты по данным создают алгоритмы машинного обучения и разрабатывают артефакты машинного обучения. Это будет итеративный процесс проведения базовых экспериментов, A/B-тестирования, обучения и т. д., основанный на разработанных основных моделях машинного обучения. Изучение и оптимизация являются ключевыми этапами, которые необходимо выполнить, чтобы специалисты по обработке и анализу данных могли точно настроить и улучшить модели. В дополнение к базовым навыкам программирования потребуются типичные математические навыки и статистические знания. Типичный специалист по данным будет использовать множество методов исследования, прежде чем строить модель ML, и улучшать ее в течение определенного периода времени с помощью основных методов экспериментирования и A/B-тестирования. Методы исследования позволят специалистам по данным определить и построить классификацию, регрессию, временные ряды и т. д., алгоритмы для создания модели машинного обучения.

Инженеры-программисты. Как вы знаете, типичная роль инженера-программиста заключается в написании программ на основе существующих правил или механизмов. В контексте машинного обучения инженеры-программисты усовершенствуют методы, основанные на правилах, создав дополнительное программирование на моделях машинного обучения, которые разрабатываются и предоставляются в качестве артефактов специалистами по обработке и анализу данных. Эти модели ML фактически применяются и внедряются в основные бизнес-приложения или системные приложения разработчиками программного обеспечения. Иногда инженеров-программистов также называют разработчиками приложений, которые реализуют алгоритмы машинного обучения в своем коде. Хотя у них может быть дополнительный опыт работы с данными, это не обязательно, если они понимают основные принципы того, какие алгоритмы используются и применяются в любом конкретном сценарии.

Инженер по машинному обучению. Ключевая роль инженера по машинному обучению заключается в проектировании и разработке сложных алгоритмов, включающих глубокое обучение. Для этого требуются интенсивные данные и сложность алгоритма. Типичные примеры включают распознавание изображений, распознавание голоса, анализ текста, распознавание видео и т. д., что потребует не только огромного количества данных, но и типичных гибридных алгоритмов, которые должны быть написаны и настроены до того, как будет разработана надежная модель машинного обучения и развернут. После того, как эта надежная модель машинного обучения будет развернута в качестве службы машинного обучения, приложение-потребитель может быть реалистично названо приложением с искусственным интеллектом, поскольку в него включено много базового обучения, а некоторые методы регулярно дорабатываются в неконтролируемом режиме. или полуконтролируемый режим. Мы определенно движемся к будущему с применением роботизированной автоматизации в алгоритмах машинного обучения.

Проповедник искусственного интеллекта: это роль человека, который обычно работает в качестве изложения всей стратегии искусственного интеллекта и того, как все ключевые строительные блоки собираются в полном процессе с использованием искусственного интеллекта. Независимо от процесса, ключевые шаги будут включать в себя общение с приложением или системой с помощью бота NLP (обработка естественного языка) или диалогового бота с искусственным интеллектом, а затем предложение рекомендаций или вариантов для удовлетворения потребности с использованием услуг машинного обучения, в свою очередь. реагирование на ситуации или предупреждения от различных датчиков IoT и предоставление автоматических ответов с использованием роботизированных ботов для автоматизации процессов. Этот полный поток обычно заменяет обычный бизнес-процесс за счет оцифровки и внедрения искусственного интеллекта в полный бизнес-процесс от начала до конца. Давайте отложим обсуждение каждой из этих технологий искусственного интеллекта на другой день!

Бизнес-аналитик. Наконец, бизнес-аналитик сможет взаимодействовать с системой или приложением, в основные процессы которого встроены ИИ и машинное обучение. У бизнес-аналитика действительно есть сильная деловая хватка и понимание систем, чтобы взаимодействовать со встроенным приложением ИИ и получать преимущества по мере необходимости.

В нашем следующем блоге мы немного подробнее обсудим данные и различные типы данных, которые необходимо учитывать в контексте машинного обучения. Результаты могут варьироваться в зависимости от выборки данных, смещения данных и т. д., которые мы делаем и используем в тренингах, поэтому давайте обсудим это немного подробнее в нашем следующем блоге.

До следующего раза, следите за обновлениями и с удовольствием предсказывайте будущее с помощью технологий искусственного интеллекта!

Данные в контексте машинного обучения

Вопросы по теме