Проекты машинного обучения не существуют в вакууме. Они обнаруживают важные взаимосвязи, тенденции и закономерности в данных, но это не их конечная цель. Аналитическое решение должно касаться предметной области. В деловой обстановке они обращаются к стратегическому вопросу или потребности бизнеса. В научной среде они открывают новые возможности для открытий. В условиях государственной службы они служат определенному общественному интересу или потребности. Во всех типах настроек проекты машинного обучения имеют общую структуру, которую мы описываем в этом посте.

Общая структура, которой следуют проекты машинного обучения, — от вопроса предметной области к аналитическому ответу:

  1. Понимание домена — в чем вопрос?
    В бизнес-сфере может возникнуть вопрос: что покидают наши клиенты? Как определить мошенников? Какие продукты будут наиболее успешными на каких рынках с каждой функцией? Какие компоненты неисправны в нашей технологической линии? Какой тип клиентов с большей вероятностью примет наши предложения? В научной сфере может возникнуть вопрос: какие показатели медицинских осмотров указывают на этот конкретный тип заболевания на его ранних стадиях? Какие генетические особенности приводят к этому конкретному заболеванию? Почему это заболевание чаще встречается в данном географическом районе или в этой группе населения?
  2. Понимание данных — идентификация существующих источников данных
    Какие имеющиеся у нас источники данных мы можем использовать для ответа на наш вопрос? Какие данные, которые у нас есть, связаны с нашим вопросом?
  3. Подготовка данных — преобразование данных
    Имеющиеся данные редко доступны в формате или месте, которые можно использовать в проекте машинного обучения. Например, данные могут быть распределены по разным источникам данных, данные нужно привести в структурированную таблицу (например, с предикторами и целевыми значениями).
  4. Построение модели
    К данным применяются различные модели с целью выявления взаимосвязей, тенденций и закономерностей.
  5. Оценка модели
    Хорошо ли работает модель? Можем ли мы доверять этой модели? Модель оценивается в три разных этапа: обучение (для обучения модели), проверка (во избежание переобучения) и тестирование (чтобы увидеть, как модель работает на невидимых новых данных).
  6. Развертывание
    На этом последнем этапе модель развертывается для решения исходного вопроса. Его можно сделать доступным по-разному, и он может использоваться очень часто или редко. Все зависит от типа вопроса, на который пытается ответить аналитическое решение.