Нет, ИИ сам не понимает. Никакая наука о данных не является автоматической. Гибкий метод не означает хаос. Одним словом нет, это не магия. Что нужно сделать, прежде чем бросаться кодить? Здесь я делюсь с вами четырьмя принципами, которые я усвоил из своих профессиональных и личных проектов.

Сделайте бизнес-цель максимально ясной

Data Science — это абсолютная тенденция, иногда чрезмерно используемая и не адаптированная, но при этом являющаяся мощным инструментом. Вот почему мы должны быть уверены перед запуском любой строки кода, что мы ищем для демонстрации/улучшения и какие данные у нас есть для достижения этой цели. Определите четкую бизнес-цель перед кодированием, это важная ключевая функция на предприятии, затем это определение будет использоваться для определения показателей оценки нашего решения.

Данные должны быть подготовлены

Большая часть любого проекта Data Science направлена ​​на то, чтобы убедиться, что у нас есть данные. Затем мы должны убедиться, что данные хорошо подготовлены для использования в наших моделях. Пропущенные значения и выбросы — это то, с чем нам приходится иметь дело, чтобы иметь хорошее качество данных для нашей модели. Время, необходимое для подготовки данных, часто недооценивается. Это не самая привлекательная часть машинного обучения, но подготовка, а затем знание ваших данных с помощью процесса EDA позволяет нам бросить вызов экспертам, которым мы пытаемся помочь, а затем лучше понять основную проблему (и иногда найти другую проблему). необходимо решить заранее).

Точно определить доставку

Иметь модель, хорошо работающую с метриками оценки, — основная цель любого Data Scientist. Но мы должны быть уверены, какую конечную поставку мы ищем и как эта поставка будет технологически интегрирована в глобальное решение в начале разработки. Хотим ли мы разработать MVP? Это выполнение сценария оболочки? Веб-исполнение? Что мы хотим динамического? Что мы хотим жесткого кодирования? Это только демо или производственный проект? На все эти вопросы нужно было ответить перед кодированием.

Нет эффекта черного ящика

Машинное обучение будет использоваться во все большем количестве отраслей на всех уровнях. Исходя из этого предположения, мы должны быть уверены, что все люди могут хорошо понять, что предсказывает машина и почему, интерпретируемость машинного обучения является ключом к этому. Этические проблемы все больше и больше решаются в нашем сообществе, и я твердо верю, что «эффект отсутствия черного ящика» позволит нам найти решение, предвидя этические проблемы, с которыми ИИ может столкнуться в будущем. Я настоятельно рекомендую любому специалисту по данным добавить в его базовом пайплайне науки о данных есть раздел интерпретируемости машинного обучения, как мы это делаем для проектирования функций или оценки метрик.

Есть предложения?

Пожалуйста, не стесняйтесь делиться своими советами в разделе комментариев. :)