Зачем и когда нам нужно машинное обучение…

Я занимаюсь управлением/качеством данных несколько лет. Когда я спрашиваю некоторых людей, что такое процессы управления данными, они просто отвечают: «Ну, некоторые из наших данных хранятся в базе данных, а другие данные хранятся в общих папках с соответствующими разрешениями». Это не управление данными… это хранение данных. Если у вас и/или вашей организации нет хороших, чистых данных, вы определенно не готовы к машинному обучению. Управление данными должно быть вашим первым шагом перед тем, как погрузиться в любой другой проект(ы) данных.

Теперь я бы сказал, что если у вас есть хорошее управление данными и помечено для машинного обучения, сделайте паузу и подумайте о некоторых довольно стандартных подходах к регрессии, которые могут решить проблему. Я не говорю, что вам не следует начинать с ML в ближайшее время, но начните с самой простой вещи, которая может работать, вместо того, чтобы на полной скорости бежать к машинному обучению.

Требования, необходимые перед тем, как вы перейдете к ML, необходимо много очистки данных, управления и т. д. Есть несколько реальных задач и проблем, которые люди, предприятия и организации изо дня в день пытаются решить для нашего блага. Есть несколько сценариев, когда может быть полезно заставить машины учиться, и вот некоторые из них, упомянутые ниже.

  1. Отсутствие достаточного человеческого опыта в предметной области (например, моделирование навигации на неизвестных территориях или даже пространственных планетах).
  2. Сценарии и поведение могут со временем меняться (например, доступность инфраструктуры в организации, подключение к сети и т. д.).
  3. Люди обладают достаточным опытом в этой области, но чрезвычайно сложно формально объяснить или перевести этот опыт в вычислительные задачи (например, распознавание речи, перевод, распознавание сцен, когнитивные задачи и т. д.).
  4. Решение конкретных проблем предметной области в масштабе с огромными объемами данных со слишком большим количеством сложных условий и ограничений.
  5. Мессенджер или чат-бот для поиска и покупки экологически чистых продуктов и услуг. Работает на искусственном интеллекте с помощью человека и использует сбор данных и машинное обучение.

Все еще существует путаница в различении проблем, которые можно решить с помощью базового программирования, от тех, которые могут быть решены с помощью ML. Неудачным следствием этого является то, что те же самые люди верят, что ML волшебным образом превратит груды файлов Excel и PDF, поддерживаемых вручную, в понимание. Я обычно советую людям сначала начать с основ и попробовать регрессию, затем перейти к машинному обучению (случайный лес, SVM и т. д. и т. д.) и […]