Краткая статья и комментарий о разговоре и взгляде на Эндрю Нг на MLOps
Я полностью согласен с мнением Эндрю Нг о машинном обучении и MLops. Люди в науке о данных вот-вот станут волшебниками, если сосредоточатся на модельно-ориентированном взгляде! Они сосредоточены в основном на обучении новейшим сложным / сложным моделям.
Я хочу думать об этом так, как будто они хотят больше и лучше лимонного сока, сосредоточившись на создании сложной соковыжималки! Вероятно, решение приходит за счет более качественных, сочных лимонов и современной соковыжималки, поэтому ключевое значение имеет взгляд, ориентированный на данные.
На самом деле слово «данные» иногда может вводить в заблуждение, например. какой смысл иметь БОЛЬШУЮ базу данных, содержащую мало/непоследовательную/избыточную/зашумленную информацию! бесполезный. Требуется больше места для хранения, потребляется больше вычислительной (т. е. электрической) мощности, сложно обрабатывать и передавать…
Вместо этого важно иметь чистую, свободную от шума, релевантную, не избыточную информацию в наборе данных, также известную как исследование данных и проектирование.
Сообщество ИИ, включая исследователя, ошибается: ~ 99% статей по arXiv фокусируются на представлении, ориентированном на модели, и только ~ 1% фокусируются на представлении, ориентированном на данные.
Эксперимент 1
@Andrew NG и его команда из @deeplearning.ai провели эксперимент, чтобы подчеркнуть разницу между представлениями, ориентированными на модель, и представлениями, ориентированными на данные, в разных проектах машинного обучения (компьютерное зрение).
Из этого эксперимента мы можем заметить, что модель, ориентированная на модель, ограничена и не может значительно улучшить показатели по сравнению с базовой моделью, например, соковыжималка, которая использует весь сок и не может производить больше сока. Подход, ориентированный на данные, помог добиться более высокой производительности, чем подход, ориентированный на модель.
Эксперимент 2
Другой эксперимент подчеркивает разницу между использованием чистых и зашумленных данных. Результаты впечатляют, мы видим, что нам нужно немного чистых данных (например, 500 примеров) вместо большого количества зашумленных данных (1500 примеров) для достижения той же производительности, что и коэффициент 3!
Вывод
Я считаю, что в области ИИ предстоит многое оптимизировать, и это будет в центре внимания в следующем десятилетии. Эффективный и экономичный ИИ.
Ссылка
- Для тех, кому небезразлична эта тема, посмотрите это: Беседа с Эндрю о MLOps: от модельно-ориентированного к дата-центричному ИИ
- что такое MLops?: https://cloud.google.com/solutions/machine-learning/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning