Краткая статья и комментарий о разговоре и взгляде на Эндрю Нг на MLOps

Я полностью согласен с мнением Эндрю Нг о машинном обучении и MLops. Люди в науке о данных вот-вот станут волшебниками, если сосредоточатся на модельно-ориентированном взгляде! Они сосредоточены в основном на обучении новейшим сложным / сложным моделям.

Я хочу думать об этом так, как будто они хотят больше и лучше лимонного сока, сосредоточившись на создании сложной соковыжималки! Вероятно, решение приходит за счет более качественных, сочных лимонов и современной соковыжималки, поэтому ключевое значение имеет взгляд, ориентированный на данные.

На самом деле слово «данные» иногда может вводить в заблуждение, например. какой смысл иметь БОЛЬШУЮ базу данных, содержащую мало/непоследовательную/избыточную/зашумленную информацию! бесполезный. Требуется больше места для хранения, потребляется больше вычислительной (т. е. электрической) мощности, сложно обрабатывать и передавать…

Вместо этого важно иметь чистую, свободную от шума, релевантную, не избыточную информацию в наборе данных, также известную как исследование данных и проектирование.

Сообщество ИИ, включая исследователя, ошибается: ~ 99% статей по arXiv фокусируются на представлении, ориентированном на модели, и только ~ 1% фокусируются на представлении, ориентированном на данные.

Эксперимент 1

@Andrew NG и его команда из @deeplearning.ai провели эксперимент, чтобы подчеркнуть разницу между представлениями, ориентированными на модель, и представлениями, ориентированными на данные, в разных проектах машинного обучения (компьютерное зрение).

Из этого эксперимента мы можем заметить, что модель, ориентированная на модель, ограничена и не может значительно улучшить показатели по сравнению с базовой моделью, например, соковыжималка, которая использует весь сок и не может производить больше сока. Подход, ориентированный на данные, помог добиться более высокой производительности, чем подход, ориентированный на модель.

Эксперимент 2

Другой эксперимент подчеркивает разницу между использованием чистых и зашумленных данных. Результаты впечатляют, мы видим, что нам нужно немного чистых данных (например, 500 примеров) вместо большого количества зашумленных данных (1500 примеров) для достижения той же производительности, что и коэффициент 3!

Вывод

Я считаю, что в области ИИ предстоит многое оптимизировать, и это будет в центре внимания в следующем десятилетии. Эффективный и экономичный ИИ.

Ссылка