10 вещей, которые каждый должен знать о машинном обучении

Как человек, который часто объясняет машинное обучение неспециалистам, я предлагаю следующий список в качестве официального объявления.

Машинное обучение означает обучение на основе данных; AI - модное слово. Машинное обучение оправдывает шумиху: существует невероятное количество проблем, которые можно решить, предоставив правильные обучающие данные правильным алгоритмам обучения. Назовите это ИИ, если это поможет вам его продать, но знайте, что ИИ, по крайней мере, в том виде, в каком он используется за пределами академических кругов, часто является модным словом, которое может означать все, что люди хотят, чтобы оно значило.
Машинное обучение - это данные и алгоритмы, но в основном данные. Достижения в области алгоритмов машинного обучения, особенно глубокого обучения, вызывают большой интерес. Но данные - это ключевой ингредиент, который делает возможным машинное обучение. Машинное обучение может быть без сложных алгоритмов, но не без хороших данных.
Если у вас нет большого количества данных, вам следует придерживаться простых моделей. Машинное обучение обучает модель на основе шаблонов в ваших данных, исследуя пространство возможных моделей, определяемых параметрами. Если ваше пространство параметров слишком велико, вы переобучаете свои тренировочные данные и тренируете модель, которая не будет обобщать за его пределами. Для подробного объяснения требуется больше математики, но, как правило, вы должны делать свои модели как можно более простыми.
Качество машинного обучения зависит от качества данных, которые вы используете для его обучения. Фраза мусор на входе, мусор на выходе предшествует машинному обучению, но точно характеризует ключевое ограничение машинного обучения. Машинное обучение может обнаруживать только те закономерности, которые присутствуют в ваших данных обучения. Для задач машинного обучения с учителем, таких как классификация, вам понадобится надежный набор правильно размеченных, многофункциональных данных обучения.
Машинное обучение работает только в том случае, если ваши данные обучения репрезентативны. Так же, как проспект фонда предупреждает, что «прошлые результаты не являются гарантией будущих результатов», машинное обучение должно предупреждать, что оно гарантированно работает только для данных, созданных то же распределение, которое сгенерировало его обучающие данные. Следите за расхождениями между данными обучения и производственными данными и часто переобучайте свои модели, чтобы они не устарели.
Большая часть тяжелой работы для машинного обучения - это преобразование данных. Читая шумиху о новых методах машинного обучения, вы можете подумать, что машинное обучение - это в основном выбор и настройка алгоритмов. Реальность более прозаична: большая часть вашего времени и усилий уходит на очистку данных и разработку функций, то есть преобразование необработанных функций в функции, которые лучше представляют сигнал в ваших данных.
Глубокое обучение - это революционный прорыв, но это не волшебная палочка. Глубокое обучение получило широкую известность благодаря достижениям в широком спектре приложений машинного обучения. Более того, глубокое обучение автоматизирует часть работы, традиционно выполняемой с помощью проектирования функций, особенно для данных изображений и видео. Но глубокое обучение - не серебряная пуля. Вы не можете использовать его прямо из коробки, и вам все равно придется приложить значительные усилия для очистки и преобразования данных.
Системы машинного обучения очень уязвимы для ошибок оператора. Приносим свои извинения NRA: «Алгоритмы машинного обучения не убивают людей; люди убивают людей ». Когда системы машинного обучения терпят неудачу, это редко происходит из-за проблем с алгоритмом машинного обучения. Скорее всего, вы внесли человеческую ошибку в тренировочные данные, создав предвзятость или другую систематическую ошибку. Всегда будьте скептичны и подходите к машинному обучению с той дисциплиной, которую вы применяете в разработке программного обеспечения.
Машинное обучение может непреднамеренно создать самореализующееся пророчество. Во многих приложениях машинного обучения решения, которые вы принимаете сегодня, влияют на данные обучения, которые вы собираете завтра. После того, как ваша система машинного обучения внедрит предвзятость в свою модель, она сможет продолжать генерировать новые обучающие данные, которые усиливают эти предубеждения. А некоторые предубеждения могут разрушить жизни людей. Будьте ответственны: не создавайте самореализующихся пророчеств.
ИИ не станет осознавать себя, восстанавливать и уничтожать человечество. Удивительное количество людей (кашляет), кажется, черпают свои идеи об искусственном интеллекте из научно-фантастических фильмов. Мы должны вдохновляться научной фантастикой, но не настолько легковерными, чтобы принять ее за реальность. Есть достаточно реальных и настоящих опасностей, о которых стоит беспокоиться, от сознательно злобных людей до бессознательно предвзятых моделей машинного обучения. Так что вы можете перестать беспокоиться о SkyNet и суперинтеллекте.

Машинное обучение - это гораздо больше, чем я могу объяснить в топ-10. Но, надеюсь, это послужит полезным введением для неспециалистов.

10 вещей, которые каждый должен знать о машинном обучении

Вопросы по теме