Если вы хотите, чтобы ваша система работала лучше, вам следует научить лучше; и как проверить, хорошо ли вы его обучили? Путем тестирования лучше!

Тщательное обучение - фундаментальное требование для того, чтобы постоянно иметь отличную производительность. Однако есть несколько ядовитых ошибок, которым подвержены традиционная (и современная) аналитика данных или статистические методы. Коллективный призыв к решению таких проблем часто известен как мусор в мусоре.

Вот пять ошибок, которых следует избегать при обучении своей системы искусственного интеллекта.

1. Недостаточно данных для обучения

Вы можете спросить: «Сколько данных нужно для эффективного обучения системы ИИ?»

Я бы сказал: «Это зависит от обстоятельств!».

Это может быть неприятный ответ, особенно если вы стоите на острие стадии машинного обучения. Тем не менее, это действительно зависит от сложности вашей проблемы, а также от сложности алгоритма, который вы планируете использовать. В любом случае, лучший способ - использовать эмпирическое исследование и получить оптимальное число.

Возможно, вы захотите использовать стандартные методы выборки при сборе необходимых данных и, возможно, захотите использовать калькуляторы стандартного размера выборки, которые используются в стандартных инструментах статистического анализа. Однако из-за природы алгоритмов машинного обучения объем данных часто недостаточен. Скорее всего, вам понадобится больше, чем то, что вам говорит стандартная формула расчета размера выборки.

Наличие большего количества данных может быть не такой большой проблемой, как их меньше. Вы должны убедиться, что имеется достаточно данных, чтобы разумно зафиксировать взаимосвязь, которая может существовать во входных параметрах (также известных как функции) и между входом и выходом.

Вы также можете использовать свой опыт в предметной области, чтобы разумно оценить, сколько данных достаточно, чтобы продемонстрировать полный цикл вашей бизнес-проблемы. Он должен охватывать все возможные сезонные колебания.

Модель, разработанная с помощью этих данных, будет настолько хороша, насколько хороши данные, которые вы имеете или предоставляете для обучения, поэтому убедитесь, что они достаточно доступны. Если вы чувствуете, что данных недостаточно, что может быть редкостью в современном мире больших данных, не торопитесь, подождите, пока вы их не получите.

2. Не очищать и не проверять набор данных

Слишком много данных бесполезно, если они низкого качества, и может означать одно или несколько из следующих трех вещей:

  1. Данные содержат шум, т. е. слишком много противоречивой и вводящей в заблуждение информации. Присутствуют смешанные переменные или параметры, а существенные переменные отсутствуют. Для очистки этого типа данных требуются дополнительные точки данных, поскольку текущий набор непригоден для использования и, следовательно, его недостаточно.
  2. Это грязные данные, т. е. отсутствуют несколько значений (хотя параметры доступны) или данные содержат несоответствия, ошибки и сочетание числовых или категориальных значений в одном столбце. Этот тип данных требует тщательной ручной очистки специалистами в предметной области и может часто нуждаться в повторной проверке. В зависимости от доступности ресурсов вам может быть проще получить дополнительные данные вместо очистки грязных данных.
  3. Неадекватные или разреженные данные - это сценарий, когда очень мало точек данных имеют фактические значения, а значительная часть набора данных заполнена нулями или нулями.

Тип проблем, присутствующих в наборе данных, часто не ясен из самого набора данных, поэтому я всегда рекомендую применять исследовательский анализ и визуализацию в самом начале. Выполнение этого первого прохода не только дает вам уверенность в качестве данных, но также может сказать вам, если что-то не так.

Основываясь на визуальном представлении, может возникнуть интересный вопрос - видите ли вы то, что ожидали увидеть?

Если ответ «Нет», возможно, ваши данные имеют низкое качество и нуждаются в очистке.

Если ответ «Да», это может быть полезно для получения некоторых предварительных выводов. Эта проверка набора данных необходима для продолжения, и вы никогда не должны ее пропустить.

3. Недостаточный разброс данных

Наличие большого количества данных не всегда хорошо, если они не могут представить все возможные варианты использования или сценарии. Если в данных отсутствует разнообразие, это может привести к проблемам в будущем - вы увеличиваете вероятность проигрыша в низкочастотных сценариях с высоким риском.

Для традиционного прогнозного анализа существует точка уменьшения отдачи по мере того, как вы получаете все больше и больше данных для обучения. Ваша команда специалистов по анализу данных часто может определить этот момент эмпирически.

Однако, поскольку машинное обучение - это индуктивный процесс, ваша базовая модель может охватывать только то, что она увидела в данных. Так что, если вы пропустите крайние случаи с длинным хвостом, также известные как крайние случаи, они не будут поддерживаться вашей моделью. Это просто означает, что ваш ИИ потерпит неудачу, когда произойдет этот сценарий. Это единственная и самая важная причина, по которой ваши тренировочные данные должны иметь достаточный разброс, чтобы представлять реальную популяцию.

Если вы пропустите крайние случаи с длинным хвостом, они не будут поддерживаться вашей моделью.

4. Игнорирование промахов и обходов.

Во время начального обучения трудно идентифицировать близкие к промахам и игнорируемые точки данных. Однако в непрерывном цикле обучения с обратной связью становится очень важным обращать пристальное внимание на возможные промахи, а также на переопределения со стороны человека или машины.

Когда вы впервые развертываете свою систему ИИ, у нее есть единственная базовая модель, которая управляет производительностью ИИ. Однако по мере продолжения работы системы в контур обратной связи поступают данные в реальном времени, и система начинает корректироваться, в реальном времени или регулярно.

Если модель упустила возможность правильно предсказать или рассчитать какой-либо выход всего на немного, и, таким образом, решение изменилось, это было бы почти ошибкой. Например, в случае системы одобрения ссуды, если оценка 88,5% означает «ссуду одобрена», а 88,6% - «ссуда отклонена», то этот сценарий является почти Мисс. С технической и чисто статистической точки зрения это правильно; однако с точки зрения реальной жизни допустимая погрешность может сыграть значительную роль. В случае оспаривания решения пострадавшей стороной, например соискателем ссуды, шансы на изменение решения выше. Следовательно, этот тип точек данных представляет особый интерес, и вы не должны игнорировать их.

Игнорирование переопределений может со временем ухудшить производительность модели.

То же самое применимо, когда оператор-человек контролирует вывод системы ИИ и может решить отменить его. Пользователь-оператор, отменяющий вывод ИИ, всегда следует рассматривать как особый сценарий, и вы должны передать его обратно в обучающую модель. Каждый из этих сценариев либо подчеркивает недостатки базовой модели, либо предоставляет новые ситуации, которых раньше не было. Игнорирование переопределений может со временем ухудшить производительность модели.

5. Смешение корреляции и причинно-следственной связи

В статистике мы часто говорим: «корреляция не подразумевает причинно-следственную связь». Обычно это относится к неспособности законно установить причинно-следственную связь между входными переменными и выходными. Результирующий вывод все же может быть неверным или ложным, но неспособность установить эту взаимосвязь часто является индикатором скрытой проблемы.

Корреляция не подразумевает причинно-следственной связи

Аналогичным образом, предсказательная сила вашей модели не обязательно означает, что вы установили точную причинно-следственную связь в своей модели. Ваша модель вполне может объединять корреляцию входных параметров и предсказывать выходные данные на основе этого.

Вы можете подумать: «Пока это работает, это не имеет значения». Однако различие имеет значение, поскольку многие алгоритмы машинного обучения выбирают параметры просто потому, что существует высокая корреляция. Определение причинно-следственной связи на основе корреляций может быть очень сложным и потенциально может привести к противоречивым выводам. Было бы гораздо лучше доказать, что причинно-следственная связь действительно существует.

Однако в наши дни разработчики и специалисты по данным просто полагаются на статистические закономерности. Многие из них не осознают, что эти закономерности являются лишь корреляциями между огромными объемами данных, а не причинными истинами или законами природы, которые управляют реальным миром.

Итак, как вы с этим справляетесь?

Попробуйте это - во время первоначального обучения и построения модели, вскоре после обнаружения корреляции, не делайте выводов слишком быстро. Найдите время, чтобы найти другие основные факторы, найдите скрытые факторы и проверьте, верны ли они, а затем только сделайте вывод.

Заключение

Если вам нужно доверить кому-то их работу, есть один из двух способов сделать это. Тренируйте их эффективно, чтобы гарантировать их работоспособность.

Если вы подозреваете, что тренировка хоть немного, то тщательно протестируйте ее, чтобы обеспечить лучшую производительность. Более того, если вы делаете и то, и другое, то есть тщательно тренируетесь и тщательно тестируете, вы можете быть уверены в производительности, и это создает лучшую основу для доверия.

Если вы тщательно тренируетесь и тщательно тестируете, вы можете быть уверены в производительности своей системы искусственного интеллекта, и это создает лучшую основу для доверия.

Об авторе: Я - множество вещей, упакованных в одном человеке: серийный предприниматель, отмеченный наградами опубликованный автор, плодовитый основной докладчик, сообразительный бизнес-консультант и активный духовный искатель. Я смело пишу, говорю глубоко и чутко наставляю стартапы.

Если вам понравилась эта статья, подпишитесь на мою рассылку, чтобы получать больше таких статей, и свяжитесь со мной в LinkedIn.