Прочтите Статью Рональда Шмельцера в Forbes о том, что потребность в чистых данных является ахиллесовой пятой ИИ:

Мусор на входе - мусор на выходе. Нет ничего более верного в компьютерных науках, особенно в случае с искусственным интеллектом. Алгоритмы машинного обучения очень зависят от точных, чистых и хорошо помеченных обучающих данных, из которых можно извлечь точные результаты. Если вы обучаете свои модели машинного обучения с помощью мусора, неудивительно, что вы получите мусорные результаты. Именно по этой причине подавляющее большинство времени, затрачиваемого в проектах ИИ, приходится на этапы сбора, очистки, подготовки и маркировки данных.

Согласно недавнему отчету исследовательской и консалтинговой компании Cognilytica, более 80% времени, затрачиваемого на проекты ИИ, тратится на обработку данных и их обработку. Еще более важным и, возможно, удивительным является то, насколько трудоемкой является большая часть этой работы по подготовке данных. Чтобы контролируемые формы машинного обучения работали, особенно подходы многоуровневой нейронной сети глубокого обучения, им необходимо предоставить большие объемы примеров правильных данных, которые должным образом аннотированы или помечены с желаемым выходным результатом. Например, если вы пытаетесь заставить свой алгоритм машинного обучения правильно идентифицировать кошек на изображениях, вам нужно скормить этому алгоритму тысячи изображений кошек, соответствующим образом помеченных как кошки, причем изображения не содержат каких-либо посторонних или неверных данных, которые могли бы отбросит алгоритм, когда вы построите модель.

Статью Forbes читайте здесь.