Машинному обучению требуется большой объем данных. Итак, первый вопрос, который мы задаем клиентам: достаточно ли у вас? Вы можете ответить «Да», но, вероятно, у вас не так много, как вы думаете. Как мы можем быть так уверены? И как получить больше и добиться наилучших результатов? Найдите интересующие вас ответы в следующей статье.

Всегда легче понять концепцию на примере из реальной жизни, поэтому начнем с этого.

Представьте, что вы устраиваете вечеринку. Это важное событие, и вы хотите нанять фотографа, чтобы его запечатлеть. Вы просите их сделать «много фотографий», потому что не хотите упустить момент: вы говорите им «сфотографировать все». Фотограф следует вашим инструкциям. Им платят, а вы получаете полный жесткий диск с фотографиями.

Однажды вы решили выбрать несколько из них, чтобы создать альбом для этого мероприятия. Вы сидите за столом, взволнованный, что у вас так много выбора, пока вы не открываете первую картинку: приходит разочарование. Качество не такое хорошее, как вы надеялись. Картинка размытая и темная. Вы вообще ничего не можете разобрать, но сначала думаете: «Может, произошла ошибка. Фотограф случайно загрузил это фото…? » К сожалению нет. Каждая последующая картинка такая же. Продолжаешь прокрутку, никаких улучшений. Раздражение нарастает, и тогда вы находите одну жемчужину: идеальный снимок. Но ваше счастье недолговечно. Вернемся к прокрутке, обратно к ужасным изображениям - и становится только хуже. Вы теряете часы, копаясь в коллекции. Вы найдете меньше нескольких фотографий, которые можно проявить. Альбома не будет. Вы потратили тысячи на непрофессиональное обслуживание, и, что еще хуже, вы, вероятно, вообще не должны были получать эти фотографии. Время и деньги, напрасно. А теперь отступим: что, по вашему мнению, вызвало эту проблему? И можно ли было что-нибудь сделать, чтобы этого избежать?

Что касается первого, ну: фотографу с самого начала была поставлена ​​плохо сформулированная задача. Им просто сказали «сделать много снимков» - никто не сказал, что снимки «должны быть отличного качества».

Предполагается, что да, но если вы не определите должным образом, что вам нужно, всегда есть риск не получить то, что вы хотите.

Хорошо ... но как это связано с машинным обучением?

Что ж, создание машинного обучения - или любого программного обеспечения, основанного на данных - не сильно отличается от приведенного выше примера: то, как вы определяете задачу, имеет значение, особенно если вы хотите получить результаты правильного качества.

Итак, что вы можете сделать, чтобы избежать повторения? Сосредоточьтесь на качестве, а не на количестве.

Как и в случае с вашим фотографом, простое создание большого количества данных редко удовлетворяет чьи-либо требования. Фактически, сосредоточение внимания исключительно на количестве часто означает, что большая часть результатов оказывается бесполезной.

Что важно, так это качество набора данных, поскольку именно от него зависит производительность программного обеспечения искусственного интеллекта, и именно этот момент мы понимаем. Если ваш вклад некачественный, ваши результаты никогда не оправдают ожиданий.

В частности, в случае машинного обучения ключевым моментом является качество, а не количество.

4 шага к получению данных хорошего качества для вашего программного обеспечения AI.

Во-первых, давайте посмотрим, как получить данные нужного качества.

Есть четыре шага, и если вы будете следовать каждому из них по порядку, ваше программное обеспечение машинного обучения даст вам желаемые результаты.

1. Укажите бизнес-цель

Это самый важный аспект каждого проекта ИИ. Подумайте, чего вы хотите достичь и почему. Затем объясните это понятным и простым языком команде, ответственной за сборку.

Сделайте жизнь как можно проще: укажите одну основную цель - подкрепленную тем, как ИИ поможет вашей компании в ее достижении.

2. Узнайте, какие данные вам нужны.

Затем укажите, какие данные вам нужны, чтобы создать решение, соответствующее вашим ожиданиям.

Это очень важно, потому что, если вы повторяете ошибку, «запрашивая много фотографий», вы получите неправильный тип данных. Тогда как если вы внимательно изучите проблему, которую хотите решить, вы получите набор данных, который соответствует вашей цели.

Это означает, что нужно смотреть не только на количество, но и на данные, которые предоставляют наиболее актуальную информацию.

Помните: сбор информации до последнего - это не то же самое, что сбор ценной информации. Полезный набор данных содержит точные сведения, необходимые для решения вашей проблемы.

3. Очистите свои данные.

Теперь, когда вы знаете свою цель и определили нужные данные, пора устранить весь "мусор", который может затуманивать ваш набор данных.

Удалите всю несвязную информацию. Убедитесь, что все максимально точно. И постарайтесь избегать общей, вводящей в заблуждение , или некачественной информации. Вместо этого сосредоточьтесь на деталях, которые машина может интерпретировать и проанализировать.

Не дайте себя обмануть: это очень сложная задача. Нелегко обойтись без необходимых знаний и опыта, поэтому всегда следует переходить к шагу 4.

4. Работа с экспертами в предметной области.

Специалисты по обработке данных могут помочь вам очистить ваши данные. Другие специалисты помогут вам разобраться с остальным.

Например, если вы не знаете:

  • Какие данные вам нужны для достижения бизнес-цели
  • Как сохранить или хранить ваши данные
  • Как организовать и подготовить наборы данных для проектов
  • Как доказать подходящее качество ваших данных

…. Попросите помощи у экспертов в предметной области. Разработка решения на основе искусственного интеллекта - настоящая проблема, и стоит доверить эту работу команде, имеющей опыт работы с большими данными и искусственным интеллектом.

Если у вас недостаточно данных, вот что делать.

Когда четыре вышеуказанных шага не дают достаточно большого набора данных, еще не все потеряно. Следующие три шага помогут вам получить объем, необходимый для вашего проекта.

1. Подумайте, есть ли скрытый набор данных.

Если у вас недостаточно данных, возможно, вы пропустили скрытый ресурс. Проконсультируйтесь с командой специалистов по обработке данных и спросите их, может ли быть релевантный источник информации, о котором вы еще не догадывались.

2. Попробуйте упростить задачу.

Когда вы впервые приступили к своей миссии, вы, возможно, слишком высоко поставили планку. Ваша цель может быть чрезмерно амбициозной или слишком сложной, поэтому вам могут потребоваться сверхдетальные или точные данные, которых у вас нет.

Тем не менее, имеющихся данных может хватить, чтобы начать что-то меньшее. В любом случае, если это ваш первый проект ИИ, зачастую лучше начать с меньшего: вы можете расширить масштабы в будущем, что повысит ваши шансы на долгосрочный успех.

3. Рассмотрите возможность использования синтетических данных.

Есть несколько способов сбора данных. Часто игнорируемый путь - создание синтетических данных.

Синтетический подход лучше всего использовать, когда у вас есть база данных хорошего качества, которую вы можете применить к первоначальному решению, которое затем можно использовать для создания набора реальных данных. Более того, это позволяет вам создавать решения намного быстрее и экономичнее, чем если бы вы собирали реальные данные с нуля.

Узнайте больше о том, как работает этот подход, в нашей статье Как создавать синтетические данные для обучения алгоритмов глубокого обучения.

Вы можете подумать, что доступ к огромному набору данных - это все, что вам нужно для создания решения на основе ИИ. К сожалению, это бывает редко.

Вам необходимо проанализировать набор данных, чтобы понять, какие возможности заключаются в нем. А если у вас нет нужных данных, вам нужно следовать одному из трех других путей, чтобы получить желаемые результаты высокого качества.

Хотите создать искусственный интеллект, но не уверены, что у вас есть правильный набор данных? Поговорите со специалистом DLabs AI сегодня, чтобы получить бесплатный совет о том, как двигаться дальше.

Первоначально опубликовано на https://dlabs.ai 16 июня 2020 г.