"Машинное обучение"

Google "Знай свои данные" показывает нам будущее исследования данных для моделей машинного обучения

Новый инструмент предоставляет расширенные возможности исследования для оценки качества наборов данных машинного обучения.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Высококачественные наборы данных необходимы для создания надежных моделей машинного обучения (ML) в сегодняшней работе, в которой преобладают методы контролируемого обучения. Однако процесс создания высококачественных обучающих наборов данных требует не только больших вычислительных ресурсов, но и сильно зависит от субъективности процессов маркировки. Понимание состава обучающих наборов данных необходимо для лучшего понимания поведения моделей машинного обучения. Недавно компания Google Research запустила Знай свои данные (KYD) - одну из наиболее полных работ в области анализа наборов данных, которая дает нам представление о том, как может выглядеть будущее этой дисциплины.

Анализ наборов данных машинного обучения - одна из тех вещей, которые концептуально тривиальны, но очень трудны для реализации. Просто подумайте о различиях между анализом наборов данных в виде таблиц, аудио, языка или изображений. Предоставление последовательной модели для этого опыта далеко не тривиально. Первоначальный выпуск KYD ориентирован на наборы данных изображений, но вскоре он должен включать и другие типы наборов данных.

С функциональной точки зрения KYD предоставляет механизмы визуального исследования, которые могут помочь ответить на следующие вопросы в наборе данных машинного обучения:

  • Данные повреждены?
  • Являются ли данные конфиденциальными?
  • Есть ли в данных пробелы?
  • Сбалансирован ли набор данных по различным атрибутам?

На высоком уровне KYD предлагает широкий набор возможностей, которые позволяют специалистам по обработке данных исследовать взаимосвязи между функциями и атрибутами наборов данных машинного обучения. KYD включает в себя существующие функции, а также функции, рассчитываемые автоматически с помощью Google Cloud Vision API. Например, на следующем изображении показано, как использовать KYD для изучения корреляций гендерного смещения в изображениях в знаменитом наборе данных COCO Captions.

Это упражнение показало, что такие действия, как покупки или приготовление еды, часто ассоциируются с образами женщин.

Точно так же изучение корреляций между возрастом и особенностями активности показало, что такие физические нагрузки, как верховая езда или прыжки, обычно не связаны с пожилыми людьми. Может быть, признак возрастной предвзятости.

KYD - одна из наиболее полных работ по исследованию наборов данных в сфере машинного обучения. Проект все еще находится на очень ранней стадии, но он уже предоставляет очень обширные возможности исследования функций, которые могут иметь значение для оценки качества обучающих наборов данных. Мы должны увидеть больше интересных возможностей, добавленных в KYD до его первого официального выпуска.