«Данные - это новое масло. Это ценно, но в неочищенном виде не может быть использовано. Его необходимо заменить на газ, пластик, химикаты и т. Д., Чтобы создать ценный объект, который будет стимулировать прибыльную деятельность; поэтому данные должны быть разбиты, проанализированы, чтобы иметь ценность ».

- Клайв Хамби

Глубокое обучение - революционная область, но для того, чтобы она работала должным образом, необходимы данные. Область, связанная с этими большими наборами данных, известна как большие данные, что означает изобилие цифровых данных. Данные так же важны для алгоритмов глубокого обучения, как и сама архитектура сети, то есть программное обеспечение. Сбор и очистка данных - один из самых ценных аспектов работы. Без данных нейронные сети не могут обучаться.

В большинстве случаев исследователи могут использовать предоставленные им данные напрямую, но во многих случаях данные не являются чистыми. Это означает, что его нельзя использовать напрямую для обучения нейронной сети, потому что он содержит данные, которые не отражают то, что алгоритм хочет классифицировать. Возможно, он содержит неверные данные, например, когда вы хотите создать нейронную сеть для определения кошек среди цветных изображений, а набор данных содержит черно-белые изображения. Другая проблема - когда данные не подходят. Например, если вы хотите классифицировать изображения людей как мужчин или женщин. Могут быть изображения без тега или изображения, на которых информация искажена словами с ошибками, такими как «эль» вместо «мужской». Даже если это может показаться сумасшедшим сценарием, они случаются постоянно. Обработка этих проблем и очистка данных известны как обработка данных.

Кроме того, исследователям иногда приходится решать проблемы, связанные с представлением данных. В некоторых местах данные могут быть выражены одним способом, а в других областях одни и те же данные могут быть описаны совершенно по-другому. Например, вы можете классифицировать такое заболевание, как диабет, с определенным номером (3) в одной базе данных и (5) в другой. Это одна из причин значительных усилий в отраслях по созданию стандартов для более легкого обмена данными. Например, программа Fast Healthcare Interoperability Resources (FHIR) была создана международной организацией здравоохранения Health Level Seven International для разработки стандартов обмена электронными медицинскими картами.

Стандартизация данных важна, но выбор правильных входных данных также важен, потому что алгоритм создается на основе данных. И выбрать эти данные непросто. Одна из проблем, которые могут возникнуть при выборе данных, заключается в том, что они могут быть каким-то образом смещены, создавая проблему, известную как смещение выбора. Это означает, что данные, используемые для обучения алгоритма, не обязательно представляют все пространство возможностей. В индустрии говорят: «Мусор на входе, мусор на выходе». Это означает, что если данные, введенные в систему, неверны, модель не будет точной. Лучше всего это иллюстрирует притча Элиэзера Юдковски «Искусственный интеллект как отрицательный и положительный фактор глобального риска»:

«Когда-то армия США хотела использовать нейронные сети для автоматического обнаружения замаскированных вражеских танков. Исследователи обучили нейронную сеть на 50 фотографиях замаскированных танков на деревьях и 50 фотографиях деревьев без танков. Используя стандартные методы контролируемого обучения, исследователи обучили нейронную сеть взвешиванию, которое правильно загрузило обучающий набор - вывести «да» для 50 фотографий замаскированных танков и вывести «нет» для 50 фотографий леса. Это не гарантировало и даже не означало, что новые образцы будут классифицированы правильно. Нейронная сеть могла «выучить» 100 частных случаев, которые не распространялись бы на какую-либо новую проблему. Изначально исследователи сделали 200 фотографий, 100 фотографий танков и 100 фотографий деревьев. Они использовали только по 50 штук каждого из них для обучающей выборки. Исследователи запустили нейронную сеть на оставшихся 100 фотографиях, и без дальнейшего обучения нейронная сеть правильно классифицировала все оставшиеся фотографии. Успех подтвержден! Исследователи передали готовую работу Пентагону, который вскоре вернул ее обратно, пожаловавшись на то, что в их собственных тестах нейронная сеть показала не лучший результат, чем шанс различать фотографии.

Оказалось, что в наборе данных исследователей фотографии замаскированных танков были сделаны в пасмурные дни, а фотографии равнинного леса - в солнечные дни. Нейронная сеть научилась отличать пасмурные дни от солнечных, вместо того, чтобы отличать замаскированные танки от пустого леса ».

ImageNet

Фей-Фей Ли, которая была директором Стэнфордской лаборатории искусственного интеллекта, а также главным научным сотрудником отдела искусственного интеллекта / машинного обучения в Google Cloud, на раннем этапе осознала, что данные являются такой важной частью разработки алгоритмов машинного обучения, в то время как большая часть ее коллеги не верили в то же самое.

Ли понял, что для создания лучших алгоритмов и более производительных нейронных сетей необходимо больше и более качественных данных, и что лучшие алгоритмы не появятся без этих данных. В то время лучшие алгоритмы могли хорошо работать с данными, на которых они были обучены и протестированы, которые были очень ограничены и не отражали реальный мир. Она поняла, что для того, чтобы алгоритмы работали хорошо, данные должны соответствовать действительности. «Мы решили, что хотим сделать что-то совершенно исторически беспрецедентное», - сказала Ли, имея в виду небольшую команду, которая изначально работала с ней. «Мы собираемся нанести на карту весь мир объектов. . »

Чтобы решить эту проблему, Ли построил один из самых обширных наборов данных для глубокого обучения на сегодняшний день, ImageNet. Набор данных был создан, и документ с описанием работы был опубликован в 2009 году на одной из самых важных конференций по компьютерному зрению, компьютерному зрению и распознаванию образов (CVPR), в Майами, Флорида. Набор данных был очень полезен для исследователей, и из-за этого он становился все более и более известным, обеспечивая ориентир для одного из самых важных ежегодных соревнований по глубокому обучению, в ходе которого тестировались и обучались алгоритмы для идентификации объектов с наименьшим уровнем ошибок. ImageNet стал самым значительным набором данных в области компьютерного зрения в искусственном интеллекте. в течение десятилетия, а также помог повысить точность алгоритмов, классифицирующих объекты в реальном мире. Всего за семь лет точность классификации объектов на изображениях увеличилась с 72% до почти 98%, превзойдя возможности среднего человека.

Но ImageNet не стал тем мгновенным успехом, о котором многие думают. От Ли требовалось много пота, и это началось, когда она преподавала в Университете Иллинойса в Урбане-Шампейн. Она столкнулась с множеством проблем, которые разделяли многие другие исследователи. Большинство алгоритмов перетренировались для данных, которые им давали, что делало их неспособными к дальнейшим обобщениям. Проблема заключалась в том, что большая часть данных, представленных для этих алгоритмов, не содержала большого количества примеров, и поэтому модели, созданные на их основе, не могли хорошо обобщаться. В доступных наборах данных не было достаточно информации обо всех вариантах использования, чтобы они могли работать в реальном мире. Однако она пришла к выводу, что если она создаст набор данных, столь же сложный, как реальность, то модели должны работать лучше.

Легче идентифицировать собаку, если вы видите тысячу фотографий разных собак, под разными углами камеры и при разных условиях освещения, чем если вы видите только пять фотографий собаки. Фактически, это хорошо известное эмпирическое правило, согласно которому алгоритмы могут извлекать нужные характеристики из изображений, если существует около 1000 изображений для определенного типа объекта.

Ли начала искать другие попытки создать представление о реальном мире, и она наткнулась на проект WordNet, созданный профессором Джорджем Миллером. WordNet представлял собой набор данных с иерархической структурой английского языка. Он напоминал словарь, но вместо объяснения каждого слова имел отношение к другим словам. Например, слово «обезьяна» находится под словом «примат», то есть под словом «млекопитающее». Таким образом, набор данных содержал взаимосвязь всех слов среди других.

После изучения WordNet Ли встретился с профессором Кристиан Феллбаум, которая работала с Миллером над WordNet. Она подала Ли идею добавить изображение и связать его с каждым словом, создав новый иерархический набор данных на основе изображений, а не слов. Ли расширила идею - вместо того, чтобы добавлять одно изображение на слово, она добавляла много изображений на слово.

В качестве доцента в Принстоне она собрала команду, которая взялась за проект ImageNet. Первой идеей Ли было нанять студентов, чтобы они находили изображения и вручную добавляли их в ImageNet. Но она быстро поняла, что это станет слишком дорого и потребует слишком много времени для завершения проекта. По ее оценкам, на выполнение работы потребуется столетие, поэтому она изменила стратегию. Вместо этого она решила получить изображения из Интернета. Она могла написать алгоритмы для поиска картинок, и люди выбрали бы правильные. После нескольких месяцев работы над этой идеей она обнаружила, что проблема этой стратегии заключалась в том, что выбранные изображения были ограничены алгоритмами, которые выбирали изображения. Неожиданно решение пришло, когда Ли разговаривала с одним из своих аспирантов, который упомянул об услуге, с помощью которой люди в любой точке мира выполняют небольшие онлайн-задачи очень дешево. С помощью Amazon Mechanical Turk она нашла способ масштабирования, чтобы тысячи людей могли найти нужные изображения за небольшие деньги.

Amazon Mechanical Turk был решением, но проблема все еще существовала. Не все рабочие говорили на английском как на родном, поэтому возникли проблемы с конкретными изображениями и словами, связанными с ними. Этим удаленным работникам было труднее опознать некоторые слова. Более того, были такие слова, как «бабуин», о которых рабочие не знали точно, какие изображения представляют тип изображения. Итак, ее команда создала простой алгоритм, чтобы выяснить, сколько людей должны были смотреть на каждое изображение для данного слова. Более сложные слова, такие как «бабуин», требовали проверки большего числа людей, а более простые слова, такие как «кошка», требовали лишь нескольких человек, чтобы проверить эти изображения.

В случае с Mechanical Turk создание ImageNet заняло менее трех лет, что намного меньше, чем предполагалось при наличии только студентов. В результирующем наборе данных было около 3 миллионов изображений, разделенных примерно на 5000 «слов». Однако люди не были впечатлены ее статьей или набором данных, потому что они не верили, что все более точные данные приводят к лучшим алгоритмам. Но мнения большинства этих исследователей скоро изменились.

Задача ImageNet

Ли пришлось показать, что ее набор данных позволил улучшить алгоритмы, чтобы доказать ее точку зрения. Чтобы добиться этого, у нее была идея создать задачу на основе набора данных, чтобы показать, что алгоритмы, использующие его, будут работать лучше в целом. То есть ей пришлось заставить других обучать свои алгоритмы с ее набором данных, чтобы показать, что они действительно могут работать лучше, чем модели, которые не использовали ее набор данных.

В том же году, когда она опубликовала статью в CVPR, она обратилась к исследователю по имени Алекс Берг. Она предложила им совместно опубликовать документы, чтобы показать, что алгоритмы, использующие набор данных, могут определить, содержат ли изображения определенные объекты или животных и где они находятся. В 2010 и 2011 годах они работали вместе и опубликовали пять статей с использованием ImageNet. Первая статья стала эталоном того, как алгоритмы будут работать с этими изображениями. Чтобы сделать его эталоном для других алгоритмов, Ли обратился к одному из самых известных наборов данных и эталонных стандартов распознавания изображений, PASCAL VOC. Они согласились работать вместе и добавили ImageNet в качестве ориентира для своих конкурентов. В конкурсе использовался набор данных PASCAL, в котором было всего 20 классов изображений. В ImageNet для сравнения было около 5000 классов.

Как и предсказывал Ли, алгоритмы работали все лучше и лучше по мере продолжения соревнований, например, когда они тренировались с использованием набора данных ImageNet. Исследователи узнали, что алгоритмы стали лучше работать с другими наборами данных, когда модели сначала обучались с помощью ImageNet, а затем настраивались для другой задачи.

В 2012 году произошел крупный прорыв. Отец Deep Learning, Джеффри Хинтон, вместе с Ильей Суцкевер и Алексом Крижевским представил архитектуру глубокой сверточной нейронной сети под названием AlexNet, которая до сих пор используется в исследованиях, «которая превзошла эту область с колоссальным отрывом в 10,8%». Это ознаменовало начало бума глубокого обучения, которого не было бы без ImageNet.

ImageNet стал базой данных революции глубокого обучения, в частности сверточных нейронных сетей (CNN) во главе с Хинтоном. ImageNet не только возглавил революцию в области глубокого обучения, но и создал прецедент для других наборов данных. С момента его создания были введены десятки новых наборов данных с более обширными данными и более точной классификацией. Теперь они позволяют исследователям создать лучшую модель. Не только это, но и исследовательские лаборатории сосредоточились на выпуске и поддержке новых наборов данных для других областей, таких как перевод текстов и медицинских данных.

В 2015 году Google выпустила новую сверточную нейронную сеть под названием Inception или GoogleNet. Он содержал меньше слоев, чем самые эффективные нейронные сети, но работал лучше. Вместо добавления одного фильтра для каждого слоя Google добавил начальный модуль, который включает несколько фильтров, работающих параллельно. Это еще раз показало, что архитектура нейронных сетей важна.

ImageNet считается решенным, так как частота ошибок ниже, чем у среднего человека, и достигается сверхчеловеческая производительность при определении того, содержит ли изображение объект и что это за объект. Спустя почти десять лет конкуренция с ImageNet закончилась обучением и тестированием моделей на нем. Ли попытался удалить набор данных из Интернета, но крупные компании, такие как Facebook, отказались, поскольку использовали его в качестве эталона.

Но после окончания конкурса ImageNet было создано множество других наборов данных на основе миллионов изображений, голосовых клипов и текстовых фрагментов, вводимых и публикуемых на их платформах каждый день. Иногда люди считают само собой разумеющимся, что эти наборы данных, которые сложно собрать, собрать и проверить, бесплатны. Открытость и бесплатное использование было изначальным принципом ImageNet, который переживет трудности и, вероятно, даже набор данных. «Одна вещь, которую ImageNet изменила в области ИИ, - это то, что люди внезапно осознали, что неблагодарная работа по созданию набора данных лежит в основе исследований ИИ», - сказал Ли. «Люди действительно осознают важность набора данных, который находится в центре исследования в такой же степени, как и алгоритмы».