Определите некоторую цель, а затем позвольте группе алгоритмов соревноваться друг с другом, смешивая и уточняя характеристики наиболее успешных из их предшественников, а иногда и внедряя новые подходы. Я, конечно, говорю о соревнованиях по машинному обучению. Они довольно распространены в современной исследовательской и коммерческой среде, но чем они хороши и что о них нужно знать? Я здесь, чтобы задать некоторые из этих вопросов и, возможно, по ходу дать несколько ответов.

Хотя смешивать метафоры в дисциплине, которая уже перегружает свою терминологию разной степенью детализации и уровня описания, может ввести в заблуждение, я обратился к сути генетических алгоритмов, чтобы убедить людей в том, что наблюдаемая любая повторяющаяся конкуренция - это метрика, по которой оцениваются участники. со временем оптимизируется. Я также хотел получить представление о разнообразии и его связи с процессом стимулированного отбора, таким как конкуренция, которая запечатлелась в нашем сознании.

Теперь кажется довольно очевидным сказать, что конкуренты будут показывать улучшающиеся результаты с каждой итерацией конкурса, но это важная идея и более тонкая, чем кажется на первый взгляд. Как мы увидим, соревнования по машинному обучению не однозначно хороши для прогресса и инноваций, и многое из того, что определяет, какое влияние они окажут, - это то, насколько хорошо их цели совпадают и могут быть обобщены на полезные вещи в реальном мире.

Во всяком случае, я хотел бы открыть с помощью этого обсуждения более тонкую перспективу того, что происходит в процессе. Я думаю, мы увидим, что прогресс и инновации - это не машины, а сугубо человеческая деятельность. Я хочу начать раскрывать эту человечность.

Это обсуждение в некотором смысле является развернутым ответом на вопрос для упражнений, поставленный Питером Норвигом и Стюартом Расселом в их основополагающем тексте Искусственный интеллект: современный подход. Я буду заимствовать их идеи и многие другие выдающиеся деятели в области искусственного интеллекта и машинного обучения. Далее я хочу кратко коснуться некоторых исторических соревнований и их влияния, затем проанализировать несколько современных соревнований и, наконец, обобщить некоторые из моих собственных реакций и мыслей на то, что я узнал. Конечно, я приветствую любые идеи, возражения или комментарии от каждого читателя.

Фон

В наши дни, благодаря таким платформам, как Kaggle и DrivenData, конкурсы, в которых люди приглашаются на поиск технических решений научных и инженерных проблем, больше не являются эксклюзивным занятием для исследователей. Обсуждение соревнований Kaggle и их преимуществ и недостатков для участников, корпораций, исследовательского сообщества и других лиц само по себе является вопросом большой глубины. Я не буду добавлять к этому диалогу, кроме как заметить, что такого рода коммерческие соревнования часто сосредотачиваются вокруг новых вариантов использования, которые могут быть адекватно решены с помощью текущих идей и, таким образом, имеют тенденцию соответствовать полезному результату, но не вдохновляют исследуйте или обнаруживайте дыры в текущем понимании.

Я сосредоточусь на соревнованиях, которые разработаны и организованы для дальнейшего развития исследований в области искусственного интеллекта и машинного обучения. Чтобы начать критически относиться к Kaggle (в конкретном свете того, как он может принести пользу начинающим практикам), я рекомендую прочитать эту статью, а затем вернуться к тому, что было написано в ответ, если вы сочтете это интересным. В любом случае, я думаю, что рост платформ для соревнований показал, что соревнования, призванные стимулировать инновации, могут быть доведены до более широкого сообщества, и то, что в настоящее время не многие соревнования ориентированы на исследования, не означает, что они не могут или будет не так много в будущем.

Кроме того, коммерчески мотивированные конкурсы могут укрепить и дополнить теорию, как это было в случае с Netflix Prize, который проводился с 2006 по 2009 год. Этот конкурс определенно сыграл свою роль в освещении проблем и подходов. и соображения по внедрению рекомендательных систем. В этом случае постановка актуальной проблемы в правильное время, с учетом состояния человеческого интереса и знаний, помогла добиться критического прогресса, которому очень помог масштаб.

Конечно, я был бы упущен, если бы не упомянул Крупномасштабный вызов по визуальному распознаванию ImageNet. Этот конкурс оказал очень большое измеримое влияние: более 4800 результатов для ILSVRC в Google Scholar, и около половины из этих статей были опубликованы с 2017 года. Именно в этом конкурсе с использованием набора данных ImageNet Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон первыми использовали глубокие сверточные нейронные сети, чтобы полностью разрушить предыдущее состояние техники, способствуя появлению глубокого обучения с помощью своей знаменательной статьи.

В 2014 году Андрей Карпаты помог людям более системно задуматься о том, что такое« человеческое исполнение». Если вы возьмете Специализацию по глубокому обучению Эндрю Нга на Coursera, которую я настоятельно рекомендую, вы увидите, что идея о человеческих возможностях и, возможно, более актуальная идея измерения производительности систем машинного обучения систематическими и действенными способами, очень подчеркивается. . В последние годы ImageNet идея превзойти человеческую производительность в задаче восприятия перешла от фантазии к возможности и реальности, и я думаю, что было важно, чтобы кто-то вроде Карпати потратил время и усилия, чтобы четко определить это и получить сообщество думает о последствиях.

В последний раз ILSVRC проводился в 2017 году. К тому времени его цель (точность / топ-5 точности) была в значительной степени максимизирована, а интерес к компьютерному зрению уже был на таком уровне, что весьма вероятно, что конкурс не вдохновил новых идеи настолько, насколько они отслеживаются и вознаграждаются. Для меня ILSVRC представляет собой убедительный пример соревнования, которое привлекло внимание и талант к проблеме и завершилось до того, как она перестала быть актуальной. Конечно, некоторые могут подумать, что даже в 2017 году истек срок годности на несколько лет.

Сообщество машинного обучения, возможно, больше, чем другие исследовательские сообщества, замечательно осознает тот факт, что наборы данных со временем устареют. Это, вероятно, отчасти связано с тем, что при работе с алгоритмами машинного обучения переоснащение и включение удерживаемых данных в обучающие данные посредством настройки гиперпараметров является повседневной реальностью. Хотя соревнования немного отличаются от эталонных наборов данных, их можно рассматривать одинаково, особенно если они используют постоянный набор данных. Я с оптимизмом смотрю на сообщество машинного обучения и его способность уйти от соревнований, которые больше не являются полезными или актуальными.

Примеры

Далее я кратко рассмотрю небольшую подборку соревнований по машинному обучению, их цели и результаты. Я взял эти примеры из обширных разделов, о которых часто узнают при знакомстве с машинным обучением - обучение с учителем, обучение без учителя и обучение с подкреплением. Я делаю это не потому, что считаю, что эти термины представляют что-то на фундаментальном уровне, или потому, что я действительно думаю, что соревнования могут быть полностью охарактеризованы ими, а потому, что я думаю, что эти несколько вольные категории являются хорошими опорными точками для того, кто сталкивается с вопросом что им интересно.

Помня об этом, я призываю вас исследовать соревнования, которые привлекают ваше внимание, и, что более важно, совокупность знаний, лежащих в основе каждого. Пусть любопытство будет вашим проводником!

Тест поставщика распознавания лиц NIST

ФРВТ стартовал в феврале 2017 года и на данный момент имеет только один трек - верификацию лица. В последнем отчете FRVT были представлены результаты 54 алгоритмов. На данный момент список лидеров возглавляет китайский стартап по распознаванию лиц Megvii, также известный как Face ++. Также в таблице лидеров другие стартапы, такие как VisionLabs, более крупные корпорации, такие как Toshiba, и команда из Университета Фудань.

Широкомасштабное распознавание лиц начинает вызывать большой коммерческий интерес. Неудивительно, что многие команды в таблице лидеров NIST - из Китая. Есть множество статей, в которых обсуждается состояние китайского распознавания лиц и источники их преимуществ, такие как большие наборы данных и меньшее количество ограничений конфиденциальности, но вот один из Washington Post, чтобы вы начали. Эндрю Нг также посвящает часть своего курса распознаванию лиц (вот лекция о сиамских сетях). Итак, очевидно, что задача NIST актуальна для текущих интересов.

Менее ясно, будет ли проблема иметь большое влияние на продвижение вперед. Многие из тех, кто борется за первые места в конкурсе, являются либо финансируемыми стартапами, либо компаниями, разрабатывающими продукты для распознавания лиц. Это показывает, что интерес к распознаванию лиц был уже значительным, когда началось соревнование. Однако не следует упускать из виду потенциальную выгоду от предоставления этим стартапам и лабораториям платформы для конкуренции друг с другом. Кроме того, поскольку многие из конкурентов являются коммерческими корпорациями, их исследователи вряд ли упустят из виду реальные приложения того, что позволит добиться максимальной цели конкуренции.

Приз Хаттера

Приз Хаттера или приз в 50 000 евро за сжатие человеческих знаний - это не столько периодический конкурс, сколько постоянный вызов. Я включаю это как соревнование, имеющее отношение к обучению без учителя, но на самом деле это чрезвычайно открытое мероприятие. Их цель, сжатие 100 МБ знаний Википедии, легко измерить, и она основана на предположении, что лучшие алгоритмы сжатия и распаковки станут путем к общему искусственному интеллекту. По их словам:

Если вы можете сжать первые 100 МБ Википедии лучше, чем ваши предшественники, ваш (де) компрессор, вероятно, должен быть умным (э).

Во многом это следует из идей Маркуса Хаттера. Независимо от того, в какой степени вы в это верите, это хорошая перспектива того, как возможность лучшего моделирования внутренней структуры некоторых данных связана с возможностью разумного использования этих данных.

Таблица лидеров для этого приза довольно одинока. Александр Ратушняк последние 4 раза становился лауреатом призов за улучшение предыдущих результатов в 2006, 2007, 2009 и 2017 годах.

По мере роста интереса к неконтролируемому и репрезентативному обучению (это одна из тем исследования Йошуа Бенжио, если это мотивирует кого-то также заинтересоваться), я предполагаю, что теорию информации и сжатие данных могут изучать практики так же, как линейную алгебру и исчисление сейчас есть.

На мой взгляд, премия Хаттера вызвала меньший интерес, чем могла бы - возможно, люди не согласны с соответствием между сжатием и интеллектом, или, может быть, прогресс в алгоритмах сжатия не документируется, а результаты выводятся так, как те, кто находится в машине. пул талантов в области обучения поощряется к тому, чтобы попробовать - но это также означает, что это, вероятно, не сужает фокус исследователей и не уводит их от изучения других направлений открытий. Это соревнование, которое пока не выполняет своих обещаний, но также не действует как опасность или отвлекающий маневр.

Общий конкурс видеоигр AI

GVG-AI проводится на различных конференциях с 2014 года и спонсируется DeepMind, что соответствует идее использования игр в качестве испытательной площадки для разработки AGI, как их modus operandi. В 2018 году есть несколько треков: планирование для одного игрока, планирование для двух игроков, создание правил и создание уровней.

Конкурс стимулировал приличное количество исследовательских работ, из которых 18 перечислено на самом сайте и более 130 результатов по запросу Google Scholar GVGAI. Хотя я не могу быть полностью уверен, похоже, что в таблице лидеров есть большая популяция любителей или, по крайней мере, не исследователей. Великобритания и Германия показывают хорошие результаты, многие команды связаны с этими странами.

GVG-AI - это пример конкурса, целью которого является привлечение исследовательских талантов. Он открыто продвигает Магистр компьютерных игр Университета Эссекса и Программу PhD Центра интеллектуальных игр и игрового интеллекта.

Люди, изучающие аспекты ИИ, склонны соглашаться с тем, что игры полезны, отчасти потому, что они позволяют ослабить некоторые из трудностей реальной жизни: частичную наблюдаемость, стохастичность, многоагентность ... Однако существует целый спектр мнений о том, насколько сложно это будет сокращение разрыва, при этом некоторые люди подчеркивают необходимость тестирования в более общих средах больше, чем другие. Отрывки из интервью в последних параграфах этой статьи прекрасно это иллюстрируют.

Обсуждение

Я надеюсь, что благодаря введению в небольшую горстку соревнований, имеющих отношение к машинному обучению, я немного уловил суть того, какие виды соревнований могут существовать, почему они существуют и что они могут поощрять или препятствовать. К настоящему времени ясно, что способ проведения конкурса, его маркетинг и публикация результатов влияют на то, какое влияние оно будет иметь. Мы размышляли над тем фактом, что неуклонное улучшение результатов в соревновании может не отражать его причинный эффект в их создании - старая неэквивалентность корреляции / причинно-следственной связи - и узнали, что время, когда соревнование начинается и прекращается, заслуживает внимания. предельное внимание.

Вопрос о том, действительно ли конкретное соревнование выделяет упущенную из виду область, созревшую для открытий, или направляет чрезмерное количество таланта или внимания, является сложным и должен оцениваться в каждом конкретном случае с учетом этих вопросов времени. актуальность объективной меры и человеческих стимулов, мотивирующих конкуренцию.

Одним из последствий соревнований, которые также имеют место в отношении канонических наборов данных, является то, что эмпирические результаты становятся более заметными. Становится обычным направлять исследования и публиковать их вокруг небольших усовершенствований, которые позволяют достичь превосходных результатов, иногда без хорошо разработанного теоретического обоснования. В то же время уменьшается терпимость к теории, не подкрепленной результатами. Сара Сабур, Николас Фросст и Джеффри Хинтон должны были указать в своей Капсульной статье 2017, что точность их сети на MNIST была сравнима с ранними результатами ConvNet, до того как большие объемы инженерии еще раз улучшили производительность набора данных.

Независимо от того, как они соотносят теоретический и эмпирический вклады друг с другом, все же поучительно признать, что соревнования оказывают своего рода давление отбора, поощряя тактику, которая поднимается в таблице лидеров и потенциально препятствует исследованию. Или, если я позволю себе ввести более потенциально сбивающие с толку аналогии на разных уровнях описания и в разных дисциплинах, конкурирующие человеческие агенты могут прийти в состояние равновесия, в котором никого не побуждают сильно отклоняться от своего текущего подхода, его уточнений и дальнейших итераций.

В игре есть что-то, напоминающее дилемму «исследовать / эксплуатировать», и независимо от того, какие чувства к ней испытывает человек, хорошо осознавать это. Возможно, удивительно, но именно соревнования с более явными ограничениями могут в конечном итоге стимулировать новые подходы или стимулировать активность в субдисциплинах, которым ранее уделялось мало внимания.

Выходя за рамки собственного философствования, я хотел бы в заключение просто отметить, что сейчас прекрасное и захватывающее время для работы с машинным обучением. Постоянно появляются новые соревнования, и, хотя некоторые из них могут быть более актуальными и влиятельными, чем другие, нельзя отрицать, что исследовательская среда процветает и вдохновляет, приветствует любителей и практиков и очень быстро движется вперед.

В конце концов, я не могу не чувствовать благодарность.