Маркировка данных - секретное оружие Китая в битве подключенных автомобилей

Это буквально гонка вооружений.

«Все, что вы сейчас видите - все эти подвиги искусственного интеллекта, такие как беспилотные автомобили, интерпретация медицинских изображений, победа над чемпионом мира в го и так далее - это очень узкий интеллект, и он действительно обучен для конкретной цели. Это ситуации, когда мы можем собрать много данных ».

Об этом сообщил руководитель отдела исследований искусственного интеллекта Facebook Ян Лекун.

Эти слова подчеркивают тот факт, что за недавним расцветом блестящих продуктов ИИ кроется гораздо более банальная человеческая реальность.

Мировые технологические гиганты часто полагаются на большие группы людей, чтобы маркировать данные, которые будут использоваться для обучения их алгоритмов машинного обучения.

«Маркировка данных» означает просто набор данных без маркировки (например, стенограмму телефонного разговора или изображение улицы) и добавление информативных описательных тегов к отдельным элементам, таким как слово или автомобиль.

Чтобы помочь обучить систему обработки естественного языка, специалисты по маркировке данных могут добавлять теги, чтобы, например, показать, что означает определенное слово в разных контекстах.

Хотя такие оценки всегда будут общими и сводными, типы науки о данных помогли разбить распределение времени в проектах машинного обучения следующим образом:

Если в алгоритм машинного обучения подается большой объем точно размеченных обучающих данных, его можно использовать в «реальном мире» для задач, включая компьютерное зрение в беспилотных автомобилях.

Маркировка данных занимает много времени и является важной задачей, особенно когда данные будут использоваться для обучения автономного автомобиля. Допустимая погрешность очень мала, я уверен, что мы все согласимся.

Несмотря на все свои достижения, ИИ по-прежнему настолько искусственен, насколько предполагает его прозвище.

Алгоритмы машинного обучения не обучаются так же, как люди. Некоторые ученые пытаются научить ИИ учиться, как ребенок (статья в Science Mag - хороший учебник), но эти усилия все еще находятся на начальной стадии.

Время от времени мы получаем резкие напоминания об этом факте с помощью таких трюков, как незначительные модификации уличных знаков, которые полностью сбивали с толку системы компьютерного зрения, как показано ниже:

Понятно, что мы видим, когда смотрим на этот испорченный знак СТОП, но классификатор нейронной сети решил, что это знак «Ограничение скорости 100» почти в 100% тестов.

Итак, в нынешнем виде машинному обучению нужны хорошие данные, и самый надежный способ получить их - это платить людям за то, чтобы они сидели и комментировали изображения весь день.

Чем больше у вас людей, тем больше данных вы можете пометить.

Это гонка вооружений, но не в том виде, в каком мы ее знаем.

В Китае говорят об экономической модели Qiandian Houchang - буквально «передний цех, задняя фабрика». Часто это используется, чтобы помочь с разделением труда, капитала и ресурсов в цепочке поставок.

Китай девальвировал свою валюту в прошлом (особенно в 1980-х и 1990-х годах), чтобы удешевить свой экспорт в зарубежные страны и стимулировать инвестиции в предприятия, производящие товары массового потребления. Это также сделало импорт более дорогим для китайских компаний, что побудило их покупать оборудование на месте.

По сути, Китай - это фабрика позади, а Запад - витрина в этом сценарии.

Теперь амбиции Китая выросли с этого периода (а также из-за него) до такой степени, что китайские компании хотят «вскочить» по цепочке создания стоимости и поддерживать отношения с клиентами, а также создавать продукты.

Зачем это упоминать? Что ж, модель Qiandian Houchang все еще господствует. Отличие современного Китая в том, что роботы впереди, а люди сзади.

Люди усердно трудятся, чтобы китайские автомобили, цифровые помощники и роботы в магазинах процветали. В идеальном мире Китай будет экспортировать продукт высшего качества в остальной мир.

Это немного напоминает «механического турка» 18 века, того игрового автомата, который поразил игроков и оказался марионеткой, управляемой крохотным человечком в потайном отсеке внизу.

Я упоминаю этот конкретный пример не зря, хотите верьте, хотите нет. Amazon приняла весьма убедительное решение назвать свою рабочую платформу, созданную на основе краудсорсинга, Amazon Mechanical Turk в шутливой отсылке к очаровательному канцлеру прошлого.

В 17 веке «компьютеры» были людьми, которые могли выполнять арифметические вычисления. В середине 20-го века компьютеры все еще были людьми (в основном женщинами), которые выполняли вычисления в компаниях. Лишь позже компьютеры стали программируемыми и цифровыми, и мы обучаем их до сих пор.

Каждый день мы все являемся частью одной и той же динамики. Мы используем эти формы CAPTCHA, чтобы «доказать», что мы люди, а данные используются, чтобы сделать машины умнее.

Можно было бы удивиться тому, насколько много ручного обучения ИИ все еще проводится сегодня, хотя мы действительно иногда можем заглядывать за занавес.

В прошлом году Apple, Google, Amazon и Facebook были вынуждены извиниться за то, что их поймали на экспорте пользовательских данных и передаче их третьим лицам.

Эти технологические гиганты предоставляют информацию, такую как разговоры пользователей с цифровыми помощниками, компаниям, занимающимся аннотацией данных, для повышения точности их систем искусственного интеллекта.

На момент публикации никто не нашел точного и экономичного способа заменить роль этикетировщиков-людей.

Итак, вернемся в Китай.

Сельские районы страны, такие как Гуйчжоу, теперь являются домом для огромных фабрик по аннотации данных.

Для местных это соблазнительная профессия; средняя зарплата в 3000 юаней (425 долларов) в месяц в три раза превышает среднюю зарплату в этом районе. Объем производства в Гуйчжоу в прошлом году вырос на 10,2%, что сделало его самой быстрорастущей провинцией страны.

Конечно, эта «гонка вооружений» между технологическими компаниями - это не просто увеличение числа людей, выполняющих часть процесса маркировки.

Тем не менее, это хорошее начало.

Как сказал владелец одной компании по маркировке данных в Гуйчжоу в интервью газете NY Times:

«Мы строители в цифровом мире. Наша работа - класть один кирпич за другим. Но мы играем важную роль в искусственном интеллекте. Без нас они не могут построить небоскребы ».

Хорошо известные продукты, такие как визуальный поиск Taobao (обсуждаемый недавно в этом информационном бюллетене), обучаются на данных, помеченных на складах Alibaba в этих сельских районах.

Со своей стороны, Tencent работает над этим гигантским бункером для хранения, обработки и анализа пользовательских данных из своего всегда популярного приложения WeChat:

Конечно, Китай часто пользовался большей рабочей силой, чем другие страны.

Она также отстала от США в ряде ключевых технологических областей и ведет непрекращающуюся битву с администрацией Трампа.

США передают этот ручной труд на аутсорсинг по ряду причин. Во-первых, создание таких предприятий, обучение рабочей силы и последующая выплата им досадной минимальной заработной платы обходятся дорого. Намного проще отправить работу куда-нибудь подешевле, особенно если готовый продукт (много помеченных данных) выглядит одинаково в любом случае.

Возможно, Китаю удастся превратить свои былые слабости в сильные. Сельские районы, такие как Гуйчжоу, остаются слаборазвитыми; компании, занимающиеся маркировкой данных, приносят столь необходимые рабочие места и относительно высокие зарплаты. Эти зарплаты бледнеют по сравнению с зарплатами, предлагаемыми в крупных городах, таких как Пекин, что дает дополнительные преимущества и технологическим компаниям.

Китай вообще пропустил несколько поколений технологического развития, что дало ему фору в следующих важных делах. Бесконтактные кредитные карты там так и не стали популярными, и они перешли на платежи через смартфоны. На Западе стимул к переходу от бесконтактной карты к оплате с помощью смартфона гораздо менее привлекателен.

То же самое и с автономными автомобилями; Китайские компании переключили свое внимание на создание беспилотных машин после того, как не смогли серьезно повлиять на глобальный рынок автомобилей, пилотируемых людьми.

Этот последний этап в развитии Китая действительно представляет угрозу для американских технологических гигантов, только если китайские ученые научатся разрабатывать более сложные микропроцессоры в процессе.

Как The Economist сообщил на этой неделе, Китай все еще догоняет важнейшую отрасль, чей оборот к 2022 году составит 575 миллиардов долларов.

Хотя маркировка данных может показаться мрачной, монотонной задачей, имеющей только одну полезную цель, она также играет определенную роль на этом макроуровне.

Взяв на себя ответственность за цепочку поставок машинного обучения от начала до конца, китайские ученые в области искусственного интеллекта остаются близкими к внутренней работе этих сложных, иногда непрозрачных систем.

Огромная численность китайской рабочей силы будет играть жизненно важную роль в развитии драгоценного товара интеллектуальной собственности.

Маркировка данных - секретное оружие Китая в битве подключенных автомобилей

Маркировка данных - секретное оружие Китая в битве подключенных автомобилей

Это буквально гонка вооружений.

Вопросы по теме