Pinterest, Microsoft и почему искусственный интеллект хочет быть открытым

Около трех с половиной лет назад я написал для Gigaom пост с таким заголовком: Мы находимся на пороге глубокого обучения для масс. Вы можете поблагодарить Google позже . Глубокое обучение - техника, лежащая в основе сегодняшней AI-мании - только начинало приобретать некоторую известность в технических кругах (фактически, это было за 4 месяца до того, как Facebook запустил свою лабораторию AI), и то, что сделал Google, было открытым исходным кодом для анализа текста. инструмент под названием word2vec .

В то время эксперт по машинному обучению Джереми Ховард сказал мне: Это действительно, очень, очень большое дело. … Это позволит создать совершенно новые классы продуктов, которых раньше никогда не было .

Он не мог быть более правым, и я (и он, я полагаю) в целом чувствовал себя оправданным за последние пару лет, наблюдая за тем, как глубокое обучение молчаливо подкрепляет повальное увлечение потребительским ИИ. (И, да, успехи в медицинских исследованиях и во многих других областях.)

Вчера я почувствовал определенное чувство оправдания, прочитав о том, как Pinterest построил систему на основе глубокого обучения, вдохновленную word2vec, для рекомендации связанных пинов. Если смотреть без контекста, работа Pinterest довольно обыденна (никто не останавливал надавливания на лучшие предложения контактов), но на самом деле это самая лучшая часть в ней. Глубокое обучение, которое когда-то было уделом самых умных компьютерных ученых мира, теперь настолько распространено, что его использование в широко используемых продуктах не особенно заметно.

Это связано с тем, что, как оказалось, word2vec был только началом длинной череды инструментов, наборов данных и систем глубокого обучения с открытым исходным кодом, появившихся за последние пару лет. Например, Pinterest также использует технологию Google с открытым исходным кодом TensorFlow. Facebook, Microsoft, Baidu и Amazon также имеют инструменты глубокого обучения с открытым исходным кодом, и есть проект OpenAI, название которого говорит само за себя. (Этот список, кстати, не является исчерпывающим, даже в отношении того, чему компании в нем способствуют.)

И во многих случаях это не просто дампы открытого исходного кода, а, скорее, полностью сформированные и относительно простые в использовании фреймворки. У TensorFlow почти 43 000 звезд на GitHub, что много, если вам интересно. Есть даже по крайней мере один стартап по глубокому обучению с открытым исходным кодом, Skymind, который пытается донести глубокое обучение до корпоративных пользователей с помощью своего проекта deeplearning4j. (Хотя, помимо прочего, вся эта качественная деятельность с открытым исходным кодом со стороны таких компаний, как Google и Facebook, возможно, мешает стартапам получать общественное мнение.)

Даже когда работа технически не является открытым исходным кодом, большая часть ее все еще выполняется в открытом виде. Сегодня, например, Microsoft объявила о приобретении стартапа по ИИ под названием Maluuba, который выполняет очень интересную работу в области общего искусственного интеллекта. Хотя у компании нет продукта как такового, на ее веб-сайте есть доступ к открытым наборам данных и длинному списку исследовательских публикаций.

На самом деле, если вы ищете в свободном доступе исследовательские работы по глубокому обучению или другим методам искусственного интеллекта, удачи. Не в их поиске, а в анализе тысяч, опубликованных за последние несколько лет. (Кстати, arXiv - хорошее место для начала.)

Подпишитесь на рассылку новостей ArchiTECHt для получения ежедневных новостей и анализа! Хотите спонсировать информационный бюллетень или подкаст? Электронная почта [email protected].

Сторонники открытого исходного кода давно утверждают, что открытость стимулирует инновации, и искусственный интеллект является окончательным доказательством этого. Помимо растущего числа проектов с открытым исходным кодом, каждый крупный поставщик облачных услуг теперь предлагает свой собственный набор готовых инструментов искусственного интеллекта и API-интерфейсов для всего, от конкретных функций, таких как распознавание голоса, до обучения универсальным моделям. Мы находимся там, где мы находимся сегодня, с ИИ (в той или иной форме) проникающим во все аспекты нашей жизни и бизнеса из-за эффекта маховика, который может произвести открытый исходный код.

Если в 2013 году мы и ошибались в том, насколько большим событием может стать выпуск word2vec, то это, вероятно, время. Я спросил Ховарда, сколько времени пройдет, прежде чем глубокое обучение станет доступным даже для относительно неискушенных пользователей. Он сказал, может быть, лет 10, но, возможно, мы уже там.