Данные - не новая нефть. Творчество есть.

В 2006 году Клайв Хамби придумал фразу «данные - новая нефть».

И он был прав, потому что примерно в 2012 году в машинном обучении произошел ряд крупных прорывов, благодаря которым его использование из глубин исследовательской лаборатории стало повсеместным. Сегодня стоимость бизнеса, получаемого с помощью ИИ, достигла 1,2 триллиона долларов во всем мире и должна вырасти до 3,9 триллиона долларов к 2022 году (Gartner).

При чем тут данные? Что ж, модели машинного обучения - это механизмы прогнозирования. И они делают прогнозы, основываясь на том, что видели раньше. Чем больше данных они увидят, тем точнее прогноз. Следовательно, вам нужно много данных для обучения модели с нуля, которая хорошо работает.

Чем больше у вас служебных данных (а это полезно), тем больше конкурентное преимущество. Поэтому логично, что мы «маркируем» (шутка ML…) данные как новое масло.

Но чего я определенно не ожидал, так это того, насколько сообщество ИИ готово поделиться кодом и высококачественными, маркированными наборами данных!

В 2010 году была выпущена первая версия набора данных ImageNet. ImageNet содержит более 14 миллионов аннотированных от руки изображений более чем 20 000 категорий.

В 2017 году был опубликован набор данных под названием EMNIST. Он содержит 280 000 изображений рукописных цифр и символов.

А согласно их блогу, в сентябре 2019 года Amazon выпустит набор данных под названием Topical Chat. Этот набор данных будет содержать более 210 000 высказываний (более 4 100 000 слов), полученных из разговоров, собранных Alexa.

Еще более захватывающим является наличие предварительно обученных моделей машинного обучения. Это означает, что практически вся основная работа была сделана за вас. Например, в 2018 году Google выпустила предварительно обученную модель НЛП под названием BERT (двунаправленные представления кодировщика от трансформаторов). BERT обучен обращению с 3 300 миллионами слов - все, что вам нужно сделать, это тренироваться с небольшим объемом данных в зависимости от поставленной задачи.

Так что благодаря открытому сообществу ИИ внезапно стало не так сложно получить высококачественные данные. Но если у всех нас есть одни и те же предварительно обученные модели и наборы данных, куда делось конкурентное преимущество?

Креативность скоро станет конкурентным преимуществом и «новой нефтью» революции искусственного интеллекта.

Как говорит Фай-Ли в своей книге Сверхспособности искусственного интеллекта, мы переходим от фазы исследования к Эпохе реализации.

«Пионер глубокого обучения Эндрю Нг сравнил искусственный интеллект с использованием электричества Томасом Эдисоном: это прорывная технология сама по себе, и та, которая однажды использовалась, может быть применена для революции в десятках отраслей». (Сверхспособности ИИ, Кай-Фу Ли)

Скорость новых достижений в области искусственного интеллекта замедлится, и инновации будут заключаться в применении этой технологии.

Нововведение будет исходить от креативщиков, которые:

Поймите проблемы, которые необходимо (и можно) решить.
Узнайте, какие существуют модели машинного обучения и их приложения.
И, наконец, понять, как один или несколько из этих элементов, соединенных вместе, могут образовать продукт или услугу, которые решают проблему.

В настоящее время в R / GA мы с командой работаем над продуктом, который призван помочь читателям новостей получить доступ к множеству различных точек зрения журналистов.

Решение использует НЛП, чтобы узнать, что в новостях в тренде, как большинство журналистов говорят на эти темы, а затем найти разных журналистов, которые высказывают альтернативную точку зрения.

Непростая задача, если разбить ее на части.

Вот необходимые нам модели:

Тематическая модель: для поиска актуальных новостных тем
Вектор слова: чтобы понять, о чем каждый журналист говорит по этой теме
Модель настроения: чтобы понять, как каждый журналист говорит об определенных словах, будь то положительные, отрицательные или нейтральные

Для построения каждой из этих моделей с нуля потребуется огромное количество данных. Но доступны различные предварительно обученные модели каждой из этих моделей.

Пример тематической модели: Пакет тематической модели МОЛЛЕТ

Пример векторной модели Word: Word2Vec

Пример модели настроений: Stanford CoreNLP

Примечание. Выбор модели для использования - довольно сложный (и творческий!) процесс, требующий значительных усилий для исследований и разработок.

Каждая из моделей по отдельности ОЧЕНЬ крутая, но ОЧЕНЬ ОЧЕНЬ круто, когда вы видите, как все они работают вместе и - скрестив пальцы - помогают внести больше разнообразия в основные СМИ. Скоро запуск!

Поэтому, если ваша стратегия искусственного интеллекта состоит только из найма инженеров по обработке данных и сбора данных - вы делаете это неправильно. Вам следует искать креативщиков, которые в сотрудничестве с инженерами по обработке данных превратят прорывы в области машинного обучения в продукты и услуги, которые изменят мир.

И если вы один из таких креативщиков, свяжитесь с нами!

Данные - не новая нефть. Творчество есть.

Вопросы по теме