В 2006 году Клайв Хамби придумал фразу «данные - новая нефть».
И он был прав, потому что примерно в 2012 году в машинном обучении произошел ряд крупных прорывов, благодаря которым его использование из глубин исследовательской лаборатории стало повсеместным. Сегодня стоимость бизнеса, получаемого с помощью ИИ, достигла 1,2 триллиона долларов во всем мире и должна вырасти до 3,9 триллиона долларов к 2022 году (Gartner).
При чем тут данные? Что ж, модели машинного обучения - это механизмы прогнозирования. И они делают прогнозы, основываясь на том, что видели раньше. Чем больше данных они увидят, тем точнее прогноз. Следовательно, вам нужно много данных для обучения модели с нуля, которая хорошо работает.
Чем больше у вас служебных данных (а это полезно), тем больше конкурентное преимущество. Поэтому логично, что мы «маркируем» (шутка ML…) данные как новое масло.
Но чего я определенно не ожидал, так это того, насколько сообщество ИИ готово поделиться кодом и высококачественными, маркированными наборами данных!
В 2010 году была выпущена первая версия набора данных ImageNet. ImageNet содержит более 14 миллионов аннотированных от руки изображений более чем 20 000 категорий.
В 2017 году был опубликован набор данных под названием EMNIST. Он содержит 280 000 изображений рукописных цифр и символов.
А согласно их блогу, в сентябре 2019 года Amazon выпустит набор данных под названием Topical Chat. Этот набор данных будет содержать более 210 000 высказываний (более 4 100 000 слов), полученных из разговоров, собранных Alexa.
Еще более захватывающим является наличие предварительно обученных моделей машинного обучения. Это означает, что практически вся основная работа была сделана за вас. Например, в 2018 году Google выпустила предварительно обученную модель НЛП под названием BERT (двунаправленные представления кодировщика от трансформаторов). BERT обучен обращению с 3 300 миллионами слов - все, что вам нужно сделать, это тренироваться с небольшим объемом данных в зависимости от поставленной задачи.
Так что благодаря открытому сообществу ИИ внезапно стало не так сложно получить высококачественные данные. Но если у всех нас есть одни и те же предварительно обученные модели и наборы данных, куда делось конкурентное преимущество?
Креативность скоро станет конкурентным преимуществом и «новой нефтью» революции искусственного интеллекта.
Как говорит Фай-Ли в своей книге Сверхспособности искусственного интеллекта, мы переходим от фазы исследования к Эпохе реализации.
«Пионер глубокого обучения Эндрю Нг сравнил искусственный интеллект с использованием электричества Томасом Эдисоном: это прорывная технология сама по себе, и та, которая однажды использовалась, может быть применена для революции в десятках отраслей». (Сверхспособности ИИ, Кай-Фу Ли)
Скорость новых достижений в области искусственного интеллекта замедлится, и инновации будут заключаться в применении этой технологии.
Нововведение будет исходить от креативщиков, которые:
- Поймите проблемы, которые необходимо (и можно) решить.
- Узнайте, какие существуют модели машинного обучения и их приложения.
- И, наконец, понять, как один или несколько из этих элементов, соединенных вместе, могут образовать продукт или услугу, которые решают проблему.
В настоящее время в R / GA мы с командой работаем над продуктом, который призван помочь читателям новостей получить доступ к множеству различных точек зрения журналистов.
Решение использует НЛП, чтобы узнать, что в новостях в тренде, как большинство журналистов говорят на эти темы, а затем найти разных журналистов, которые высказывают альтернативную точку зрения.
Непростая задача, если разбить ее на части.
Вот необходимые нам модели:
- Тематическая модель: для поиска актуальных новостных тем
- Вектор слова: чтобы понять, о чем каждый журналист говорит по этой теме
- Модель настроения: чтобы понять, как каждый журналист говорит об определенных словах, будь то положительные, отрицательные или нейтральные
Для построения каждой из этих моделей с нуля потребуется огромное количество данных. Но доступны различные предварительно обученные модели каждой из этих моделей.
Пример тематической модели: Пакет тематической модели МОЛЛЕТ
Пример векторной модели Word: Word2Vec
Пример модели настроений: Stanford CoreNLP
Примечание. Выбор модели для использования - довольно сложный (и творческий!) процесс, требующий значительных усилий для исследований и разработок.
Каждая из моделей по отдельности ОЧЕНЬ крутая, но ОЧЕНЬ ОЧЕНЬ круто, когда вы видите, как все они работают вместе и - скрестив пальцы - помогают внести больше разнообразия в основные СМИ. Скоро запуск!
Поэтому, если ваша стратегия искусственного интеллекта состоит только из найма инженеров по обработке данных и сбора данных - вы делаете это неправильно. Вам следует искать креативщиков, которые в сотрудничестве с инженерами по обработке данных превратят прорывы в области машинного обучения в продукты и услуги, которые изменят мир.
И если вы один из таких креативщиков, свяжитесь с нами!