Приятно видеть, как исследователи ИИ поднимают производительность передовых моделей на новый уровень, однако затраты на такие процессы также растут с головокружительной скоростью.

Synced недавно сообщил о XLNet, новой языковой модели, разработанной CMU и Google Research, которая превосходит предыдущую модель SOTA BERT (двунаправленные представления кодировщика от Transformers) по 20 языковым задачам, включая SQuAD, GLUE и RACE; и добился результатов SOTA по 18 из этих задач.

Что может удивить многих, так это ошеломляющая стоимость обучения модели XLNet. Недавний твит Эллиота Тернера - серийного предпринимателя и эксперта в области искусственного интеллекта, который сейчас является генеральным директором и соучредителем Hologram AI - вызвал бурную дискуссию в социальных сетях. Тернер писал: Обучение модели XLNet (той, которая превосходит BERT в задачах НЛП) стоит 245 000 долларов. Его расчет основан на разбивке ресурсов, приведенной в документе: Мы обучаем XLNet-Large на 512 чипах TPU v3 за 500 000 шагов с оптимизатором Adam, линейным снижением скорости обучения и размером пакета 2048, что занимает около 2,5 дней.

Реакция исследователей и ученых включала следующий комментарий на Reddit: «Думаю, я бы просто заплакал, если бы мне пришлось попытаться убедить своего босса потратить 250 тысяч долларов на AWS для одной модели, которая может работать или не работать так хорошо, как нужно».

Однако Synced обнаружила, что математика Тернера может быть неверной. Устройство Cloud TPU v3, которое стоит 8 долларов США в час на платформе Google Cloud Platform, имеет четыре независимых встроенных чипа. »Поскольку авторы статьи указали микросхемы TPU v3 , расчет должен быть 512 (микросхем) * (8/4 долларов США) * 24 (часы) * 2,5 (дни) = 61 440 долларов США. Исследователь Google Джеймс Брэдбери высказал ту же идею в Twitter: 512 чипов TPU - это 128 устройств TPU, или 61 440 долларов за 2,5 дня. Авторы также могли иметь в виду 512 ядер, то есть 64 устройства или 30 720 долларов .

Тем не менее, потратить 61 000 долларов на обучение одной языковой модели - это дорого. Конечно, поскольку Google возглавляет исследования XLNet, облачное подразделение компании вряд ли будет взимать полную стоимость с собственной исследовательской группы.

Так почему же обучать XLNet так дорого? Для начала модель огромная. Из статьи: «Наша самая большая модель XLNet-Large имеет те же гиперпараметры архитектуры, что и BERT-Large, что приводит к аналогичному размеру модели». XLNet-large имеет 24 блока трансформатора, 1024 скрытых блока на каждом уровне и 16 головок внимания. Исследователи также собрали в общей сложности 32,89 миллиарда частей подслова в качестве данных для предварительного обучения.

Synced проанализировал смету затрат на обучение других крупных моделей искусственного интеллекта:

Гровер-Мега Вашингтонского университета - общая стоимость обучения: 25 000 долларов США

Grover - это нейронная сеть с 1,5 миллиардами параметров, предназначенная как для генерации, так и для обнаружения фейковых новостей. Гровер может создать остальную часть статьи из любого заголовка и превосходит другие детекторы фальшивых новостей при защите от самого Гровера. Он был разработан Вашингтонским университетом и Институтом искусственного интеллекта Аллена в мае 2019 года и недавно был открыт на Github.

Обучение самой крупной модели Grover Mega в общей сложности обошлось в 25 тыс. Долларов США, исходя из информации, содержащейся в исследовательском документе: Обучение Grover-Mega относительно недорогое: стоимость 0,30 доллара США за один базовый час TPU v3 и две недели обучения ».

Google BERT - ориентировочная общая стоимость обучения: 6912 долларов США

BERT, выпущенная в прошлом году компанией Google Research, представляет собой модель двунаправленного преобразователя, которая переопределила современное состояние для 11 задач обработки естественного языка. Сегодня многие языковые модели построены на архитектуре BERT.

Из исследовательской работы Google: Обучение BERT - Large было выполнено на 16 облачных TPU (всего 64 чипа TPU). Каждое предварительное обучение занимало 4 дня . Предполагая, что обучающим устройством является Cloud TPU v2, общая стоимость однократного предварительного обучения должна составлять 16 (устройств) * 4 (дней) * 24 (часов) * 4,5 (долларов США в час) = 6 912 долларов США. Google предлагает исследователям с ограниченным бюджетом предварительно обучить меньшую модель BERT-Base на одном вытесняемом Cloud TPU v2, что занимает около двух недель и стоит около 500 долларов США.

OpenAI GPT-2 - обучение стоит 256 долларов США в час

GPT-2 - это большая языковая модель, недавно разработанная OpenAI, которая может генерировать реалистичные абзацы текста. Без каких-либо данных обучения для конкретных задач модель по-прежнему демонстрирует убедительную производительность при выполнении ряда языковых задач, таких как машинный перевод, ответы на вопросы, понимание прочитанного и резюмирование.

The Register сообщает, что модель GPT-2 использовала для обучения 256 ядер Google Cloud TPU v3, что стоит 256 долларов США в час. OpenAI не уточняет продолжительность обучения.

Хотя цифры могут показаться пугающими, большинство моделей машинного обучения далеко не так требовательны, как эти громкие примеры, связанные с техническими гигантами. Как сказал Synced в недавнем интервью Лауреат премии Тьюринга Йошуа Бенжио: Некоторые модели настолько велики, что даже в MILA (Монреальский институт алгоритмов обучения) мы не можем их запустить, потому что у нас нет инфраструктуры для этого. . Только несколько компаний могут использовать эти очень большие модели, о которых они говорят .

Ожидается, что стоимость вычислений, используемых для обучения моделей, значительно снизится с продолжающимся развитием алгоритмов, вычислительных устройств и инженерными усилиями. Как прокомментировал пользователь Reddit: Бумага Google« кошачий нейрон использовала дни / десятки тысяч ядер, но теперь люди создают поддельных кошек в реальном времени. Чтобы взять пример от развития моделей ImageNet до 75% топ-1, первая отправка DAWN benchmark стоила 2 тыс. Долларов, затем стоимость снизилась до 40 долларов в течение нескольких лет ».

Статья XLNet: Generalized Autoregressive Pretraining for Language Understanding посвящена arXiv.

Журналист: Тони Пэн | Редактор: Майкл Саразен

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.