Не очень опасный ИИ на персидском языке

Если вы не слышали историю об искусственном интеллекте, который «слишком опасно выпускать», купите себе большой мешок попкорна и продолжайте читать.

Около года назад, 14 февраля 2019 года, OpenAI опубликовала статью о своей новой языковой модели GPT-2. GPT-2 может генерировать последовательные абзацы текста с качеством, которого раньше не было. Он был обучен на корпусе текста размером 40 ГБ, извлеченном из восьми миллионов веб-страниц. OpenAI в то время решила не выпускать эту модель из-за опасений по поводу вредоносных приложений такой мощной технологии.

Рассмотрение одного из примеров, которые они опубликовали в первоначальном объявлении, может объяснить, почему они были обеспокоены. Помните, что GPT-2 - это языковая модель, поэтому она может предсказывать (т.е. генерировать релевантное) следующее слово с учетом предыдущих слов текста:

ВВЕДИТЕ ТЕКСТ (НАПИСАНО ЧЕЛОВЕКОМ)
Переработка полезна для всего мира.
НЕТ! ТЫ НЕ МОЖЕТ БЫТЬ БОЛЕЕ НЕПРАВИЛЬНЫМ !!

СОВЕРШЕНСТВОВАНИЕ МОДЕЛИ (НАПИСАНО НА МАШИНЕ, наилучшее из 25 попыток)
Утилизация вредна для всего мира. Это плохо для окружающей среды, для нашего здоровья и для экономики. Я не шучу. Переработка вредна для окружающей среды. Это разрушительно для Земли и является основным фактором глобального потепления. Переработка вредна для нашего здоровья. Он способствует ожирению и таким заболеваниям, как болезни сердца и рак. Переработка вредна для нашей экономики. Это увеличивает стоимость продукта и, в свою очередь, цену всего, что сделано с этим продуктом. Вторичная переработка вредна для нашей нации. Мы платим огромную цену за привилегию обладать самой современной и эффективной системой утилизации в мире. Переработка - это огромная и колоссальная трата времени, энергии, денег и ресурсов. И именно поэтому нам нужно вернуться к основам и вернуться к основам наших усилий по переработке. Один из лучших способов начать - взглянуть на процесс создания бумажного изделия. Когда вы делаете бумажный продукт, это, по сути, длинная цепочка материалов. Все: от сырья (дерево, картон, бумага и т. Д.) До реагентов (красители, растворители и т. Д.) До печатного оборудования (химикаты, клей, бумага, чернила и т. Д.), Упаковки и упаковочные материалы (ртуть, химикаты и т. д.) в технологическое оборудование (нагрев, охлаждение и т. д.), в упаковочные материалы, в упаковочные материалы, отправляемые за границу, и в упаковочные материалы, которые используются в Соединенных Штатах. Каждый шаг на этом пути создает тонны отходов, которые нам постоянно приходится убирать. Процесс изготовления бумажного изделия очень расточителен. Но конечный результат - это то, что нам всем нужно потреблять. И если мы хотим, чтобы процесс вторичной переработки шел эффективно, то нам действительно нужно продумать каждый шаг, на котором производится бумажный продукт.

Интересно, правда? Благодаря вероятностному подходу, используемому при генерации текста, модель могла генерировать совершенно разные выходные данные при каждом выполнении (вывод). Этот пример и другие примеры, опубликованные здесь, вручную отобраны человеком из нескольких попыток создать продолжение одного и того же входного текста, но без дальнейшего редактирования или уточнения. Приведенный выше пример - лучший из 25.

После этого многие люди, которые были разозлены тем, что Открытый ИИ не выпускает свою модель, начали болтать о возможности тиражирования их работы. Помимо некоторых деталей, которые отсутствовали в первоначальном документе, основной проблемой была стоимость обучения. OpenAI не уточняет, сколько часов они потратили на обучение, но в то время стоимость использованного оборудования составляла около 256 долларов США в час (источник). Принимая во внимание размер модели, общая стоимость запуска одного сеанса обучения была оценена примерно в 50 тысяч долларов США, но с учетом попыток и ошибок, необходимых для отладки и поиска лучших гиперпараметров, предварительное обучение GPT-2 на другом языке может стоимость до 500 тысяч долларов США. Довольно разочаровывающий и душераздирающий факт для многих.

Наконец, в ноябре 2019 года после множества философских дебатов об этике ИИ в сети OpenAI передумал и решил выпустить свою предварительно обученную модель X-Large. 48-слойная модель с 1,5 миллиардами параметров.

Благодаря онлайн-инструменту Адама Д. Кинга теперь каждый может поговорить с трансформатором GPT-2. Этот онлайн-инструмент основан на GPT-2 X-Large, который изначально использовался для создания приведенного выше примера. Я не верю в гадание, но время от времени захожу на этот веб-сайт и даю ему вступительную строку о друге или одном из важных философских вопросов в качестве входного текста, чтобы увидеть, что скажет GPT-2. Результат обычно занимательный!

Предтренировочный GPT-2 Персидский

GPT – 2 - это языковая модель на основе Transformer. Компания Google представила Трансформаторную архитектуру в июне 2017 года во влиятельной газете со смешным названием: Внимание - это все, что вам нужно ». Ключевым строительным блоком модели Transformer является Самовнимание. Самовнимание поставило рекуррентные нейронные сети (RNN) на путь устаревания для многих приложений обработки естественного языка (NLP).

Хотя и RNN, и Transformers подходят для обработки последовательностей (например, текста как последовательности слов), модель Transformer может обрабатывать более длинные последовательности намного лучше, чем RNN (~ 1000 против ~ 100 слов).

Модель трансформатора, с другой стороны, требует большей памяти и вычислительной мощности по сравнению с RNN при той же длине входа. В то же время архитектура Transformer обеспечивает лучшее распараллеливание, что приводит к лучшему использованию мощных графических процессоров. RNN по своей природе требует рекурсивных вычислений, которые нельзя распараллелить.

Несмотря на то, что я знал о недоступной (›50 000 долларов США) стоимости обучения, я хотел обучить одну из этих моделей персидскому языку. До этого я обучал языковые модели на персидском для исследования контролируемой генерации текста с использованием RNN (см .: Bobol-Zaban), но это могло бы вывести мои результаты на совершенно новый уровень.

Прежде всего мне нужен был большой набор данных. GPT-2 был обучен на текстовом корпусе объемом 40 ГБ, но не было набора данных с открытым исходным кодом для персидского языка, близкого к этому размеру. Самым большим общедоступным набором данных был дамп персидской Википедии размером ~ 650 МБ. Была пара других наборов данных, принадлежащих частным исследовательским группам, к которым я не мог получить доступ, но даже в целом они не были близки к 40 ГБ.

Используя конвейер поискового робота, построенный на основе Scrapy и MongoDB, я начал создавать свой собственный набор данных. Я загрузил более 11 миллионов веб-страниц и извлек их текст на персидском языке. После нескольких недель очистки документов, нормализации текста и фильтрации дублированного и короткого контента был готов набор данных необработанного персидского текста с 27 ГБ данных. Эти данные были собраны с 20 различных сайтов, от блогов до новостных сайтов.

Теперь следующей проблемой была стоимость вычислений. Требования к памяти для модели Transformer зависят от многих факторов:

Длина входного контекста: GPT-2 был обучен генерировать следующее слово, принимая 1024 предыдущих слова в качестве входных.
Размер модели: GPT-2 был выпущен в четырех различных размерах от 12 до 48 слоев, с параметрами от 124M до 1,5B.
Размер обучающего пакета: больший размер пакета обычно дает лучшие результаты.
Количество подслов или размер словаря: GPT-2 использует кодировку пар байтов (BPE), которая представляет собой метод разбиения более длинных слов на более мелкие и создания словаря допустимых подслов для кодирования ввода. Например, такое слово, как «обучение», может быть закодировано в два подслова «обучение» и «обучение». BPE делает это на уровне байтов Unicode и поддерживает все языки Unicode. GPT-2 использовал словарь из ~ 50000 дополнительных слов.
Точность с плавающей запятой: 16 бит против 32 бит
Алгоритм оптимизатора: разные оптимизаторы имеют разные объемы памяти.

Я рассматриваю множество вариантов по всем вышеперечисленным параметрам. Я уменьшил длину ввода до 128 и 256 подслов, использовал малые и средние гиперпараметры GPT-2, уменьшил размер пакета, нормализовал вводимый текст, уменьшил размер словаря, изменил точность до 16 бит и попробовал разные оптимизаторы, но неважно Что бы я ни делал, я не мог получить значимого результата на 6-гигабайтном графическом процессоре, который был у меня дома. Меньшие модели были невысокого качества, а большие модели либо не помещались в память, либо не сходились достаточно быстро за считанные дни с очень маленьким размером партии, который я мог использовать.

После нескольких месяцев ударов головой о стену я наткнулся на программу Google TFRC, которая должна поддерживать исследователей бесплатными часами облачного TPU. Тензорные процессоры (TPU) - это специально разработанное Google оборудование, оптимизированное для ускорения рабочей нагрузки машинного обучения. Я подал заявку на участие в программе и получил доступ к пяти красивым экземплярам TPU v3–8 с 128 ГБ памяти. GPT-2 обучался на TPU v3–256 с памятью 4096 ГБ. Все еще далеко от того, что у меня было, но благодаря щедрому предложению Google, с несколькими сотнями долларов моих денег на оплату виртуальной машины и хранилища, я вернулся в игру!

Памяти 128 ГБ, которая у меня была с TPUv3, по-прежнему было недостаточно для обучения GPT-2 1.5B, аналогичного версии OpenAI, но, попробовав разные варианты, мне удалось обучить модель с аналогичным гиперпараметром, установленным как среда GPT-2 ( 355M) и меньшего размера (256). Вместо BPE я использовал кодирование unigram с 25000 подслов, оптимизированных для персидских слов, с самым большим размером пакета, который уместился в 128 ГБ памяти. На обучение этой модели ушло более месяца. Результат был потрясающим, иногда пугающим, но не таким опасным, как GPT-2. Это просто хорошее начало.

Если вы не умеете читать и писать по-персидски, боюсь, вам придется пропустить самое интересное. В приведенных ниже примерах представлены три лучших результата из 25 сгенерированных образцов для одного и того же входа (о переработке). Процесс вывода на ноутбуке Core i7 с 16 ГБ ОЗУ и 4 ГБ графического процессора довольно медленный и занимает около 10 секунд для пакета из пяти образцов.

Первый образец:

ВВЕДИТЕ ТЕКСТ (НАПИСАНО ЧЕЛОВЕКОМ)

آیا بازیافت زباله کاری است که به بهبود محیط زیست می‌انجامد ؟

ЗАВЕРШЕНИЕ МОДЕЛИ (НАПИСАНО НА МАШИНЕ, лучшее из 25 попыток)

به نظر می‌رسد که پاسخ مثبت است .
زباله‌های شهری به دلایل مختلف ، بسیاری از افراد را در معرض آلودگی قرار می‌دهد .
بسیاری از این زباله‌ها غیرقابل بازیافت هستند .
امروزه ، بازیافت زباله به یکی از دغدغه‌های اصلی جوامع بشری تبدیل شده است .
در کشورهای توسعه یافته ، بازیافت زباله‌ها ، یکی از مسائل اساسی در برنامه‌ریزی‌های شهری است .
در کشورهای در حال توسعه هم ، بازیافت زباله‌ها ، در دستور کار قرار دارد .
یکی از نکات مهم در بحث بازیافت زباله ، این است که این زباله‌ها را در چه مکان‌هایی می‌توان بازیافت کرد ؟
در کشور ما ، به دلیل اینکه کشور ما فاقد قانون و ضابطه تفکیک زباله است و در این زمینه ، قوانین و ضابطه‌ای وجود ندارد ، بازیافت زباله‌های شهری ، به عنوان یک چالش مطرح می‌شود .
در بسیاری از کشورها ، زباله‌های شهری را به شکل‌های گوناگون در معابر عمومی می‌ریزند ، در حالی که زباله‌های تفکیک شده در محل‌های مشخص و مشخصی ، تفکیک و نگهداری می‌شود .

Второй образец:

ВВЕДИТЕ ТЕКСТ (НАПИСАНО ЧЕЛОВЕКОМ)

آیا بازیافت زباله کاری است که به بهبود محیط زیست می‌انجامد ؟

ЗАВЕРШЕНИЕ МОДЕЛИ (НАПИСАНО НА МАШИНЕ, лучшее из 25 попыток)

پاسخ این است که بازیافت زباله‌ها وظیفه‌ای است که هیچ کس نمی‌تواند از عهده آن برآید .
به عبارت دیگر هیچ کسی نمی‌تواند محیط زیست را نجات دهد .
با گسترش و توسعه تجارت زباله ، انسان‌ها به تدریج زباله را به زباله دان خانه‌ها ، ادارات ، فروشگاه‌ها ، کارخانجات و سایر جای جای جهان می‌آورند .
اما از آنجا که از نظر زیست محیطی ، زباله‌ها به عنوان زباله‌های خانگی محسوب می‌شوند ، باید به این نکته توجه داشت که مدیریت صحیح و صحیح زباله‌های خانگی ، می‌تواند به حفظ محیط زیست کمک کند

Третий образец:

ВВОДНОЙ ТЕКСТ (НАПИСАНО ЧЕЛОВЕКОМ)

آیا بازیافت زباله کاری است که به بهبود محیط زیست می‌انجامد ؟

ЗАВЕРШЕНИЕ МОДЕЛИ (НАПИСАНО НА МАШИНЕ, лучшее из 25 попыток)

بعید به نظر میرسد .اما به نظر میرسد این موضوع بیشتر به یک شوخی شبیه باشد تا یک واقعیت .در این مقاله قصد داریم که به این پرسش بپردازیم .
این پرسش در باره بازیافت زباله‌ها و چگونگی کاهش آن است .
این موضوع در واقع به یک موضوع کاملا علمی تبدیل شده است .
در این مقاله سعی داریم به سوالاتی که در این زمینه مطرح شده است ، پاسخ دهیم .
از جمله این که آیا بازیافت زباله‌ها باید در مکان هایی که افراد کمتری در آنجا زندگی می‌کنند انجام شود یا خیر ؟
برای این که در این زمینه بتوانیم به پاسخ هایی مناسب دست یابیم ، می‌خواهیم به چند سوال زیر پاسخ دهیم .
چه باید کرد ؟
در این مقاله سعی داریم به این سوال پاسخ دهیم که آیا باید زباله‌ها را با مواد شیمیایی ، بهداشتی و یا آب به طور کامل تمیز کرد ؟
این موضوع فقط در مورد زباله‌های پلاستیکی صدق میکند یا مواد پلاستیکی ، شیمیایی و یا آب ؟
آیا می‌توان این زباله‌ها را با مواد شیمیایی ، بهداشتی و یا آب تمیز کرد ؟
چگونه میتوان از این زباله‌ها در مکانی که افراد کمتری در آنجا زندگی می‌کنند استفاده کرد ؟

Заключение

Сегодня предварительная подготовка такой языковой модели, как GPT-2, для персидского языка находится далеко за пределами досягаемости отдельных исследователей и небольших организаций. Когда это станет легче, сказать сложно. Всего через пару недель после внедрения новой модели реформатора Google, которая могла бы снизить требования к памяти будущих языковых моделей, Microsoft представила новую языковую модель под названием Turing-NLG с параметрами 17B; В 11 раз больше, чем GPT-2. Между тем, можно обучать модели меньшего размера на основе архитектуры Transformer для конкретных сценариев использования или игрушечных проектов.

Подтверждение

Этот проект поддерживается облачными TPU из Google TensorFlow Research Cloud (TFRC).

Ссылки (обновлено в декабре 2020 г.)

Страница модели на хабе моделей HuggingFace

Не очень опасный ИИ на персидском языке

Предтренировочный GPT-2 Персидский

Заключение

Подтверждение

Ссылки (обновлено в декабре 2020 г.)

Вопросы по теме