Как глубокое обучение повлияло на обработку естественного языка

Искусственный интеллект — увлекательная область. Кто-то боится, кому-то нравится.

Я изучал его в течение двух лет во время получения степени магистра, прежде чем он стал настолько популярным, чтобы изменить точку зрения людей: от чего-то, чего так далеко достичь, к чему-то очень близкому нам.

В этой статье я хочу поделиться некоторыми знаниями (моими знаниями 😄) об этой области. И мы начнем говорить о «ChatGPT», самом популярном инструменте на рынке.

Что такое ChatGPT?

GPT в ChatGPT означает Generative Pre-trained Transformer (источник). Не хочу начинать обычную бесконечную проповедь о том, как эта технология изменила все. Вместо этого я хотел бы предоставить некоторый контекст для этого. Я объясню, что такое ChatGPT и какое открытие сделал OpenAI, чтобы придумать этот новый инструмент.

Искусственный интеллект

Когда мы говорим о ChatGPT, мы должны упомянуть область искусственного интеллекта. Определение ИИ — это «поле, которое создает машины, которые мыслят и действуют рационально и выполняют задачи, которые делают люди».

Однако искусственный интеллект — это широкая область, и, как мы можем прочитать в Википедии, ChatGPT относится к области машинного обучения, которая является подмножеством ИИ.

Чтобы быть точным, ChatGPT относится к области глубокого обучения, которая, в свою очередь, является подмножеством машинного обучения.

Машинное обучение против глубокого обучения

История этих двух дисциплин интересна.

Как мы знаем, глубокое обучение является подмножеством машинного обучения, но в чем между ними реальная разница?

Основное различие заключается в том, как машинное и глубокое обучение создают представление входных данных:

  • Входными данными могут быть текст, изображения, видео и т. д.
  • Представление — это то, как мы кодируем эту информацию для обработки компьютером.

В частности:

  • Ученые, занимающиеся машинным обучением, пытаются самостоятельно найти наилучшее представление ввода, а затем передать его модели ИИ. Таким образом, в этой области ученые больше сосредотачиваются на аппроксимации входных данных в процессе, называемом «Разработка функций», чем на построении эффективной модели.
  • С другой стороны, специалисты по глубокому обучению сохраняют входные данные такими, какие они есть. Они строят более сложные модели, которые могут найти наилучшее входное представление. Другими словами, процесс разработки функций автоматизирован.

Такие концепции, как представление входных данных, разработка признаков и модели мозга, трудно понять, если мы не понимаем, как работает мозг.

Прежде всего, чтобы воспроизвести способность нашего мозга распознавать текст или изображения, нам нужно понять, как мозг обрабатывает эту информацию.

Два исследования являются знаковыми для этой цели в области ИИ:

  • 1959: кошачий эксперимент
  • 1980: Неокогнитрон

1959: кошачий эксперимент

В 1959 году доктора Хьюбел и Визель из Гарварда провели несколько экспериментов над зрительной системой кошек. Они записывали свою зрительную кору, когда им показывали изображения различных объектов.

Что они обнаружили? Они обнаружили, что зрительная кора (которая является первой частью мозга, которая получает сигналы от глаз) отвечает за обнаружение краев изображения.

1980: Неокогнитрон

В 1980 году японский ученый по имени Кунихико Фукусима написал статью о том, как мозг создает представление реальности:

  • Мы видим некоторые объекты
  • Первые нейроны в коре обнаруживают мелкие детали, такие как темные края.
  • Эти нейроны передают информацию на следующий уровень
  • Нейроны следующего уровня принимают эту информацию и выполняют дополнительные вычисления для обнаружения объектов более высокого уровня, таких как углы, крыши, формы и так далее. Затем сигнал распространяется на более глубокие нейроны, которые затем распознают изображение.

Впервые мы начали официально говорить о том, как мозг иерархически распознает изображения.

Обработка естественного языка

ChatGPT — это модель глубокого обучения, и в настоящее время она является последним словом в области обработки естественного языка.

В компьютерных науках обработка естественного языка — это ветвь, связанная с предоставлением компьютерам возможности понимать текст и произносимые слова почти так же, как люди. ("источник")

Когда я изучал обработку естественного языка еще в 2019 году, лучшим методом для подхода к этой области была рекуррентная нейронная сеть (RNN).

RNN — это определенные типы сетей, которые могут эффективно обрабатывать последовательности, например текст (последовательность слов).

Основная проблема RNN заключалась в ее ограниченности: обучение RNN сложной задаче было затруднено. Простые задачи было легко выполнить (например, предсказать следующее слово в предложении). Проблема была с такими задачами, как генерация текста.

Роль OpenAI: рождение трансформеров

OpenAI смог создать что-то, что уже присутствовало в ИИ, но в то время было недоступно для распознавания текста: трансферное обучение.

OpenAI со своим проектом ULMfit смог использовать трансферное обучение для выполнения более сложных задач.

Этот метод называется «Перенос обучения» и состоит из трех этапов:

  1. Обучите нейронную сеть простой задаче, например: предсказать следующее слово на основе предыдущего.
  2. Адаптируйте доменный корпус: если вы обучаете свою сеть тексту из Википедии, вы можете обучать сеть тексту IMBd
  3. Тонкая настройка: вы специализировали сеть для других задач.

Сеть, которая использовала этот метод обучения, называется «Трансформатор».

Приложения Трансформеры

На сегодняшний день трансформеры являются лучшим решением для разных задач:

  • Классификация текста (какая эмоция передает этот текст? Печаль, радость?)
  • Вопрос Ответ
  • Обобщающий текст
  • Создать текст
  • И другие

Эти сети были предварительно обучены простой задаче, адаптированы к новому домену и специализированы для другой задачи.

ChatGPT (Generative Pretrained Transformer) — одна из таких сетей. Это генератор текста, предварительно обученный и преобразователь.

Заключение — мое мнение (я)

Вообще мне сложно предсказывать будущее по каждой теме. Но мы здесь, верно? Чтобы было ясно, я не думаю, что ИИ возьмет под контроль мир.

ИИ обрабатывает информацию намного быстрее

До социальных сетей реклама была только на телевидении. У этого метода есть большая проблема: продюсеры не знают, кто находится на другой стороне, поэтому реклама носит общий характер. Но сейчас? Есть Instagram, и каждая лента индивидуальна: все мы видим разное и разную рекламу. Другими словами, все нацелено.

Теперь ИИ может распознавать текст, изображения и речи. И эту информацию можно обрабатывать с уникальной целью: чтобы больше узнать о пользователе. ИИ настолько мощен, что я не удивлюсь, если однажды появится алгоритм, который скажет нам, какое решение принять, какое платье выбрать и так далее.

Вы можете увидеть это двумя способами:

  • Вы сходите с ума, потому что «Боже мой, что это? Я не хочу, чтобы за мной шпионили»
  • Или вы хотели бы, чтобы кто-то предлагал вам что-то вроде того, что купить, а не случайные предложения, как сейчас на телевидении.

ChatGPT ненадежен

Как мы видели, OpenAI обучил ChatGPT тексту, сгенерированному людьми. Поскольку мы люди, мы делаем ошибки. Итак, когда ChatGPT генерирует какой-то текст на основе того, что он видел, он может ошибаться.

Источник в начале ненадежен, следовательно, ChatGPT тоже.

Вот почему мы должны проверять всю информацию, которую мы не знаем и которую мы получаем от нее.

Здесь мы подходим к еще одной проблеме во всей области ИИ: источнику данных. Данные подобны золоту в ИИ: если у вас есть хорошие данные, вы уже сделали 90% своей работы. Вот почему я считаю, что нам должны платить всякий раз, когда мы передаем наши данные некоторым компаниям, таким как Meta или Netflix. Нам должны платить за то, чтобы мы делились тем, что нам нравится, на платформе.

Вычислительная мощность

Аппаратное обеспечение уже является узким местом для ИИ. Модели обучения, такие как ChatGPT, требуют много энергии, памяти и графического процессора. И запросы к ним по-прежнему требуют больших вычислительных мощностей.

Сегодня мы имеем дело с еще одним аппаратным кризисом и сложной ситуацией на Тайване, которая создает много неопределенностей в отношении этой темы.

Источники

  • https://www.deeplearning.ai/resources/natural-language-processing/
  • Обработка естественного языка с помощью трансформеров, исправленное издание Льюис Танстолл, Леандро фон Верра, Томас Вольф
  • GAN в действии Якуб Лангр, Владимир Бок