Публикации по теме 'transformers'


Трансформеры с нуля
Часть 2: Архитектура Трансформера В своей предыдущей статье я писал о ключевых понятиях модели Трансформера, в частности, о Механизме Внимания. В этом посте я расскажу об архитектуре модели Transformer, и мы собираемся кодировать ее с нуля. Архитектура Архитектура модели Transformer использует архитектуру кодер-декодер, которая изображена на следующем рисунке: Как видно, он состоит из двух компонентов: кодировщика и декодера . Эти компоненты играют решающую роль в таких..

Криптонит-трансформер: между умозаключениями и интеллектом
Ранее я писал о некоторых простых экспериментах с трансформерами и основных логических принципах. Все прошло не так хорошо . Имея дело с гипотетическими моделями, такими как ChatGPT, трудно решить, рассматривать ли контекст как полностью гипотетический или применять здравый смысл. Результат где-то на полпути и не совсем хорош ни с одной точки зрения. Токены в единственном числе Мое текущее понимание того, что вызывает эту проблему, заключается в том, что на самом фундаментальном..

Как LORA революционизирует тонкую настройку больших языковых моделей: подробное руководство
Полное руководство Представьте, что вы построили самый сложный в мире замок LEGO из 175 миллиардов деталей. Это для вас GPT-3 — языковая модель со 175 миллиардами «строительных блоков» или параметров. Теперь, как вы можете изменить крошечную часть, не демонтируя всю конструкцию? Войдите в LORA, умный метод, который похож на использование волшебного инструмента LEGO, настраивающего определенные области, не нарушая остальные. Дилемма GPT-3: укрощение гиганта с 175 миллиардами очков..

Уникальные функции и возможности платформы Hugging Face
Hugging Face — это платформа, используемая для задач обработки естественного языка (NLP). Он предоставляет множество инструментов, библиотек и моделей для задач NLP, таких как классификация текста, ответы на вопросы, анализ настроений, генерация текста и многое другое. Платформа известна своей простотой, универсальностью и удобным интерфейсом. Что касается подзадачи, некоторые популярные варианты использования платформы Hugging Face включают в себя: Разработка чат-ботов и..

Уровень токенизации 2 (или около того…)
Демистификация магии больших языковых моделей Когда я впервые начал читать/видеть, как люди в этой области говорят о сложных системах кодирования и декодирования для НЛП (включая преобразователи и различные другие архитектуры нейронных сетей), если честно, это звучало (до сих пор звучит?) как волшебство. Если бы я взял кое-что из того, что они говорят, и переинтерпретировал бы это так, как это интерпретировал мой мозг, это было бы примерно так: «Данные проходят через первый уровень,..

Извлечение данных из документов без оптического распознавания символов с помощью преобразователей (1/2)
Donut и Pix2Struct на пользовательских данных Donut и Pix2Struct — это модели преобразования изображения в текст, которые сочетают в себе простоту чисто пиксельного ввода с задачами понимания визуального языка. Проще говоря: вводится изображение, а извлеченные индексы выводятся в виде JSON. Недавно я выпустил модель Пончика, доработанную по фактурам. Очень часто я получаю вопрос, как тренироваться с пользовательским набором данных. Также была выпущена аналогичная модель:..

Graformer  — обобщение архитектуры преобразователя на графы.
Эта статья представляет собой краткое введение в недавнюю работу исследователей Microsoft. Смело переходите к статье прямо здесь . Их обобщение архитектуры преобразователя для моделирования молекулярных графов отлично работает и принесло им 1-е место в треке квантового прогнозирования Open Graph Benchmark Large-Scale Challenge ( KDD CUP 2021 ). Преобразователь известен тем, что моделирует последовательную информацию. Его основной модуль, блок самоконтроля, фиксирует семантическое..