Машинное обучение — Информационный бюллетень №2

MeZO, Сознание в искусственном интеллекте, LLaVA, Сборные трансформаторы, Утечка GPT-4…

Привет всем, вот второй выпуск. Я планировал публиковать раз в две недели, но все происходит очень быстро, и контента уже более чем достаточно, чтобы поделиться с вами.

Так что да, для меня это была довольно насыщенная неделя. Обучение все большему количеству моделей TTS с будущими языками для Coqui Studio API, точная настройка PRing Bark для 🐸TTS, работа со странными ошибками на собраниях и вне их, активность в нашем Discord, чтение большего о LLM… Итак для меня это была продуктивная неделя. Я надеюсь, что ваше было столь же плодотворным.

Итак, давайте погрузимся…

Биты и кусочки

Политическая предвзятость ChatGPT в исследовании

🔗 Ссылка

TLDR. Исследование, проведенное исследователями в области компьютерных наук и информатики из Великобритании и Бразилии, вызвало обеспокоенность по поводу объективности ChatGPT. По словам исследователей, они обнаружили значительную политическую предвзятость в ответах ChatGPT, которые склоняются к левой стороне политического спектра.

AMD: половина предприятий не в полной мере используют преимущества ИИ.

📈 PDF

TLDR. В недавнем опросе, проведенном AMD, были получены данные относительно внедрения ИИ на предприятиях. В опросе приняли участие 2500 ИТ-руководителей из США, Великобритании, Германии, Франции и Японии. Результаты показали, что почти половина предприятий рискуют отстать в сфере ИИ.

Китай опубликовал правила управления генеративным ИИ

🔗 Ссылка

TLDR. Тем, кто использует генеративный искусственный интеллект, важно убедиться, что их услуги соответствуют фундаментальным принципам социализма, и избегать любого контента, который способствует свержению государственной власти, разделению, терроризму или любой деятельности, которая может ослабить национальное единство и общественная стабильность.

При использовании данных для создания моделей крайне важно соблюдать права интеллектуальной собственности и получать разрешения от отдельных лиц, прежде чем включать их личные данные. Особое внимание также уделяется повышению качества, достоверности, точности, беспристрастности и разнообразия данных, используемых для обучения.

В большинстве ситуаций те, кто управляет услугами генеративного искусственного интеллекта, должны получить лицензии, что обеспечивает дополнительный уровень регулирующего надзора.

Спасибо за чтение Machine Learning! Подпишитесь бесплатно, чтобы получать новые публикации

Подписан

Исследовать

MeZO: точная настройка языковых моделей с помощью прямых проходов

🔬Бумага
👉Код

В этой работе предлагается оптимизатор нулевого порядка с эффективным использованием памяти (MeZO) для точной настройки языковых моделей с помощью простых проходов вперед. Этот метод значительно превосходит другие методы и обеспечивает производительность, сравнимую с точной настройкой с обратным распространением ошибки с сокращением памяти до 12 раз.

Что нового: MeZO может обучать большие модели, занимая тот же объем памяти, что и логический вывод.

Как это работает: метод использует комбинацию случайных и детерминированных возмущений для оценки градиента функции потерь по отношению к параметрам модели. MeZO может эффективно оптимизировать недифференцируемые цели и совместим как с полнопараметрическими, так и с эффективными по параметрам методами настройки.

Алгоритм MeZO — из статьи

Ключевая информация:

MeZO — это оптимизатор нулевого порядка с эффективным использованием памяти, который может адаптировать классический алгоритм стохастического градиентного спуска нулевого порядка (ZO-SGD) и снизить потребление памяти до уровня вывода.
MeZO работает на моделях произвольного размера практически без затрат памяти.
MeZO может эффективно оптимизировать недифференцируемые цели и совместим как с полнопараметрическими, так и с эффективными по параметрам методами настройки.
MeZO можно комбинировать с другими оптимизаторами на основе градиента, включая SGD с импульсом или Adam, для дальнейшего повышения его производительности.
MeZO можно использовать для обучения больших языковых моделей с помощью одного графического процессора, что делает его практичным и масштабируемым решением для точной настройки больших моделей.

Результаты. MeZO достигает высочайшей производительности в нескольких тестах языкового моделирования, включая наборы данных One Billion Word (OBW) и WikiText-103, используя при этом значительно меньше памяти, чем другие методы.

Составные расширения для трансформаторов, сохраняющие функции

🔬Бумага
👉Код

В этой статье предлагаются шесть компонуемых преобразований для постепенного увеличения размера нейронных сетей на основе преобразователей при сохранении функциональности, что позволяет создавать более эффективные конвейеры обучения для более крупных и мощных моделей. Предлагаемые преобразования оцениваются на нескольких эталонных наборах данных и демонстрируют улучшенную производительность по сравнению с существующими методами.

Что нового: Эта работа вносит свой вклад в область проектирования архитектуры нейронных сетей, предоставляя новый способ масштабирования моделей на основе трансформаторов без ущерба для функциональности и без необходимости полного перезапуска процесса обучения.

Как это работает. Шесть преобразований:

Расширение по глубине: увеличивает количество слоев в модели.
Расширение по ширине: увеличивает количество нейронов в каждом слое.
Расширение внимания: увеличивает количество голов внимания в модели.
Расширение ядра: увеличивает размер ядра сверточных слоев модели.
Расширение каналов: увеличивает количество каналов в сверточных слоях модели.
Расширение MLP: увеличивает количество нейронов в многослойных слоях перцептрона в модели.

Каждое преобразование предназначено для сохранения функциональности модели при расширении ее возможностей. Авторы приводят доказательство точного сохранения функции при минимальных ограничениях инициализации для каждого преобразования. Предлагаемый подход позволяет повысить эффективность конвейеров обучения для более крупных и мощных моделей за счет постепенного расширения архитектуры в ходе обучения. Эффективность предлагаемого подхода продемонстрирована на нескольких эталонных наборах данных, где он показывает улучшенную производительность по сравнению с существующими методами.

Ключевые выводы. Обучение преобразователей стоит дорого, и с помощью таких инкрементальных методов модели можно обучать постепенно, добавляя дополнительные компоненты. Это сделает процесс обучения быстрее, дешевле и гораздо более энергоэффективным. При этом для сверточных сетей и ResNet предлагаются более старые методы, но они не используются на практике.

Результаты:Результаты показывают, что предлагаемый подход превосходит существующие методы с точки зрения точности и эффективности. На CIFAR-100 предлагаемый подход обеспечивает точность высшего уровня 89,68%, что выше современной точности 89,29%. В ImageNet предложенный подход достигает точности 85,4%, что выше современной точности 84,6%. Авторы также показывают, что предлагаемый подход более эффективен с точки зрения времени обучения и использования памяти по сравнению с существующими методами.

Сознание в искусственном интеллекте

🔬Бумага

TLDR. Могут ли системы искусственного интеллекта (ИИ) быть сознательными? Данная статья исследует этот вопрос, предлагая строгий и эмпирически обоснованный подход к оценке сознания систем ИИ. Авторы рассматривают несколько известных научных теорий сознания, выводят «индикаторные свойства» сознания и используют эти индикаторы для оценки нескольких новейших систем искусственного интеллекта. Анализ показывает, что ни одна из нынешних систем ИИ не обладает сознанием, но не существует очевидных технических препятствий для создания систем ИИ, удовлетворяющих этим показателям.

Мышление. Сознание похоже на симфонию, состоящую из множества процессов, гудящих в нашем мозгу. Как будто наш мозг — это природная версия компьютера. Недавние исследования, кажется, подтверждают эту идею, намекая на то, что наш мозг и сознание, возможно, не так уникальны, как мы когда-то думали.

Итак, возникает вопрос — можем ли мы создать компьютеры, имитирующие наш мозг? Я считаю, что на нашем пути нет стены. Но означает ли это, что мы должны это делать только потому, что мы можем?

Если вас интересует тема сознания в целом, я настоятельно рекомендую эту книгу с весьма противоположной точкой зрения на общую обоснованность теории сознания.

LLaVA — Настройка визуальных инструкций

👉 Github
🔬 Бумага
👉 Демо

В документе представлен LLaVA, помощник по большому языку и зрению, который представляет собой комплексно обученную большую мультимодальную модель, основанную на видеокодере и языковом декодере для общего визуального и языкового понимания.

**Что нового:**LLaVA — это новая комплексная обученная большая мультимодальная модель, которая соединяет видеокодер (CLIP) и языковой декодер (LLaMA) для общего визуального и языкового понимания. LLaVA предлагает способ генерации данных визуальных инструкций с помощью GPT-4.

Как это работает:

Только язык GPT-4 используется для генерации данных визуальных инструкций.
Сгенерированные данные используются для настройки инструкций LLaVA.
LLaVA способен понимать как язык, так и зрение, а также генерировать ответы на мультимодальные входные данные.
LLaVA точно настроен на Science QA — задачу, требующую ответов на вопросы, основанные на научных текстах.

Результаты:LLaVA демонстрирует впечатляющие возможности мультимодального чата, иногда демонстрируя поведение мультимодального GPT-4 на невидимых изображениях/инструкциях, и дает относительный балл 85,1% по сравнению с GPT-4 при синтетическом мультимодальном следовании инструкциям. набор данных. Сочетание LLaVA и GPT-4 обеспечивает новую современную точность 92,53% в Science QA.

Больше чтений

🔬 Мозговые формеры: обмен простоты на эффективность
🔬 Искры больших аудиомоделей: обзор и перспективы
🔬 Вы копируете мою модель
📝 Лучшая обратная связь обеспечивает более быстрое рассмотрение »
📝 Смена парадигмы валидации машинного обучения: оценка рабочих процессов, а не задач

Открытый источник

Prompt2Model

👉 Github
Prompt2Model — это система, которая использует описание задачи на естественном языке (например, подсказки, используемые для LLM, таких как ChatGPT) для обучения небольшой модели специального назначения, подходящей для развертывания.

Сирень

👉 Гитхаб

Lilac — это инструмент с открытым исходным кодом, который позволяет специалистам по искусственному интеллекту видеть и количественно оценивать свои наборы данных.

Сирень позволяет пользователям:

Просмотр наборов данных с неструктурированными данными.
Обогащайте неструктурированные поля структурированными метаданными с помощью Lilac Signals, например, для обнаружения почти повторяющейся и личной информации. Структурированные метаданные позволяют нам вычислять статистику, находить проблемные фрагменты и, в конечном итоге, измерять изменения с течением времени.
Создавайте и совершенствуйте концепции Lilac — настраиваемые модели искусственного интеллекта, которые можно использовать для поиска и оценки текста, соответствующего концепции, которая может возникнуть у вас в голове.
Загрузите результаты обогащения для последующих приложений.

Дополнительно

Институт Саймонса — Семинар по большим языковым моделям и трансформерам

На этом семинаре будет много интересных докладов. Вот некоторые из них, через которые я прошел:

📹 Большие языковые модели соответствуют закону об авторском праве
📹 Групповая дискуссия
📹 Строим экосистему, а не монолит
📹 LLMS — начало или конец НЛП?

Впереди ИИ — новые модели фундамента

🔗 Почта

Себастьян Рашка делится подробностями о последних LLM, включая модели LLaMA и GPT-4. Судя по всему, в сеть утекли подробности модели GPT-4:

GPT-4 — это языковая модель, содержащая примерно 1,8 триллиона параметров на 120 уровнях, что в 10 раз больше, чем GPT-3. Он использует модель «Смесь экспертов» (MoE) с 16 экспертами, каждый из которых имеет около 111 миллиардов параметров. Использование MoE позволяет более эффективно использовать ресурсы во время вывода: требуется всего около 280 миллиардов параметров и 560 терафлопс по сравнению с 1,8 триллиона параметров и 3700 терафлопс, необходимыми для чисто плотной модели.

Модель обучена примерно на 13 триллионах токенов из различных источников, включая данные Интернета, книги и исследовательские работы. Чтобы снизить затраты на обучение, OpenAI использует тензорный и конвейерный параллелизм, а также большой размер пакета — 60 миллионов. Ориентировочная стоимость обучения GPT-4 составляет около 63 миллионов долларов.