Что произошло на этой неделе в AI by Louie

На этой неделе в мире ИИ в центре внимания были оценки производительности модели LLM. В частности, оживленные дебаты разгорелись вокруг недавнего исследования, проведенного студентами из Стэнфорда и Беркли. В исследовании представлены данные, свидетельствующие о том, что модели GPT-4 могут испытывать снижение производительности, что в просторечии называют тупее с течением времени. В документе предлагался ряд оценок, таких как определение простых чисел, которые снизились с 97,6% в марте до 2,4% в июне, а точность решения вопросов по кодированию значительно снизилась с 52% до 10%.

Это вызвало множество дискуссий, в том числе о том, отдает ли OpenAI приоритет скорости вывода и стоимости, а не производительности модели. Также продолжаются дискуссии относительно точности этих утверждений. Появились некоторые выводы, указывающие на то, что более поздние модели демонстрируют значительно улучшенную производительность просто за счет изменения форматирования вывода. Кроме того, другая оценка показала, что ни одна из версий API не превзошла чистую случайность, когда дело дошло до проблемы классификации простых чисел. В ответ на новые выводы авторы статьи разъяснили свои намерения, заявив, что целью эксперимента не было продемонстрировать ухудшение качества в API OpenAI. Вместо этого они стремились пролить свет на проблему нестабильности и повысить осведомленность о возможном сбое приложений при изменении ответов базовой модели. Кроме того, OpenAI рассмотрела эти претензии в своем блоге и заверила пользователей, что предпринимает шаги для повышения стабильности API. Они предоставляют разработчикам возможность указывать и использовать конкретную версию модели, тем самым обеспечивая больший контроль и предсказуемость в своих приложениях.

Что касается оценок GPT-4 на этой неделе, то отдельное исследование, проведенное на экзаменах по клиническим случаям, сравнило GPT-4 со студентами-медиками, и результаты показали, что GPT-4 превзошел студентов первого и второго курсов Стэнфорда. В исследовании уточняется, что они не использовали какой-либо специальной техники подсказок. Один из авторов отправился в Твиттер, чтобы поделиться мыслями о результатах, вызвав дискуссии о переосмыслении будущего оценивания учащихся.

Мы нашли обе эти статьи интересными, а возможное ухудшение производительности GPT-4 вызвало важные дебаты. Для нас ясно одно — в мире коммерческих продуктов, использующих LLM API, меняющаяся и нестабильная производительность LLM для конкретных задач и конкретных подсказок по мере обновления моделей — это новая проблема для разработчиков и компаний, с которой приходится работать. И это будет тем более важно для потенциальных медицинских применений! Мы также считаем, что нам нужно больше работать над стандартами оценки LLM в более широком смысле, включая точное и последовательное сравнение производительности новых LLM с открытым исходным кодом, таких как Llama 2.

– Луи Питерс, соучредитель и генеральный директор компании Towards AI

Эта проблема представлена ​​вам:

Присоединяйтесь к нам на ведущей в отрасли конференции по искусственному интеллекту Ai4 2023, которая пройдет в Лас-Вегасе 7–9 августа в MGM Grand. Это ваш последний шанс присоединиться к более чем 2200 лидерам ИИ, 240 спикерам и 100 передовым экспонатам ИИ. Подать заявку на бесплатный пропуск или зарегистрироваться сейчас, чтобы сэкономить 12% от окончательной цены.

Горячие новости

  1. Мета выпускает Ламу 2

Meta выпустила Llama-2, модель с открытым исходным кодом с коммерческой лицензией, которая демонстрирует производительность, аналогичную ChatGPT. Обученный на токенах 2T с различными размерами параметров, Llama-2 подвергся дальнейшей тонкой настройке и усовершенствованию за счет комбинации инструкций и обучения с подкреплением, превзойдя по производительности другие модели с открытым исходным кодом, такие как Falcon и MPT.

2. Представляем LangSmith: унифицированную платформу для приложений LLM

LangChain разработала LangSmith, платформу, призванную помочь разработчикам сократить разрыв между прототипом и производством. Предоставляя необходимые функции отладки, тестирования, оценки и мониторинга, LangSmith помогает специалистам по искусственному интеллекту выявлять и устранять такие проблемы, как неожиданные результаты, ошибки и задержки.

3. Apple тестирует чат-бот с искусственным интеллектом, похожий на ChatGPT

Apple разрабатывает своего чат-бота под названием «Apple GPT», чтобы бросить вызов OpenAI и Google. Несмотря на первоначальные проблемы с безопасностью, чат-бот теперь более широко доступен сотрудникам Apple для целей прототипирования, с ограниченным использованием и без разрешенных функций, привязанных к клиентам.

4. Cerebras Systems подписывает контракт на суперкомпьютер с искусственным интеллектом на сумму 100 миллионов долларов с G42 из ОАЭ

Cerebras Systems объявила о сделке с G42 на 100 миллионов долларов, что означает дебют суперкомпьютеров с искусственным интеллектом, которые потенциально могут бросить вызов рыночным позициям Nvidia. Чтобы ускорить развертывание, Cerebras построит три системы Condor Galaxy в Соединенных Штатах, а первый суперкомпьютер будет запущен в этом году.

5. Пользовательские инструкции для ChatGPT

OpenAI представляет персонализированные пользовательские инструкции для ChatGPT, позволяя пользователям иметь более индивидуальный и адаптируемый опыт. Эта функция подчеркивает важность индивидуальной настройки для удовлетворения различных потребностей. Пользовательские инструкции будут постепенно распространяться среди всех пользователей, а доступ к бета-версии изначально будет предлагаться подписчикам плана Plus.

Пять 5-минутных чтений/видео, чтобы вы продолжали учиться

  1. LLaMA 2 — все ресурсы, которые вам нужны

Этот пост в блоге включает все соответствующие ресурсы, которые помогут вам начать работу с LLaMa 2. В нем собраны такие темы, как «Что такое LLaMa 2», где вы можете протестировать модель, исследования, лежащие в основе модели, насколько хороша модель, как правильно подсказать модель чата и многое другое.

2. Галлюцинации в ИИ

Галлюцинации в ИИ продвигают гиперболические нарративы вокруг базовых моделей и открытого исходного кода. Трудно понять, чему верить и кому доверять. Это проницательное чтение Джона Латтига углубляется в некоторые нарративы и тенденции в области ИИ, которые легко неверно истолковать или просто ошибочны.

3. Создание AI WebTV

Проект AI WebTV демонстрирует потенциал моделей преобразования текста в видео, таких как Zeroscope и MusicGen, в создании развлекательных видео. Созданный с использованием сервисов Hugging Face, он использует комбинацию ChatGPT, Zeroscope V2 и FILM для создания высококачественных видеоклипов с музыкальным сопровождением.

4. Опасаясь не того

Майк Лукидес утверждает, что единственное, чего следует опасаться, — это неспособность перейти к программированию с помощью ИИ. Он говорил и писал о конце программирования, но что это означает на практике? В этой статье Майк рассказывает, почему и как использование ИИ изменит дисциплину в целом.

5. Как обеспечить согласованность визуальных эффектов ИИ

В этом руководстве основное внимание уделяется обеспечению согласованности визуальных эффектов ИИ. Он предлагает базовые и продвинутые методы для достижения контроля согласованности в Stable Diffusion, Midjourney и InsightFace.

Бумаги и репозитории

  1. FlashAttention-2: более быстрое внимание с улучшенным параллелизмом и разделением работы

Стэнфордский университет представил FlashAttence-2, алгоритм, который ускоряет внимание и сокращает использование памяти в языковых моделях. Обновленная версия работает в 2 раза быстрее, чем оригинал, и обеспечивает улучшенную производительность за счет лучшего параллелизма и методов разделения работы.

2. Затерянные посередине: как языковые модели используют длинные контексты

В этом исследовании исследуется производительность языковых моделей при использовании расширенных контекстов для таких задач, как ответы на вопросы и поиск. В то время как модели превосходно находят релевантную информацию в начале или в конце ввода, их производительность снижается при доступе к средним разделам длинных контекстов. В исследовании подчеркиваются проблемы эффективного использования длинных контекстов и подчеркивается необходимость будущих улучшений в этой области.

3. На пути к унифицированному агенту с базовыми моделями

Исследователи обнаружили, что включение языковых моделей и моделей языка видения в агенты обучения с подкреплением может решить серьезные проблемы в этой области. Используя знания, хранящиеся в этих моделях, агенты могут эффективно исследовать среду с низким вознаграждением, повторно использовать данные для обучения, планировать навыки для новых задач и учиться на наблюдениях экспертов.

4. Учимся извлекать контекстные примеры для больших языковых моделей

Исследователи разработали структуру, которая использует плотные ретриверы для автоматического выбора высококачественных примеров для изучения LLM в контексте. Экспериментальные результаты демонстрируют его эффективность в улучшении производительности LLM путем поиска похожих и контекстуально релевантных примеров.

5. Как поведение ChatGPT меняется со временем?

В ходе исследования изучалась производительность GPT-3.5 и GPT-4 при выполнении различных задач с течением времени. Были обнаружены некоторые существенные различия в их поведении: точность GPT-4 в определении простых чисел снизилась с марта по июнь 2023 года. Кроме того, обе модели показали увеличение ошибок форматирования во время генерации кода.

Понравились эти статьи и сводки новостей? Получайте ежедневный обзор на почту!

Раздел сообщества Learn AI Together!

Мем недели!

Мем поделился rucha8062

Избранный пост сообщества из Discord

Компания Лувивьен разработала торговое приложение на базе искусственного интеллекта с открытым исходным кодом, которое легко подключается к Alpaca, позволяя пользователям получать доступ к позициям, ордерам и проводить операции с акциями. С помощью этого приложения пользователи могут импортировать совместные торговые стратегии и эффективно управлять торговыми средствами ИИ. Вы можете изучить этот проект на GitHub и поддержать другого члена сообщества. Для тех, кто интересуется торговлей ИИ, вы можете присоединиться к этому проекту с открытым исходным кодом, подключившись к ветке здесь.

AI-опрос недели!

Присоединяйтесь к обсуждению в Discord.

TAI Кураторский раздел

Статья недели

Решение самой большой проблемы SimCLR — объяснение статьи BYOL, Борис Мейнардус

SimCLR успешно реализовала идею контрастного обучения и в то время достигла нового уровня производительности. Однако у этой идеи есть фундаментальные недостатки, такие как ее чувствительность к конкретным аугментациям и требование очень больших размеров партий. Новый подход к самоконтролируемому обучению под названием Bootstrap Your Own Latent (BYOL), разработанный исследователями DeepMind, реализует совершенно новый подход к обучению самоконтролируемых моделей.

Наши обязательные к прочтению статьи

Используйте возможности векторных баз данных: влияние на языковые модели с помощью персонализированной информации, автор Pere Martra

Машинное обучение в неевклидовом пространстве Мастафа Фуфа

Лучшие статьи о компьютерном зрении за неделю с 7 октября по 16 июля от Youssef Hosni

Ускорение науки о данных: интерпретатор кода ChatGPT в качестве вашего помощника по искусственному интеллекту, Эсмаил Ализаде

Если вы заинтересованы в публикации с помощью Towards AI, ознакомьтесь с нашими рекомендациями и зарегистрируйтесь. Мы опубликуем вашу работу в нашей сети, если она соответствует нашим редакционным политикам и стандартам.

Предложения о работе

Руководитель по работе с контентом и разработчиками @ngrok Inc. (удаленно)

Старший бэкэнд-инженер @Remote (Remote)

Старший инженер-программист по инфраструктуре @ClickHouse (удаленно)

Разработчик продукта @Shiru (Аламеда, Калифорния, США)

Старший инженер по тестированию программного обеспечения @Clari (Бангалор, Индия)

Инженер по продукту @Encord (Лондон, Великобритания)

Хотите поделиться здесь вакансией? Обращайтесь по адресу [email protected].

Если вы готовитесь к следующему собеседованию по машинному обучению, обязательно посетите наш ведущий веб-сайт для подготовки к собеседованию, confetti!