GenAI для музыки, NASA выпускает базовую геопространственную модель и GenAI для Jupyter.
Вот ваши еженедельные статьи, руководства и новости об НЛП и ИИ, выбранные для вас NLPlanet!
😎 Новости из Интернета
- AudioCraft: простой универсальный магазин для аудиомоделирования. Meta выпустила код и веса для своих моделей AudioCraft, включая MusicGen и AudioGen. Эти модели генерируют музыку и аудио соответственно на основе текстовых данных, введенных пользователем. Релиз также включает декодер EnCodec, улучшающий качество музыки.
- НАСА и IBM открыто выпускают базовую модель геопространственного ИИ для данных наблюдения Земли НАСА. НАСА и IBM Research совместно выпустили HLS Geospatial FM, геопространственную модель искусственного интеллекта с открытым исходным кодом для данных наблюдения Земли. Эта модель продемонстрировала успех в различных приложениях, таких как картирование наводнений, идентификация гарей и прогнозирование урожайности.
- Генеративный ИИ в Jupyter. Jupyter AI объединяет методы генеративного искусственного интеллекта и предоставляет такие функции, как генерация кода, исправление ошибок, обобщение контента, опрос файлов и создание блокнотов на основе языковых подсказок.
- YouTube использует ИИ для обобщения видео в последнем тесте. В настоящее время YouTube тестирует сводки видео, созданные с помощью искусственного интеллекта, чтобы помочь зрителям быстро определить релевантность видео. Эта функция использует генеративный ИИ и изначально будет доступна для англоязычных видеоблогов, покупок и обучающих видеороликов на мобильных устройствах.
- РТ-2: Новая модель воплощает видение и язык в действие. Meta Robotic Transformer 2 (RT-2) — это модель визуального языка и действия, которая сочетает в себе возможности веб-масштабирования с роботизированным управлением. Он эффективно распознает визуальные и языковые модели, обобщает возникающие навыки и успешно использует данные из Интернета для изучения новых навыков.
📚 Путеводители из Интернета
- История LLM с открытым исходным кодом: лучшие базовые модели. LLM с открытым исходным кодом развились, чтобы стать конкурентоспособными с проприетарными LLM благодаря достижениям в предварительном обучении и разработке моделей. Ранние проблемы были преодолены путем сосредоточения внимания на важности предварительного обучения и создания лучших базовых моделей. Недавние тенденции включают использование больших наборов данных перед обучением и оптимизацию моделей для быстрого вывода.
- Мультимодальный медицинский ИИ. LLM для медицинского ИИ сталкиваются с проблемой интеграции данных из различных источников, таких как медицинские изображения, клинические записи, лабораторные тесты, электронные медицинские карты и геномика. Различные исследовательские подходы включают использование внешних инструментов для каждого типа данных, адаптацию специализированных нейронных сетей для каждой области или создание интегрированной системы, объединяющей LLM с видеокодером.
- Понимание архитектуры LLaMA-2 и ее огромного влияния на GenAI. 77-страничная статья Meta по LLaMA-2 показывает впечатляющие результаты, превосходящие тесты с открытым исходным кодом и конкурирующие с GPT3.5. В статье описываются такие усовершенствования, как внимание к запросам Grouper, Ghost Attention, изменение масштаба температуры в контексте и временное восприятие.
- Установите свой LLM на одном графическом процессоре с помощью Gradient Checkpointing, LoRA и Quantization. Три метода, Gradient Checkpointing, LoRA и Quantization, могут помочь сэкономить память графического процессора и избежать ошибок памяти при точной настройке языковых моделей. Эти методы включают минимизацию слоев во время обучения, внедрение новых обучаемых параметров и снижение точности данных.
- 10 лучших LLM с открытым исходным кодом для использования в вашем следующем приложении LLM. В этой статье рассказывается о 10 лучших LLM с открытым исходным кодом для области ИИ. Эти LLM предлагают настраиваемые решения, возможности рассуждения, многоязычную поддержку, понимание естественного языка, генерацию текста, ответы на вопросы, интерфейсы чат-ботов, универсальность и надежность.
🔬 Интересные статьи и репозитории
- DeepSpeed-Chat: простое, быстрое и доступное обучение RLHF моделей, подобных ChatGPT, во всех масштабах. DeepSpeed-Chat — это доступный инструмент для обучения RLHF. Он обеспечивает простое в использовании обучение и вывод для LLM, повторяя обучение RLHF, используемое в InstructGPT. Унифицированная оптимизация обеспечивает эффективность и масштабируемость, позволяя быстро и недорого обучать модели с миллиардами параметров.
- ToolLLM: упрощение моделей больших языков для освоения более 16000 реальных API. Исследователи разработали набор данных с открытым исходным кодом под названием ToolBench для настройки инструкций по использованию API для повышения производительности языковых моделей. Они настроили LLaMA с помощью ToolBench и добились результатов, сравнимых с ChatGPT. Кроме того, они создали нейронный извлекатель API, который рекомендует соответствующие API, что позволяет ToolLLaMA использовать широкий спектр реальных API.
- Microsoft/azurechatgpt: Azure ChatGPT, частный и безопасный ChatGPT для внутреннего корпоративного использования. Microsoft представила Azure ChatGPT, частное и безопасное решение для развертывания экземпляров ChatGPT в Azure. Он предлагает встроенные гарантии конфиденциальности, полный контроль над доступностью и возможность интеграции внутренних источников данных и плагинов. Чтобы облегчить внедрение, Microsoft также разработала руководство по Solution Accelerator.
- PanGu-Coder2: Улучшение больших языковых моделей для кода с ранжированием обратной связи. Фреймворк RRTF, новый метод согласования кодовых LLM, превосходит RLHF. PanGu-Coder2, использующий RRTF, достигает впечатляющих результатов в нескольких тестах с 62,20% pass@1 на OpenAI HumanEval. Успех PanGu-Coder2 объясняется как RRTF, так и использованием высококачественных данных и оптимизацией модели.
- XSTest: набор тестов для выявления преувеличенного поведения безопасности в больших языковых моделях. Новый набор тестов под названием XSTest помогает оценить безопасность языковых моделей, выявляя преувеличенно безопасное поведение. Результаты тестирования показали, что модель Llama2 от Meta демонстрировала чрезмерно безопасное поведение, отказываясь от подсказок, которые были безобидными, но напоминали небезопасные или затрагивали деликатные темы. Такое поведение можно объяснить лексическим переоснащением, когда модели сосредотачиваются исключительно на опасных значениях слов, а не улавливают добрые намерения, как это делают люди.
- Документация по инструментам позволяет использовать инструменты Zero-Shot с большими языковыми моделями. Недавнее исследование показало, что для LLM чтение документации по инструментам более эффективно, чем полагаться исключительно на демонстрации для обучения использованию новых инструментов. Исследователи продемонстрировали это с помощью эмпирических результатов шести задач на зрение и язык, показав, что пустые подсказки с документацией по инструменту работают так же хорошо, как и подсказки с несколькими выстрелами в тестах.
- Эффект гидры: возникающее самовосстановление в вычислениях языковых моделей. Недавнее исследование языковых моделей обнаружило эффект гидры, когда удаление одного слоя внимания вызывает компенсацию в другом. Кроме того, исследователи обнаружили, что поздние слои MLP подавляют токен максимального правдоподобия даже в моделях, обученных без отсева.
- Навыки контекстной подсказки: раскрытие композиционности в больших языковых моделях. В новом исследовательском документе Подсказка по навыкам в контексте (SKiC) представлена как стратегия обучения изучающих языковые модели (LLM) сочетанию навыков. Подсказка SKiC позволяет LLM решать сложные задачи композиционности, предоставляя примеры конкретных навыков и их композиций в одной подсказке.
Спасибо за чтение! Если вы хотите узнать больше о НЛП, не забудьте подписаться на NLPlanet. Вы можете найти нас в LinkedIn, Twitter, Medium и на нашем Discord сервере!