Возможно, вам было интересно, чем занимается команда CODAIT. Возможно, вы задавались вопросом: Где мои новые модели на «IBM Model Asset eXchange?» Что ж, команда была очень занята нашим недавно анонсированным Data Asset eXchange, надежным источником курируемых открытых наборов данных, который будет интегрироваться с IBM Cloud и сервисами искусственного интеллекта. На самом деле, мы все еще усердно работаем за кулисами над Data Asset eXchange, так что следите за обновлениями!

Но не волнуйтесь, мы собрали несколько образцов для сообщества MAX. В последнее время глубокое обучение для обработки естественного языка (NLP) стало быстро развивающейся областью исследований в области машинного обучения. В MAX уже есть несколько моделей в ключевых областях НЛП (например, Классификатор тональности текста, Теггер именованных сущностей, Генератор текстовых обзоров и Генератор встраивания слов).

Сегодня мы рады анонсировать новую партию моделей для задач обработки естественного языка:

  • Классификатор токсичных комментариев — эта модель определяет, содержит ли фрагмент текста (обычно комментарий пользователя в Интернете) различные типы токсичного контента. Как и наш классификатор настроений, он основан на современной архитектуре BERT. Возможный вариант использования: автоматическая модерация комментариев пользователей к статьям или публикациям веб-сайта.
  • Суммаризатор текста — с помощью этой модели можно создать сводку для заданного фрагмента текста. Возможный вариант использования: автоматическое создание сводок или заголовков для новостных статей.
  • Китайский оценщик фонетического сходства — эта модель способна оценить фонетическое расстояние между китайскими словами и получить слова-кандидаты со схожим звучанием. Возможный вариант использования: функция проверки орфографии в социальных сетях.

Вы можете прочитать полную запись в блоге на IBM Developer.

Первоначально опубликовано на https://developer.ibm.com.