Публикации по теме 'text-classification'


Задача классификации текста с очень маленькими наборами данных: тонкая настройка по сравнению с ChatGPT
LLM превосходно работают с очень небольшими наборами данных, но классические подходы проявляют себя лучше по мере роста наборов данных. Команда Toloka ML постоянно исследует и сравнивает различные подходы к классификации текста в различных условиях. Здесь мы представляем еще один из наших экспериментов по производительности моделей НЛП при обучении на очень малых наборах данных. Ранее мы предоставили краткий обзор возможных решений и сравнили классические модели с моделями больших..

Магия AutoML на естественном языке GCP для классификации документов
Магия AutoML на естественном языке GCP для классификации документов Классификация текстов и документов является очень распространенным вариантом использования ML в отрасли, где значительный объем текстовой информации является основным источником для каждого сектора. Будь то розничная торговля, здравоохранение, электронная коммерция, автомобили, банковское дело или финансы, всегда найдется вариант использования, требующий классификации текста и документов. Ввод может быть в виде..

Учебное пособие: Введение в классификацию текста
Учебное пособие: Введение в классификацию текста В этом руководстве мы рассмотрим базовый рабочий процесс для обучения и оценки модели для классификации текста. Обратите внимание, что есть много важных аспектов, которые не рассматриваются далее, например, исследовательский анализ данных (EDA) или оптимизация гиперпараметров. В этом уроке мы возьмем реальный пример набора данных из 20 групп новостей, популярного среди сообщества НЛП. В этом наборе данных каждый образец помечен как..

Прогноз удовлетворенности клиентов для бакалейной электронной коммерции Отзывы клиентов
Сравнение подразумеваемой удовлетворенности текстом отзыва и заголовком Введение Вы когда-нибудь заказывали доставку продуктов онлайн, особенно после вспышки Covid-19? Поскольку пандемия быстро меняет привычки людей, все больше потребителей начали делать покупки в Интернете в большем количестве и чаще [1]. Это также можно увидеть в продуктовых магазинах. Многие эксперты указали, что сдвиг в сторону онлайн-каналов, вероятно, сохранится после пандемии и станет новой..

Модель классификации научных текстов на основе векторов документов
Введение В эту цифровую эпоху огромное количество текстовой информации увеличивается день ото дня в различных формах, таких как научные статьи, текстовые блоги и другие. В связи с этим автономная классификация текста становится жизненно важной необходимостью, чтобы избежать ручной классификации текста, которая громоздка и требует много времени. В этом блоге мы заинтересованы в решении проблемы классификации научных текстов, когда метаданные недоступны. Мотивация Наша цель —..

Классификация текста с использованием BERT
В этом посте мы рассмотрим, как выполнять классификацию текста с помощью BERT (представления двунаправленного кодировщика от Transformers), современной предварительно обученной языковой модели, разработанной Google. BERT произвел революцию в области обработки естественного языка (НЛП), добившись замечательных результатов в решении различных задач НЛП, включая классификацию текста. Что такое БЕРТ? BERT — это модель на основе преобразователя, предварительно обученная на большом массиве..

НЛП с использованием машинного обучения, часть 2
Существует три типа методов НЛП: эвристика, машинное обучение и глубокое обучение. Эвристика очень старая, она основана на вероятности и в настоящее время не используется. Примерно в 1990-х годах это был первый алгоритм. Примерно в 2010 году наступила эра машинного обучения, когда мы используем модель ML для более лучшего прогнозирования результатов, например скрытая модель Маркова (HMM), SVM и т. д. Глубокое обучение, поскольку данные становятся сложными, нам нужна более совершенная,..