ВВЕДЕНИЕ

Анализ настроений, мощный метод обработки естественного языка (NLP), фокусируется на расшифровке намерений или мнений автора относительно конкретной темы или предмета в тексте. Этот подход NLP классифицирует чувства как положительные, нейтральные или отрицательные, что делает его бесценным для различных приложений, включая улучшение отношений с клиентами и фильтрацию пользовательских взаимодействий в цифровом пространстве. Однако разработка надежных моделей классификации текстов требует значительных данных, которые не всегда могут быть легко доступны. Принимая во внимание эту проблему, концепция трансферного обучения выступает как решение, меняющее правила игры. Используя знания из предварительно обученных моделей классификации текста, специалисты по данным могут создать приложение для анализа настроений, размещенное на таких платформах, как Hugging Face Spaces.

Эта статья предоставит читателям пошаговое руководство о том, как использовать трансферное обучение для разработки эффективного приложения для анализа настроений.

В этом проекте внимание будет уделено следующим этапам:

  • Получение данных
  • Исследовательский анализ данных
  • Тонкая настройка предварительно обученных моделей
  • Развертывание приложения

Получение данных

Для нашего проекта мы получили необходимые данные из шаблона задачи Zindi Africa. Набор данных состоял из четырех основных столбцов: идентификатор твита, безопасный_текст, метка и соглашение.

Среди них safe_text служил основной функцией нашей модели, а метка представляла наш целевой результат.

АНАЛИЗ ИССЛЕДОВАТЕЛЬСКИХ ДАННЫХ

Как и ожидалось, был проведен всесторонний исследовательский анализ данных, чтобы получить представление о наборе данных. Это включало в себя понимание его содержания, выявление любых отсутствующих значений и изучение его распределения, среди прочих факторов. Поскольку решаемая задача включала классификацию, особое внимание уделялось изучению метки или целевого баланса и его распределения. Эта информация имела решающее значение для определения подходящего метода SMOTE, который можно было бы применить для увеличения данных.

  • Обработка данных

После исследовательского анализа были начаты процедуры обработки данных. Для подготовки данных к моделированию было предпринято несколько шагов. Некоторые столбцы, которые считались нерелевантными, были удалены, а в столбце safe_text были удалены стоп-слова, знаки препинания, символы и смайлики, чтобы обеспечить более чистое представление текста. После того, как данные были очищены и предварительно обработаны, они были экспортированы в виде файла CSV для дальнейшего использования. Впоследствии очищенный набор данных был импортирован и использован для тонкой настройки предварительно обученных моделей.

ТОЧНАЯ НАСТРОЙКА ПРЕДВАРИТЕЛЬНО ПОДГОТОВЛЕННЫХ МОДЕЛЕЙ

В Hugging Face мы обнаружили три предварительно обученные модели для классификации текста, которые точно соответствовали требованиям нашей задачи.

Эти модели:

  • были xlnet-bert-case,
  • берт-без кожуха, и
  • cardiffnlp/twitter-xlm-roberta-base-sentiment.

Процесс тонкой настройки выбранной модели включал следующие этапы:

  • Разделение данных (обученные и оценочные подмножества данных)

Это важный шаг в процессе разработки модели, поскольку он позволяет нам эффективно оценивать производительность нашей обученной модели. Набор данных, полученный в ходе испытания Zindi Africa, был разделен на два основных подмножества: обученные данные и данные оценки.

  • Трансформеры и токенизация

При подготовке обучающего подмножества мы использовали Autotokenizer из библиотеки трансформаторов для выбранных предварительно обученных моделей на Hugging Face. Использование токенизации разбивает текстовые данные на более мелкие блоки, где каждый токен соответствует индексу из словаря модели.

Этот процесс также помогает преобразователям, используемым в этом проекте, успешно фиксировать взаимосвязь между различными словами во входном тексте.

В результате этого процесса токенизации набор данных был успешно преобразован в набор данных Hugging Face, готовый к дальнейшей обработке и обучению модели.

  • Обучение предварительно обученной модели

Используя методы нарезки, мы извлекли train_dataset и eval_dataset из словаря наборов данных и точно настроили предварительно обученные модели. Доработанные модели теперь доступны на моем Hugging Face Hub (https://huggingface.co/spaces/Kwabbs/SENTIMENT_APP).

РАЗВЕРТЫВАНИЕ ПРИЛОЖЕНИЯ

После обширного процесса тонкой настройки стало очевидно, что модель без корпуса bert превзошла все другие модели с тонкой настройкой с точки зрения производительности. Имея на руках эту выигрышную модель, мы приступили к развертыванию ее в удобном веб-приложении с использованием библиотеки Streamlit, обеспечив доступность и простоту использования для нашей аудитории.

Приложение для анализа настроений, основанное на модели bert-uncased, позволяет пользователям анализировать настроения в режиме реального времени, предоставляя ценную информацию об эмоциональном тоне текстовых данных. Благодаря удобному интерфейсу приложения как профессионалы, так и энтузиасты могут легко использовать возможности НЛП без необходимости сложных технических знаний.

Пользователи могут получить доступ к приложению по следующей ссылке: https://huggingface.co/spaces/Kwabbs/SENTIMENT_APP.

Вы также можете получить доступ к коду для этого проекта по ссылке ниже:

https://github.com/kwabenaboateng/LP5-SENTIMENT-ANALYSIS.git

ЗАКЛЮЧЕНИЕ

Анализ настроений меняет правила игры для профессионалов, стремящихся раскрыть скрытый потенциал в своих взаимодействиях. Используя возможности программирования на естественном языке (NLP) и анализа настроений, пользователи могут уверенно ориентироваться в конкурентной среде, улучшать свои сетевые навыки и создавать привлекательный онлайн-бренд. Окунитесь в будущее принятия решений на основе данных с нашим приложением для анализа настроений и поднимите свой опыт на новую высоту.

В этой статье отмечаются совместные усилия моей команды и меня по преобразованию концепций НЛП и переносу обучения в реальное приложение для анализа настроений.

Двигаясь вперед, мы с оптимизмом смотрим в будущее, зная, что благодаря нашим усилиям мы оказались в авангарде передовых технологий искусственного интеллекта.

#НЛП #ИИ #АЗУБИАФРИКА #обнимающее лицо #работа в команде