#О KWOC

KWOC или Kharagpur Winter of Code - это 5-недельная онлайн-программа, организованная KOSS или Kharagpur Open source Society для студентов различных колледжей, практически не имеющих опыта разработки программного обеспечения с открытым исходным кодом, которые могут участвовать в вкладе Open Source.

#Выбор проектов

Было так много проектов, связанных с различными областями, такими как машинное обучение, обработка естественного языка, веб-разработка, разработка приложений. Меня больше интересовали проекты, связанные с машинным обучением и обработкой естественного языка, и был один такой проект, который меня очаровал.

Название проекта-АНАЛИЗ ОБЩЕСТВЕННЫХ НАСТРОЕНИЙ С ИСПОЛЬЗОВАНИЕМ ПОНИМАНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА

Наставник – Саянтан Киртания, Чинмай Джайн

Описание проекта. Анализ тональности в обзорах, комментариях, твитах и ​​подписях — один из самых популярных проектов в области машинного обучения и машинного обучения. Мы также используем механизм NLU для анализа тональности текстов. как попытаться классифицировать размеченные тексты, используя модели BERT, Roberta.

Этот проект фокусируется на неразмеченном тексте, где мы пытаемся анализировать твиты хэштегов, используя разные библиотеки, и на основе нашего анализа мы можем делать графики и делать наблюдения, чтобы понять поведение общественного мнения в разное время, рисуя различные Кривые положительности и отрицательности.

Вклад №1

Запрос на вытягивание 1. Оценивайте тональность твитов с хэштегами с помощью dataset.csv.



Это был мой первый запрос на включение, который был создан в ответ на следующую проблему.



Вклад №2

Запрос на вытягивание 2: сделайте графики из оценок, созданных в задаче-1.

В этой задаче я построил графики положительной и отрицательной кривой, которые показали увеличение или уменьшение среднего положительного и среднего отрицательного баллов с течением времени.

Графики построены по дням, неделям и месяцам, чтобы мы понимали изменение настроений в течение этого периода времени.



Это был мой второй запрос на включение, который был сделан в ответ на следующую проблему.



#Объяснение задач

#Задача-1

Исходный набор данных выглядел так:

Я использовал библиотеку TextBlob, чтобы найти полярность обработанных твитов, а затем классифицировал твиты как положительные или отрицательные на основе этого. Затем нашли средний балл положительности и отрицательности этих твитов, и после этого набор данных выглядел так:

После этого я обучил модель Берта на 90% набора данных и проверил ее производительность на оставшихся 10% набора данных или наборе данных проверки. Точность составила 98,21%, а AUC — 0,984, что является очень хорошим показателем. AUC или площадь под кривой - это мера способности классификатора различать классы, более высокое значение означает лучшую производительность классификатора.

#Задание-2

#Дневной анализ

#Недельный анализ

#Месячный анализ

#Заключение

Графики подсчета показывают нам количество положительных и отрицательных твитов за один день, одну неделю и один месяц. Видно, что количество положительных твитов всегда больше количества отрицательных твитов и почти в пять раз больше.

Кривая позитивности и кривая негативности показывают нам тенденцию позитивности и негативности с течением времени. Из недельных и месячных кривых можно сделать вывод, что средний положительный балл и средний отрицательный балл становятся постоянными через некоторое время.

#Мои мысли

Kharagpur Winter of Code помог мне заняться разработкой с открытым исходным кодом, поэтому это было очень полезно для меня, и это был отличный опыт. Я также хотел бы поблагодарить моего наставника Саянтана Киртанию, который руководил мной на протяжении всего проекта и давал ценные отзывы о моей работе.

KWOC — это программа, ориентированная на новичков, поэтому я хотел бы предложить новичкам принять участие в этой программе, чтобы начать вносить свой вклад в открытый исходный код. Я хотел бы поблагодарить KOSS, IIT Kharagpur за проведение этой программы.

— Джей Дутонд