Публикации по теме 'classification'


Как несбалансированный набор данных повлияет на производительность вашей модели?
Здравствуйте, друзья! Возможно, вы слышали, что модели, обученные на несбалансированных наборах данных, могут страдать от плохого обобщения и ограниченного обнаружения классов меньшинства. В следующих нескольких постах я приведу пример, показывающий, как несбалансированный набор данных влияет на производительность модели и как мы можем справиться с этой проблемой. В этом посте мы сначала загрузим данные и обработаем их для дальнейшего анализа. Загрузить данные Чтобы..

Использование тематических моделей LDA в качестве входных данных для модели классификации
Прогнозирование настроений при проверке Yelp в будущем Обзор тематического моделирования Тематическое моделирование в НЛП направлено на поиск скрытой семантической структуры в документах. Это вероятностные модели, которые могут помочь вам прочесать огромные объемы необработанного текста и сгруппировать похожие группы документов вместе без присмотра. Этот пост специально посвящен скрытому распределению Дирихле (LDA), который был методом, предложенным в 2000 году для популяционной..

Что такое матрица путаницы в машинном обучении?
В области машинного обучения вы, несомненно, встречали термин "Производительность модели" или "Оценка модели". Чем выше точность модели, тем она лучше. считается. Но почему оценка модели так важна? Когда мы обучаем нашу модель, мы хотим знать, насколько хорошо наша модель будет работать с невидимыми/тестовыми данными. Вот почему мы оцениваем нашу модель с помощью некоторых показателей оценки . Сегодня мы поговорим об одной из таких оценочных метрик, известной как матрица..

Прогноз удовлетворенности клиентов OLIST
Как мы все знаем, электронная коммерция (электронная коммерция) относится ко всей онлайн-деятельности, связанной с покупкой и продажей товаров и услуг. За несколько лет рынок электронной коммерции вырос, потому что люди предпочитают покупать и продавать в Интернете, поскольку это приносит комфорт, когда продукт можно купить и доставить к порогу. Следовательно, с легкостью покупки они могут легко дать отзыв о купленных продуктах, который может быть как положительным, так и отрицательным...

Наш клиент доволен или нет?
Это третий проект Стамбульской академии наук о данных. Проект был о классификации. Клиент доволен или нет? В этом проекте я использовал данные из Kaggle . Эти данные представляют собой данные компании электронной коммерции в Бразилии, и в ней есть почти все таблицы (такие как заказы, отзывы, продукты и т. д.). В этом наборе данных я попытался определить, удовлетворен ли клиент или нет, основываясь на оценках клиентов. В этом проекте я загрузил данные из базы данных. После..

Лесные пожары в США - Ад на Земле
Авторы: Prajval Gupta , Vrinda Sharma , Subhayu Chakravarty , Ritika Munjal и Whitt Hyde Обзор В последние годы лесные пожары в Северной и Южной Америке и во всем мире стали предметом многочисленных общественных дебатов. Они представляют серьезную угрозу самому нашему существованию. Ранее в этом году произошел огромный лесной пожар в тропических лесах Амазонки, в которых содержалось более 20 процентов мирового кислорода. Более половины из 10 миллионов видов растений,..

Что такое методология науки о данных?
Что такое методология науки о данных? Методологию можно определить как систему методов, используемых в той или иной области изучения или деятельности. Это метод исследования концепции фокусных точек. Теперь давайте посмотрим на «методологию» с точки зрения науки о данных. Вам дается какая-то проблема. Каким должен быть ваш подход? › Какую проблему вы пытаетесь решить? › Как вы можете использовать данные, чтобы ответить на вопрос? Теперь поработайте с данными: › Какие данные вам..