Публикации по тегам data-visualization

Публикации по теме 'data-visualization'

Что такое статистическая асимметрия?

Статистическая мера, известная как асимметрия, используется для характеристики степени асимметричности распределения вероятностей. Можно сказать, что структура распределения симметрична, если она имеет одинаковый внешний вид со всех сторон от своей центральной точки, которая часто является средним значением или медианой распределения. Распределение считается асимметричным, если оно не имеет симметричных пропорций. В следующих параграфах мы рассмотрим концепцию асимметрии в статистике,..

Метрики регрессии: определение эффективности алгоритма регрессии

Существует пять типов метрик регрессии, по которым мы можем найти ошибки или их производительность. Давайте посмотрим один за другим: - MAE (средняя абсолютная ошибка) - Это не что иное, как среднее значение разницы между фактическими значениями и прогнозируемыми значениями. - Давайте посмотрим на преимущества и недостатки этой метрики, потому что, если она идеальна, у нас нет пяти метрик. - Преимущества: - А) Единица МАЭ, как и единица выходного столбца, одинакова. Вот почему..

Беспорядок в реальных данных: отслеживание R0 COVID19 с помощью логистической функции.

TL; DR: история о том, как данные из реального мира плохо вписываются в чрезмерно упрощенную модель. Также известен как: Как постулирование идеально сферических коров приводит к отрицательным результатам . Эпистемический статус: я достаточно изучил глубокое обучение, чтобы понять, что это модель, требующая большого количества данных, и у нас недостаточно данных, чтобы COVID19 мог рассматривать ее как временные ряды. С таким же успехом можно было бы вписаться в старую добрую..

5 лучших библиотек Python для Data Science

Python долгое время был фаворитом специалистов по данным и сегодня является наиболее широко используемым языком программирования. Это потому, что он может удивить своих пользователей при выполнении задач и задач по науке о данных. Кроме того, Python — относительно простой язык для изучения, отладки и использования, и список его преимуществ можно продолжить. В прошлой статье мы рассмотрели Дорожную карту для науки о данных . Python был создан с использованием необычных библиотек..

Изучение набора данных цветов ириса

«Вы когда-нибудь слышали о наборе данных цветов ириса? Это один из самых известных наборов данных в мире машинного обучения и науки о данных, и не зря. Он состоит из 150 записей о цветках ириса, включая информацию об их длине и ширине чашелистиков и лепестков, а также о типе цветка ириса. В этом сообщении блога мы изучим набор данных Iris и узнаем о различных методах и методах, которые мы можем использовать для его анализа и понимания. Независимо от того, являетесь ли вы новичком или..

Исследование набора данных Netflix 2020 в R Markdown (EDA)

Исследование набора данных Netflix 2020 с помощью R Markdown (EDA) Набор данных состоит из телешоу и фильмов, доступных на Netflix по состоянию на 2019 год и часть 2020 года. Вы можете скачать его по этой ссылке: https://github.com/ygterl/EDA-Netflix-2020-in-R собранные из Flixable, сторонней поисковой системы Netflix. Исследование и изменение набора данных В этой части мы проверим наблюдения, переменные и значения наших данных. Этот раздел состоит из 3 частей; чтение, очистка..

🚢 Прогноз выживания Титаника с использованием XGBoost

15 апреля 1912 года Титаник столкнулся с айсбергом, в результате чего он затонул, что привело к гибели более 1500 человек. Это сделало его одним из самых смертоносных случаев затопления одиночного корабля. Мы попытаемся предсказать, выжил ли конкретный человек на Титанике или нет, используя 11 признаков о них. Для этого воспользуемся набором данных Титаник от Kaggle. Импорт библиотек Давайте сначала импортируем необходимые библиотеки. Если у вас не установлена определенная..