Публикации по теме 'exploratory-data-analysis'


Прогнозирование цен с использованием регрессии машинного обучения - пример из практики
ИИ в электронной коммерции Прогнозирование цен с использованием регрессии машинного обучения - учебный пример Конкурс предложения цены Mercari В этой статье подробно описывается мой подход к решению задачи регрессии, которая также является популярным соревнованием Kaggle. Надеюсь, вы найдете это полезным и получите удовольствие от чтения :) Искусственный интеллект сегодня является неотъемлемой частью всех крупных компаний электронной коммерции. С развитием информационной..

(Линейный дискриминантный анализ) с использованием Python
(Линейный дискриминантный анализ) с использованием Python Линейный дискриминантный анализ (LDA) - это простой, но мощный метод линейного преобразования или уменьшения размерности. Здесь мы собираемся распутать черный ящик, скрытый за названием LDA. Общий подход LDA очень похож на Анализ главных компонентов . Но помимо нахождения компонентных осей, которые максимизируют дисперсию наших данных (PCA), нас дополнительно интересуют оси, которые максимизируют разделение между несколькими..

Функция профилирования Pandas
Сегодня изучите одну новую функцию библиотеки pandas, которая называется pandas_profiling. Как мы знаем, это модуль Python с открытым исходным кодом, который мы можем использовать для быстрого исследовательского анализа данных всего несколькими строками кода . Кроме того, этого недостаточно, чтобы убедить вас, позвольте мне рассказать вам еще одну интересную вещь о том, что мы можем создать интерактивный отчет в веб-формате, который может быть представлен любому человеку, даже если..

Понять закономерности в данных
Следующий шаг после импорта данных В моем предыдущем блоге я вкратце объяснил, как очистить данные, выполнить EDA (исследовательский анализ данных) и что такое базовая разработка функций. Допустим, вы выполнили read_csv и импортировали данные. Что дальше? Следующая важная вещь, о которой нужно поговорить, - это то, как мы можем понять и проанализировать различные шаблоны в нашем наборе данных. Это поможет нам решить несколько вопросов: a. Это поможет нам понять, сколько..

Обнаружение мошенничества с кредитными картами
Пандемия Covid-19, с которой мы боролись около 2 лет, также изменила наши покупательские привычки. В то время как привычка ходить в магазин почти исчезла, количество покупок в Интернете стало быстро расти. Потребителя, который покупает все в Интернете, от мебели до одежды, от продуктов питания до косметики, подстерегают большие опасности. Мошенничество с кредитными картами! Мошенничество с кредитными картами - одно из самых распространенных видов мошенничества в Интернете. Номера..

Dogs vs Cats  — проект по анализу разведывательных данных и машинному обучению
Меня как любителя домашних животных привлекла задача от Kaggle узнать, является ли животное на картинке кошкой или собакой. Задача Собаки против кошек предоставляет набор данных о фотографиях кошек и собак. Затем в этой проблеме распознавания изображений участников просят построить алгоритм для классификации, содержат ли изображения из неклассифицированных тестовых данных собаку или кошку. Хотя эту задачу легко решить человеческими глазами, компьютерам сложно ее классифицировать. В..

PDF, PMF и CDF в машинном обучении
Случайные переменные и различные функции распределения, лежащие в основе машинного обучения. Содержание Вступление Случайная переменная и ее типы PDF (функция плотности вероятности) PMF (функция вероятностных масс) CDF (кумулятивная функция распределения) Пример Дальнейшее чтение Вступление PDF и CDF - часто используемые методы в исследовательском анализе данных для нахождения вероятностной связи между переменными. Прежде чем просматривать содержимое этой страницы,..