Публикации по теме 'exploratory-data-analysis'


Обнаружение и анализ мошенничества со стороны медицинских работников с использованием машинного обучения: -
Проблема двоичной классификации для определения того, является ли конкретный провайдер мошенничеством или нет, с использованием набора данных kaggle Здравоохранение играет важную роль в жизни людей и должно быть доступным. Индустрия здравоохранения представляет собой сложную систему с множеством движущихся компонентов. Он быстро расширяется. В то же время мошенничество в этой отрасли становится критической проблемой. Мошенничество в сфере здравоохранения - это организованная..

Задача Starbucks Capstone: анализ предложений и прогнозирование успеха.
Обзор проекта В основе этого проекта лежит анализ и поиск предложений, которые успешно привлекают существующих клиентов компании и привлекают новых. Starbucks - это компания, ориентированная на данные, которая явно инвестирует в получение 360-градусного обзора клиентов с использованием наборов данных, содержащих информацию о клиентах, специальные предложения и транзакции. Чтобы создать модель, которая может классифицировать успех специального предложения, я работал в три этапа:..

Dogs vs Cats  — проект по анализу разведывательных данных и машинному обучению
Я извлек набор данных о собаках и кошках из Kaggle с двумя zip-файлами: «train.zip» и «test1.zip». «train.zip» относится к обучающим данным, которые содержат изображения собак/кошек, идентификаторы изображений и метки — на изображении изображена собака или кошка. Например, изображение кошки в обучающих данных может иметь имя «cat.1024.jpg», как показано ниже. «test1.zip» относится к данным тестирования, которые содержат изображения собак/кошек, идентификаторы изображений, но не..

Проект классификации болезней сердца - Часть I
Исследовательский анализ данных по набору данных по болезням сердца UCI Сердечно-сосудистые заболевания или болезни сердца являются основной причиной смерти среди женщин и мужчин и среди большинства расовых / этнических групп в Соединенных Штатах. Болезнь сердца описывает ряд состояний, которые влияют на ваше сердце. Заболевания, относящиеся к сердечно-сосудистым заболеваниям, включают заболевания кровеносных сосудов, такие как ишемическая болезнь сердца. По данным CDC , примерно..

Рекомендация по категории торговцев Эло - пример из практики
Рекомендация по категории продавца Elo - пример использования машинного обучения В современную эпоху машинное обучение присутствует практически во всех аспектах нашей жизни. От такого простого, как предоставление фильмов и рекомендаций по продуктам, до чего-то сложного, например, использования бизнес-данных для вывода и принятия бизнес-решений для организаций, машинное обучение и искусственный интеллект за последние несколько десятилетий прошли долгий путь. Сегодня я собираюсь..

Альтернатива, чтобы получить количество комнат
Это был бы более понятный способ получить количество комнат и, скорее всего, иметь лучшую производительность: Регулярное выражение будет искать только подстроки со следующей структурой [один или несколько пробелов]T[одна или две цифры][и неопределенное число или пробелы], например, он будет соответствовать «T2» в следующей строке что угодно T2, что угодно или «T10», в следующем что угодно Т10, что угодно Я думаю, что поиск этих очень специфических структур подстрок сделает..

EDA и профилирование панд
Эффективный быстрый процесс исследования данных. Исследовательский анализ данных - это процесс изучения данных, получения информации, проверки гипотез, проверки предположений и выявления скрытых закономерностей в данных. Пояснительный анализ данных (EDA) - это подход к анализу наборов данных для обобщения основных характеристик наборов данных, часто посредством визуализации. Часто это один из самых важных этапов анализа данных, который выполняется перед использованием любого..