Публикации по теме 'titanic-dataset'


Прогнозирование цен на жилье с помощью машинного обучения
Введение Моя цель в этом проекте — создать комплексное решение для прогнозирования цен на жилье лучше, чем эксперты по недвижимости, которые делают это вручную. Мы будем использовать данные переписи населения Калифорнии, которые состоят из таких характеристик, как численность населения, средний доход, средняя цена дома и другие для каждого дома в Калифорнии. Давайте начнем с загрузки данных и некоторых общих необходимых библиотек. Понимание данных import sklearn import numpy..

Использование интерпретации модели с помощью SHAP для понимания того, что произошло на Титанике
Примечание . Это вторая часть из двух частей, посвященных анализу и пониманию набора данных Titanic. Часть 1 Вы найдете здесь . Вступление В прошлом посте я провел статистический анализ набора данных Титаника, чтобы ответить на вопрос, влияет ли социально-экономический класс пассажиров на их вероятность выживания. Тест статистической значимости показал, что переменная Pclass , которая представляет собой класс каждого человека, который я использовал в качестве показателя..

Машинное обучение на Databricks  — часть 2: эксперименты по моделированию
Код, обсуждаемый в этом посте, доступен по адресу: https://github.com/opsabarsec/titanic_on_databricks Заранее небольшая заметка для новичков в Data Science или просто для людей, которые думают, что Deep Learning = Magic. Лучшие данные, более умная разработка функций превзойдут лучший алгоритм 9–0. Наука о данных изучает данные, а не модели. Но, сказав это, экспериментирование с несколькими моделями и отслеживание результатов — типичная задача современных специалистов по данным...

Реализация алгоритма дерева решений для классификации с набором данных Titanic в Python
Деревья решений  – это популярный алгоритм машинного обучения , используемый для задач классификации и регрессии . В этом руководстве мы рассмотрим, как реализовать алгоритм дерева решений для классификации с использованием набора данных Titanic в Python. Набор данных «Титаник» является классическим примером в науке о данных и дает прекрасную возможность научиться использовать…

Логистическая регрессия - Часть III - Прогноз выживания при катастрофе на Титанике
Логистическая регрессия - Часть III - Прогноз выживания при катастрофе на Титанике В этой статье мы будем исследовать набор данных Titanic с логистической регрессией и классификационными метриками. Давайте посмотрим, как выполнить логистическую регрессию с помощью Python - LogisticRegression () из sklearn. Я взял набор данных Титаника от Kaggle. Https://www.kaggle.com/c/titanic/data Здесь я пропустил раздел обработки данных, кроме кодирования. Я напишу новый пост..

Мой первый шаг в Data Science — Kaggle Titanic
Так как, когда я думал о том, что делать в будущем, я всегда не могу дать себе направление. Однако, перейдя в университет и приняв участие в нескольких мероприятиях, проводимых университетскими сообществами, я постепенно обнаружил интерес к области обработки естественного языка, но она мне так непонятна, особенно как первокурснику, изучающему статистику. К счастью, я встретил Тима, преподавателя Уорикского университета из Кембриджского университета, он много меня направлял и давал много..

Случайные леса и One-Hot Encoding Введение: решение титанического набора данных машинного обучения Kaggle
Решение титанического набора данных машинного обучения Kaggle Набор данных Kaggle Titanic Machine Learning Dataset - классическое открытое введение в сферу машинного обучения. Хотя это может быть проект для начинающих, все же есть таблица лидеров (приятно видеть, как вы повышаете свой рейтинг по мере того, как вы продолжаете работать над своим кодом). Для начала необходимо загрузить файлы train.csv и test.csv прямо из Kaggle. Его можно скачать здесь:..