Я почти уверен, что большинство людей, читающих этот пост в блоге, знают о Титанике.

Нет, я не говорю о четырехчасовом полнометражном фильме Кэмерона с участием Ди Каприо и Кейт Уинслет.

И да, моя кровь тоже кипит от (внимание, спойлер!) смерти Джека. Ему хватило места в этом куске плавающих обломков после кораблекрушения. Я тебе это докажу. Посмотрите в конце поста.

Во всяком случае, я говорю о менее известном Титанике. Просто шучу. Путешествие корабля «Титаник», по которому снят фильм.

«Титаник», возможно, является одним из самых известных морских путешествий прошлого, к сожалению, не из-за чего-то славного, а из-за чего-то неудачного — несчастного случая, приведшего к кораблекрушению. 15 апреля 1912 года во время своего первого рейса «Титаник» затонул после столкновения с айсбергом, в результате чего погибли 1502 из 2224 пассажиров и членов экипажа. Эта сенсационная трагедия потрясла международное сообщество и привела к улучшению правил безопасности для судов.

Одной из причин того, что кораблекрушение привело к таким человеческим жертвам, было то, что не хватило спасательных шлюпок для пассажиров и экипажа. Несмотря на то, что выжить при затоплении был некоторый элемент удачи, некоторые группы людей выжили с большей вероятностью, чем другие.

Более подробную информацию можно найти здесь, на Kaggle.

Мне особенно интересно понять, какие факторы были наиболее значимыми, от чего больше всего зависело выживание человека, чтобы я знал свои шансы, если когда-нибудь отправлюсь в подобное путешествие.

Вопрос 1: Повышает ли наличие членов семьи на борту ваши шансы на выживание?

На приведенной выше гистограмме вы можете увидеть количество людей, которые не выжили (синим цветом)/ выжили (оранжевым цветом) и количество членов семьи, находящихся на борту. Здесь мы ясно видим, что максимальное количество людей путешествовало без семьи. И среди этих одиночек выжило лишь менее 30%.

Однако это не относится к 2–4 членам семьи на борту. Из этих пассажиров выжило больше, чем погибло.

Можно сделать вывод, что человек должен путешествовать с семьей для лучшей выживаемости. Но это, однако, не так. Пассажиры с более чем 5 членами семьи на борту имели меньшую выживаемость.

Вопрос 2: Было ли какое-либо преимущество в выживании для определенного пола?

Есть две визуализации, которые могли бы дать нам ответ на этот вопрос.

Во-первых, количество выживших самцов/самок: благодаря этому мы видим, что выживших самцов больше, чем самок. Кроме того, количество выживших мужчин также больше, чем женщин, которые не выжили. Так что это не дает ответа, и, следовательно, у нас есть следующий график.

Здесь сравнивается количество выживших / невыживших пассажиров мужского и женского пола и их общее количество. Из этого мы ясно делаем вывод, что из почти 550 самцов на борту выжило только 100, то есть 18%. В то время как среди женщин из 340 выжило почти 260, т.е. 75%. Поэтому мы отвечаем утвердительно, что да Женщины имели преимущество в выживании перед мужчинами. Поэтому я хочу подчеркнуть, что исходный подсчет выживаемости для пола не очень помог при ответе на заданный вопрос, но анализ относительных процентов, безусловно, полезен.

Вопрос 3: Какой атрибут пассажира сыграл решающую роль в выживании пассажиров?

Это очень субъективный вопрос, и на него может не быть прямого ответа. Потому что существует множество факторов, которые в совокупности могут повлиять на выживание пассажира. Однако, чтобы свести к тому, чтобы по-прежнему ранжировать атрибуты независимо друг от друга, у нас есть приведенная ниже диаграмма.

[Мы не будем вдаваться в технические подробности того, как была создана эта диаграмма. Но только для любопытных людей это было создано с использованием атрибута важности функции классификатора RandomForest, который изучает Scikit.

По сути, идея состоит в том, чтобы измерить снижение точности данных, когда мы случайным образом переставляем значения для этой функции. Если снижение низкое, то признак не важен, и наоборот. Чем выше число, тем выше важность этого атрибута/функции.]

Оказывается, «пол» человека больше всего влияет на прогноз выживания пассажира. Кроме того, из предыдущего анализа мы видим, что у женщин больше шансов выжить. После «пола» возраст, по-видимому, является важным фактором, влияющим на выживание конкретного человека.

Вывод:

В этом блоге мы рассмотрели различные вопросы, которые подчеркивают выживаемость пассажиров «Титаника» на основе набора данных Kaggle «Титаник».

1) Путешествие с членами семьи значительно повысит ваши шансы на выживание, если у вас не более 5 членов семьи. Кроме того, путешествие в одиночку может быть очень опасным.

2) Затем мы рассмотрели, как принадлежность к мужчине или женщине влияет на ваши шансы на выживание. И мы узнали, что женщины имеют подавляющее преимущество; С кричащей выживаемостью 75%, что для мужчин составляет всего около 18%.

3) Наконец, мы попытались выяснить, что является наиболее важным атрибутом для выживания пассажиров, и оказалось, что это его/ее пол, за которым следует возраст. Я думаю, это из-за старого кодекса поведения, которому следуют матросы и капитаны в случае угрожающих ситуаций: "Женщины и дети в первую очередь!".

Выводы здесь являются наблюдательными, а не результатом формального исследования. Итак, настоящий вопрос остается:

Смогли бы вы пережить катастрофу Титаника, если бы оказались на его борту?

Чтобы получить более подробную информацию об анализе и изучить код, посетите мой репозиторий Github здесь.

=======================================

А также те, кто ждет доказательств того, что двое могут поместиться на обломках, вот оно:

Спасибо, что прочитали!