这场灾难以拯救“妇女和儿童第一”而闻名，所以让我们来看看性别和年龄变量。

由Kaizong Ye，Coin Ge撰写

我们将从乘客的性别开始。将数据重新加载到R后，请查看此变量的摘要：


> summary(train$Sex)
 
female male
 
314 577

所以我们看到大多数乘客都是男性。对幸存的男性和女性进行比较：

可下载资源

完整程序、数据和文档（word）


> prop.table(table(train$Sex, train$Survived))
 
0 1
 
female 0.09090909 0.26150393
 
male 0.52525253 0.12233446

1.问题描述

RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日，在首次航行期间，泰坦尼克号撞上冰山后沉没，2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会，并导致了更好的船舶安全条例。

海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素，但一些人比其他人更有可能生存，比如妇女，儿童和上层阶级。

在这个挑战中，我们要求你完成对哪些人可能生存的分析。特别是，我们要求您运用机器学习的工具来预测哪些乘客幸免于难。

2.数据集描述

题目提供的训练数据集包含11个特征，分别是：

Survived:0代表死亡，1代表存活

Pclass:乘客所持票类，有三种值(1,2,3)

Name:乘客姓名

Sex:乘客性别

Age:乘客年龄(有缺失)

SibSp:乘客兄弟姐妹/配偶的个数(整数值)

Parch:乘客父母/孩子的个数(整数值)

Ticket:票号(字符串)

Fare:乘客所持票的价格(浮点数，0-500不等)

Cabin:乘客所在船舱(有缺失)

Embark:乘客登船港口:S、C、Q(有缺失)

我们希望看到的是行比例，即存活的每个性别的比例。

> prop.table(table(train$Sex, train$Survived),1)
 
0 1
 
female 0.2579618 0.7420382
 
male 0.8110919 0.1889081

我们现在可以看到大多数女性幸存下来，并且男性的比例非常低。

> test$Survived <- 0
> test$Survived[test$Sex == 'female'] <- 1

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

在这里，我们添加“everyone dies”预测列，将零指定给整个列。然后我们改变其中女性乘客为1。

现在让我们写一个新的提交并发送给Kaggle

现在让我们研究年龄变量：

> summary(train$Age)
 
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
 
0.42 20.12 28.00 29.70 38.00 80.00 177

数据分析中缺少值，这可能会导致各种问题，而这些问题有时很难处理。目前我们可以假设177个缺失值是其余乘客的平均年龄。

现在我们有一个连续的变量，我们创建一个新的变量“Child”来表明乘客是否低于18岁：

> train$Child <- 0
> train$Child[train$Age < 18] <- 1

现在我们要创建一个包含性别和年龄的表，以查看不同子集的生存比例。首先让我们尝试找出不同子集的幸存者数量：


> aggregate(Survived ~ Child + Sex, data=train, FUN=sum)
 
Child Sex Survived
 
1 0 female 195
 
2 1 female 38
 
3 0 male 86
 
4 1 male 23

但我们不知道每个子集中的总人数; 让我们来看看：


> aggregate(Survived ~ Child + Sex, data=train, FUN=length)
 
Child Sex Survived
 
1 0 female 259
 
2 1 female 55
 
3 0 male 519
 
4 1 male 58

R语言广义线性模型GLM、多项式回归和广义可加模型GAM预测泰坦尼克号幸存者

阅读文章 ➜

我们需要创建一个函数，它将子集向量作为输入，然后进行除法以给出一个比例。

随时关注您喜欢的主题


> aggregate(Survived ~ Child + Sex, data=train, FUN=function(x) {sum(x)/length(x)})
 
Child Sex Survived
 
1 0 female 0.7528958
 
2 1 female 0.6909091
 
3 0 male 0.1657033
 
4 1 male 0.3965517

虽票价是一个连续变量，需要将其简化为可以轻松制表的内容。我们将票价收入不到10美元，10美元到20美元，20美元到30美元以及30美元以上，并将其存储到一个新变量中：

> train$Fare2 <- '30+'
> train$Fare2[train$Fare < 30 & train$Fare >= 20] <- '20-30'
> train$Fare2[train$Fare < 20 & train$Fare >= 10] <- '10-20'
> train$Fare2[train$Fare < 10] <- '<10'

现在让我们运行一个更长的聚合函数，看看这里有什么有趣的东西：

> aggregate(Survived ~ Fare2 + Pclass + Sex, data=train, FUN=function(x) {sum(x)/length(x)})
 
Fare2 Pclass Sex Survived
 
1 20-30 1 female 0.8333333
 
2 30+ 1 female 0.9772727
 
3 10-20 2 female 0.9142857
 
4 20-30 2 female 0.9000000
 
5 30+ 2 female 1.0000000
 
6 <10 3 female 0.5937500
 
7 10-20 3 female 0.5813953
 
8 20-30 3 female 0.3333333 **
 
9 30+ 3 female 0.1250000 **
 
10 <10 1 male 0.0000000
 
11 20-30 1 male 0.4000000
 
12 30+ 1 male 0.3837209
 
13 <10 2 male 0.0000000
 
14 10-20 2 male 0.1587302
 
15 20-30 2 male 0.1600000
 
16 30+ 2 male 0.2142857
 
17 <10 3 male 0.1115385
 
18 10-20 3 male 0.2368421
 
19 20-30 3 male 0.1250000
 
20 30+ 3 male 0.2400000

大部分男性和票价表现效果不好。

让我们根据新的见解做出新的预测。

> test$Survived <- 0
> test$Survived[test$Sex == 'female'] <- 1
> test$Survived[test$Sex == 'female' & test$Pclass == 3 & test$Fare >= 20] <- 0

好的，让我们创建输出文件，看看我们是否做得更好！

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

1.问题描述

2.数据集描述

R语言广义线性模型GLM、多项式回归和广义可加模型GAM预测泰坦尼克号幸存者

随时关注您喜欢的主题

相关文章

R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

1.问题描述

2.数据集描述

R语言广义线性模型GLM、多项式回归和广义可加模型GAM预测泰坦尼克号幸存者

随时关注您喜欢的主题

相关文章

关注有关新文章的微信公众号