背景:泰坦尼克号的沉没是世界上最严重的海难事故之一,造成了大量的人员伤亡。这是一艘号称当时世界上最大的邮轮,船上的人年龄各异,背景不同,有贵族豪门,也有平民旅人,邮轮撞击冰山后,船上的人马上采取措施安排救生艇转移人员,从本次海难中存活下来的,也就是幸存者
泰坦尼克号数据集为1912年泰坦尼克号沉船事件中相关人员的个人信息以及存活状况。包含了2224名乘客和船员的姓名、性别、年龄、船票等级、船票价格、船舱号、登船港口、生存情况等信息。这些历史数据已经被分为训练集和测试集,我们可以根据训练集训练出合适的模型并预测测试集中的存活状况
数据来源:https://www.kaggle.com/c/titanic
gender_submission.csv
:乘客编号与是否幸存记录train.csv
:训练集test.csv
:测试集数据集的属性信息(11特征+1标签)如下:
特征/标签 | 说明 |
---|---|
PassengerId | 乘客编号 |
Survived | 是否幸存,1是0否 |
Pclass | 船舱等级,1(一等)、2(二等)、3(三等) |
Name | 乘客姓名 |
Sex | 乘客性别 |
Age | 乘客年龄 |
SibSp | 与乘客同行的兄弟姐妹及配偶人数 |
Parch | 与乘客同行的父母及子女人数 |
Ticket | 船票编号 |
Fare | 船票价格 |
Cabin | 乘客座位号 |
Embarked | 乘客登船码头,C(Cherbourg)、Q(Queenstown)、S(Southampton) |