本文深入分析了泰坦尼克号数据集,运用R语言技术从不同角度解析了这起灾难的历史事实。通过数据挖掘和可视化,揭示了乘客生存率的影响因素,探讨了社会阶层、性别与生存概率之间的关系,为理解历史事件提供了独特的视角。
本文目录导读:
泰坦尼克号沉船事件是人类历史上最著名的灾难之一,自1912年4月14日以来,这场悲剧已过去百年,但关于它的话题依然热度不减,本文将运用R语言对泰坦尼克号数据集进行深入分析,以期揭示灾难背后的原因,并从中汲取教训。
数据集介绍
泰坦尼克号数据集包含712个样本,其中412个为生还者,300个为遇难者,数据集包含以下变量:
图片来源于网络,如有侵权联系删除
1、Pclass:乘客等级(1、2、3)
2、Survived:是否生还(0、1)
3、Name:乘客姓名
4、Sex:乘客性别
5、Age:乘客年龄
6、SibSp:与兄弟姐妹同船的人数
7、Parch:与父母或配偶同船的人数
8、Ticket:船票号码
图片来源于网络,如有侵权联系删除
9、Fare:船票价格
10、Cabin:船舱号码
11、Embarked:登船港口(S、C、Q)
R语言数据分析
1、数据预处理
我们需要导入数据集,并对缺失值进行处理,以下代码展示了数据预处理的步骤:
导入数据集 data <- read.csv("titanic.csv") 查看数据集结构 str(data) 查看缺失值 summary(data) 处理缺失值 data$Age[is.na(data$Age)] <- median(data$Age) data$Embarked[is.na(data$Embarked)] <- "S"
2、数据可视化
为了更直观地了解数据集,我们可以通过绘制一些图表来展示不同变量之间的关系。
乘客等级分布 pie(table(data$Pclass), main="乘客等级分布", col=c("red", "green", "blue")) 男女比例 barplot(table(data$Sex), main="男女比例", xlab="性别", col=c("red", "blue")) 生还者与遇难者比例 pie(table(data$Survived), main="生还者与遇难者比例", col=c("green", "red"))
3、描述性统计分析
图片来源于网络,如有侵权联系删除
为了进一步了解数据集,我们可以计算一些统计量。
计算平均年龄 mean_age <- mean(data$Age) print(paste("平均年龄:", mean_age)) 计算年龄的中位数 median_age <- median(data$Age) print(paste("年龄中位数:", median_age)) 计算最高票价 max_fare <- max(data$Fare) print(paste("最高票价:", max_fare)) 计算最低票价 min_fare <- min(data$Fare) print(paste("最低票价:", min_fare))
4、生存率分析
我们可以通过分析不同变量与生还率之间的关系,来揭示灾难背后的原因。
乘客等级与生还率 table(data$Pclass, data$Survived) 性别与生还率 table(data$Sex, data$Survived) 年龄与生还率 table(data$Age, data$Survived) 船票价格与生还率 table(data$Fare, data$Survived)
5、逻辑回归分析
为了建立生还率的预测模型,我们可以使用逻辑回归。
构建逻辑回归模型 model <- glm(Survived ~ Pclass + Sex + Age + SibSp + Parch + Fare, data=data, family=binomial) 查看模型摘要 summary(model) 预测生还率 predict_prob <- predict(model, type="response") table(Survived, round(predict_prob))
通过R语言对泰坦尼克号数据集的分析,我们发现乘客等级、性别、年龄、船票价格等因素与生还率之间存在显著关系,在灾难发生时,我们应该关注这些因素,以最大限度地减少人员伤亡。
本文的分析结果也提醒我们,在现实生活中,要时刻关注各种风险,提高安全意识,以避免类似的悲剧再次发生。
评论列表