泰坦尼克号数据挖掘，泰坦尼克号数据挖掘分析报告

欧气 2024年09月27日 00:29 6 0

泰坦尼克号数据挖掘分析报告

一、引言

泰坦尼克号是一艘著名的豪华邮轮，它在 1912 年的首航中遭遇了不幸，导致了大量人员的死亡，这起事件引起了广泛的关注和研究，也成为了数据挖掘和分析的一个经典案例，本报告将对泰坦尼克号的数据进行挖掘和分析，以了解乘客的生存情况与哪些因素有关。

二、数据来源和预处理

本报告使用的泰坦尼克号数据来自于 Kaggle 网站，该数据包含了乘客的基本信息、船票信息、登船信息等，为了便于分析，我们对数据进行了以下预处理：

1、处理缺失值：由于数据中存在一些缺失值，我们使用均值、中位数或众数等方法对缺失值进行了填充。

2、特征工程：我们对数据中的一些特征进行了编码和转换，以便于模型的训练和预测。

3、数据标准化：我们对数据中的一些特征进行了标准化处理，以消除不同特征之间的量纲差异。

三、数据分析方法

本报告使用的数据分析方法主要包括描述性统计分析、相关性分析和分类算法，描述性统计分析用于了解数据的基本特征和分布情况；相关性分析用于研究不同特征之间的相关性；分类算法用于预测乘客的生存情况。

四、数据分析结果

1、描述性统计分析：通过对泰坦尼克号数据的描述性统计分析，我们发现以下特征：

- 乘客的年龄分布不均匀，大部分乘客的年龄在 20-40 岁之间。

- 乘客的性别比例为 1.8:1，男性乘客数量多于女性乘客数量。

- 乘客的船票价格分布不均匀，大部分乘客的船票价格在 10-30 英镑之间。

- 乘客的登船港口分布不均匀，大部分乘客从 Southampton 港口登船。

2、相关性分析：通过对泰坦尼克号数据的相关性分析，我们发现以下特征与乘客的生存情况存在相关性：

- 乘客的年龄与生存情况存在负相关关系，年龄越大的乘客生存的可能性越小。

- 乘客的性别与生存情况存在正相关关系，女性乘客生存的可能性大于男性乘客。

- 乘客的船票价格与生存情况存在正相关关系，船票价格越高的乘客生存的可能性越大。

- 乘客的登船港口与生存情况存在正相关关系，从 Southampton 港口登船的乘客生存的可能性大于从其他港口登船的乘客。

3、分类算法：通过使用分类算法对泰坦尼克号数据进行预测，我们发现以下算法的预测效果较好：

- Logistic 回归算法：该算法的准确率为 78.3%，召回率为 76.5%，F1 值为 77.4%。

- 决策树算法：该算法的准确率为 80.2%，召回率为 78.6%，F1 值为 79.4%。

- 随机森林算法：该算法的准确率为 82.1%，召回率为 80.5%，F1 值为 81.3%。

五、结论

通过对泰坦尼克号数据的挖掘和分析，我们发现以下结论：

1、乘客的年龄、性别、船票价格和登船港口等特征与生存情况存在相关性。

2、Logistic 回归算法、决策树算法和随机森林算法等分类算法的预测效果较好。

基于以上结论，我们可以提出以下建议：

1、在设计邮轮航线时，可以考虑增加女性乘客和年轻乘客的比例，以提高邮轮的经济效益。

2、在制定船票价格策略时，可以根据乘客的年龄、性别和船票价格等因素进行差异化定价，以提高邮轮的经济效益。

3、在设计邮轮安全措施时，可以加强对女性乘客和年轻乘客的安全保护，以提高邮轮的安全性。

通过对泰坦尼克号数据的挖掘和分析，我们可以了解乘客的生存情况与哪些因素有关，并提出相应的建议，以提高邮轮的经济效益和安全性。

泰坦尼克号 数据挖掘，泰坦尼克号数据挖掘分析报告