本文目录导读:
《数据挖掘分类问题名词解释汇总》
分类问题的基本概念
1、分类(Classification)
- 在数据挖掘中,分类是一种有监督的学习任务,它的目标是根据已知类别的训练数据构建一个分类模型,以便对新的、未知类别的数据实例进行类别预测,在邮件过滤系统中,根据已标记为垃圾邮件和正常邮件的大量邮件样本(训练数据)构建分类模型,然后利用这个模型对新收到的邮件(未知类别数据)判断是垃圾邮件还是正常邮件。
- 分类过程涉及到从数据中提取特征,特征是描述数据实例的属性,比如对于描述客户的数据集,年龄、性别、消费金额等都可以作为特征,分类模型学习这些特征与类别的关系,从而实现分类。
图片来源于网络,如有侵权联系删除
2、训练集(Training Set)
- 训练集是用于构建分类模型的数据集合,它包含了已经知道类别的数据实例,这些数据实例的特征值和对应的类别标签被用于训练分类算法,在一个医疗诊断的分类任务中,训练集可能包含众多患者的症状(特征)以及他们最终被确诊的疾病(类别),训练集的质量和规模对分类模型的性能有着至关重要的影响,如果训练集过小,可能导致模型过拟合,即模型在训练集上表现很好,但在新数据上表现很差;如果训练集缺乏代表性,模型可能无法学习到准确的分类规则。
3、测试集(Testing Set)
- 测试集是独立于训练集的数据集合,其目的是评估分类模型的性能,测试集的类别标签在模型训练过程中是未知的,模型根据在训练集上学到的知识对测试集的数据实例进行类别预测,然后将预测结果与测试集实际的类别标签进行比较,从而得出模型的准确率、召回率等性能指标,在图像识别分类任务中,将一部分标记好的图像作为训练集构建模型,另一部分图像作为测试集,通过模型对测试集图像的识别结果来判断模型的好坏。
分类算法相关名词
1、决策树(Decision Tree)
- 决策树是一种常见的分类算法,它以树状结构表示分类决策过程,树的内部节点表示对一个特征的测试,分支表示测试输出,叶节点表示类别或者类别分布,在判断水果是苹果还是橙子的决策树中,内部节点可能是“颜色是否为红色”,如果是红色则沿着一个分支继续判断“形状是否为圆形”等,直到到达叶节点确定是苹果还是橙子,决策树的优点是易于理解和解释,能够处理离散和连续特征,并且不需要对数据进行归一化等预处理,决策树容易过拟合,尤其是当树生长得很深时。
2、支持向量机(Support Vector Machine,SVM)
- SVM是一种基于统计学习理论的分类算法,它的基本思想是找到一个最优的超平面,将不同类别的数据点尽可能地分开,在二维空间中,超平面是一条直线,在高维空间中则是一个超平面,支持向量是那些离超平面最近的数据点,它们对超平面的位置起着决定性的作用,在区分两类不同形状的几何图形数据时,SVM通过寻找最佳的分割线(在高维空间中的超平面)来将两类图形分开,SVM在处理小样本、非线性和高维数据时表现较好,并且具有较好的泛化能力,SVM的计算复杂度较高,尤其是在处理大规模数据集时,而且对参数的选择比较敏感。
图片来源于网络,如有侵权联系删除
3、朴素贝叶斯(Naive Bayes)
- 朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类算法,它假设特征之间相互独立,虽然这个假设在实际情况中往往不成立,但在很多情况下仍然能取得较好的分类效果,在文本分类中,将一篇文章分为体育类或娱乐类,朴素贝叶斯算法会根据文章中出现的单词(特征),利用贝叶斯定理计算这篇文章属于体育类或娱乐类的概率,然后将文章归为概率较大的那一类,朴素贝叶斯算法简单、高效,对大规模数据集的训练速度很快,并且对缺失数据不太敏感,但是由于其特征独立假设,在某些情况下可能会导致分类准确性下降。
分类性能评估名词
1、准确率(Accuracy)
- 准确率是分类模型最常用的性能评估指标之一,它表示分类正确的样本数占总样本数的比例,计算公式为:准确率=(预测正确的样本数/总样本数)×100%,在一个有100个数据实例的测试集中,如果模型正确预测了80个实例的类别,那么准确率就是80%,准确率能够直观地反映模型的整体分类性能,但在数据类别不平衡(正类样本占比很小,负类样本占比很大)的情况下,准确率可能会产生误导。
2、召回率(Recall)
- 召回率也称为查全率,主要用于衡量分类模型对正类样本的识别能力,它的计算公式为:召回率 = (预测为正类且实际为正类的样本数/实际为正类的样本数)×100%,在疾病诊断分类任务中,如果实际患有某种疾病(正类)的患者有50人,模型正确预测出其中40人患有该疾病,那么召回率就是80%,召回率越高,说明模型能够发现更多的正类样本,但可能会导致误判一些负类样本为正类样本。
3、F1 - 分数(F1 - Score)
- F1 - 分数是综合考虑准确率和召回率的一个性能指标,它是准确率和召回率的调和平均数,计算公式为:F1 - 分数 = 2×(准确率×召回率)/(准确率 + 召回率),F1 - 分数在1(最好)和0(最差)之间取值,当准确率和召回率都较高时,F1 - 分数也会较高,在信息检索、文本分类等任务中,F1 - 分数常被用来评估分类模型的性能,因为它能够平衡模型在准确率和召回率两方面的表现。
图片来源于网络,如有侵权联系删除
数据预处理与特征工程名词
1、数据归一化(Data Normalization)
- 数据归一化是数据预处理的一种重要方法,它的目的是将不同特征的数值范围调整到一个相对统一的区间内,常见的归一化方法有最小 - 最大归一化和Z - 分数归一化,最小 - 最大归一化将特征的值映射到[0, 1]区间,公式为:x'=(x - min(x))/(max(x)-min(x)),其中x是原始特征值,x'是归一化后的特征值,min(x)和max(x)分别是该特征的最小值和最大值,Z - 分数归一化则将特征值转换为均值为0,标准差为1的分布,公式为:x'=(x - μ)/σ,是特征的均值,σ是特征的标准差,数据归一化有助于提高某些分类算法(如基于距离的算法)的性能,因为这些算法对特征的数值范围比较敏感。
2、特征选择(Feature Selection)
- 特征选择是从原始数据的众多特征中选择出对分类最有帮助的特征子集的过程,在数据挖掘中,原始数据集往往包含大量的特征,但并不是所有的特征都对分类任务有用,有些特征可能是冗余的或者是噪声特征,在预测股票价格走势的分类任务中,股票的历史价格、成交量等可能是有用的特征,而股票公司的注册地址等可能是无关特征,通过特征选择,可以降低数据的维度,减少计算成本,提高分类模型的准确性和泛化能力,常见的特征选择方法有过滤式方法(如基于相关性的特征选择)、包裹式方法(如递归特征消除)和嵌入式方法(如基于决策树的特征重要性评估)。
3、特征提取(Feature Extraction)
- 特征提取是将原始数据转换为一组更有意义、更能代表数据本质特征的新特征的过程,与特征选择不同,特征提取不是简单地从原始特征中选择子集,而是通过某种变换来生成新的特征,在图像分类中,原始图像的像素值作为原始特征,通过主成分分析(PCA)等方法可以将图像的高维像素特征转换为低维的、更能代表图像主要信息的新特征,特征提取可以帮助挖掘数据中的隐藏信息,提高分类模型对数据的理解和分类能力,同时也有助于减少数据的维度,克服维度灾难问题。
评论列表