本文目录导读:
《独热编码与分布式编码:深入剖析两者的差异与独热编码后的特征选择》
独热编码与分布式编码的概念
(一)独热编码(One - Hot Encoding)
图片来源于网络,如有侵权联系删除
独热编码是一种将分类变量转换为机器学习算法能够处理的数值形式的方法,对于一个具有n个不同类别的分类特征,独热编码会创建n个新的二元特征,如果有一个“颜色”特征,包含红、绿、蓝三种颜色,经过独热编码后会变成三个新特征:“是否为红色”、“是否为绿色”、“是否为蓝色”,每个样本在这三个新特征上只有一个为1,其余为0,表示该样本所属的颜色类别。
(二)分布式编码(Distributional Encoding)
分布式编码是一种将信息以分布的形式表示的编码方式,它不像独热编码那样简单地用0和1表示类别,而是试图以一种更复杂的、反映数据分布特征的方式来编码信息,在自然语言处理中,单词的分布式编码可能基于单词在语料库中的共现关系,将单词映射到一个低维的向量空间,每个维度的值表示该单词与某个语义概念的关联程度。
独热编码与分布式编码的区别
(一)编码结果的形式
1、独热编码
- 独热编码的结果是稀疏的,在处理具有大量类别的分类变量时,会产生很多列的0和1,导致数据矩阵变得非常稀疏,在处理一个有1000个不同城市名称的“城市”分类变量时,独热编码会产生1000列,对于每个样本,只有其中一列是1,其余999列都是0。
2、分布式编码
- 分布式编码的结果通常是密集的向量,以词向量为例,一个单词的分布式编码向量可能是一个几十维或者几百维的实数向量,向量中的每个元素都有实际的数值意义,而不是简单的0或1。
(二)信息表示的方式
1、独热编码
- 独热编码主要是一种类别标识的转换,它只表示了类别之间的互斥关系,没有反映类别之间的任何语义或顺序关系,对于“季节”这个分类变量(春夏秋冬),独热编码后的四个特征并没有体现出季节之间的顺序或者相似性。
2、分布式编码
图片来源于网络,如有侵权联系删除
- 分布式编码能够捕捉到数据中的语义和关系信息,在词向量的分布式编码中,如果两个单词在语义上相近,它们的分布式编码向量在向量空间中的距离就会比较近。“国王”和“王后”这两个单词的分布式编码向量会比“国王”和“苹果”的向量距离更近。
(三)对模型的影响
1、独热编码
- 由于独热编码的稀疏性,在一些机器学习模型中可能会导致计算效率低下,在使用线性回归模型时,如果有大量的独热编码特征,计算矩阵乘法等操作时会花费更多的时间和内存,独热编码可能会导致模型过拟合,尤其是当类别数量很多而样本数量相对较少时。
2、分布式编码
- 分布式编码产生的向量可以直接作为神经网络等模型的输入,并且由于其能够捕捉语义关系,在自然语言处理、图像识别等领域的模型中能够提高模型的泛化能力,在图像识别中,将图像的特征以分布式编码的形式表示,可以更好地让卷积神经网络学习到图像的本质特征。
独热编码后的特征选择
(一)基于统计指标的特征选择
1、卡方检验
- 在独热编码后的分类特征中,可以使用卡方检验来衡量每个特征与目标变量之间的相关性,卡方检验通过计算观察值与期望值之间的差异来评估两个分类变量之间的独立性,对于独热编码后的每个二元特征,可以将其视为一个分类变量,与目标变量进行卡方检验,在一个预测客户是否购买产品(目标变量)的数据集里,有一个经过独热编码的“客户职业”分类变量,通过卡方检验可以确定哪些职业特征与购买行为有显著的相关性,从而选择出有价值的特征。
2、信息增益
- 信息增益是一种衡量特征对数据集不确定性减少程度的指标,对于独热编码后的特征,可以计算每个特征的信息增益,在一个文本分类任务中,对文本的分类标签(目标变量)和经过独热编码的词汇特征,计算每个词汇特征的信息增益,具有较高信息增益的特征能够更有效地帮助分类模型做出准确的预测,所以可以根据信息增益的值选择出重要的独热编码特征。
(二)基于模型的特征选择
图片来源于网络,如有侵权联系删除
1、线性模型中的系数
- 在使用线性回归或逻辑回归等线性模型时,模型的系数可以反映特征的重要性,对于独热编码后的特征,其对应的系数大小表示该特征对目标变量的影响程度,在一个预测房价(目标变量)的模型中,对“房屋类型”这个分类变量进行独热编码后,线性回归模型中每个独热编码特征(如“是否为别墅”、“是否为公寓”等)的系数大小可以用来判断该房屋类型特征对房价的影响大小,从而选择出对房价有重要影响的房屋类型特征。
2、树模型中的特征重要性
- 决策树和随机森林等树模型可以计算特征的重要性,在对分类变量进行独热编码后,将这些独热编码特征作为树模型的输入,可以得到每个特征的重要性得分,在一个预测疾病发生概率(目标变量)的数据集里,对“患者症状”这个分类变量进行独热编码后,通过随机森林模型可以得到每个症状特征的重要性得分,根据得分选择出对疾病预测有重要意义的症状特征。
(三)降维技术与独热编码特征选择
1、主成分分析(PCA)
- PCA是一种常用的降维技术,虽然PCA主要用于处理数值型数据,但在处理独热编码后的特征时也可以采用一些特殊的方法,可以将独热编码后的稀疏矩阵转换为密集矩阵后再应用PCA,PCA通过寻找数据的主成分,将高维数据投影到低维空间,在这个过程中,可以根据每个主成分中独热编码特征的贡献来选择重要的特征,在一个图像分类任务中,对图像的类别标签(分类变量)进行独热编码后,通过PCA将这些特征投影到低维空间,根据特征在主成分中的权重选择出对图像分类有重要作用的类别特征。
2、奇异值分解(SVD)
- SVD也是一种降维方法,对于独热编码后的矩阵,可以进行奇异值分解,SVD将矩阵分解为三个矩阵的乘积,通过分析这些分解后的矩阵,可以确定独热编码特征的重要性,在一个文本挖掘任务中,对文本的主题类别(分类变量)进行独热编码后,利用SVD可以找到对文本主题分类有重要意义的主题特征。
独热编码和分布式编码有着本质的区别,在进行独热编码后的特征选择时,可以采用多种方法,根据不同的任务需求和数据特点,选择出最适合的特征,以提高模型的性能和效率。
评论列表