机器学习之特征选择的参数

技术支持

技术支持分类

机器学习之特征选择的参数

作者：成都软件开发
发表时间：2019-03-20 09:11
来源：未知

降维是通过获得一组主要变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。

维度降低是预测建模的重要因素。各种提出的方法已经通过图形或通过诸如过滤，包装或嵌入的各种其他方法引入了不同的方法。但是，大多数这些方法都是基于某些阈值和基准算法，这些算法确定数据集中要素的最优性。

降维的一个动机是高维数据集会增加时间复杂度，而且所需空间也会更多。此外，数据集中的所有功能可能都没有用。有些可能根本不提供任何信息，而有些可能会提供与其他功能类似的信息。选择最佳特征集将有助于我们减少空间和时间复杂度，以及分别提高监督和非监督学习的分类（或回归）和聚类（或关联）的准确性或纯度。

特征选择有四种不同的方法，如过滤方法，包装方法，嵌入方法和混合方法。

包装器方法：这种方法具有很高的计算复杂度。它使用学习算法来评估在分类中使用所选特征所产生的准确性。包装器方法可以为特定分类器提供高分类精度。

过滤方法：通过此方法选择要素的子集，而不使用任何学习算法。高维数据集使用此方法，并且它比基于包装器的方法相对更快。

嵌入式方法：应用学习算法确定此方法的特殊性，并在训练数据集的过程中选择特征。

混合方法：过滤器和基于包装器的方法都用于混合方法。该方法首先选择可能的最佳特征集，其通过包装器方法进一步测试。因此，它利用了过滤器和基于包装器的方法的优点。

特征选择参数：

参数根据两个因素进行分类 -

由这些特征贡献的信息的相似性：

1.相关性

这些特征主要根据其相关因子分类为相关或相似。在数据集中，我们有许多相关的功能。现在，具有相关特征的问题在于，如果f1和f2是数据集的两个相关特征，那么包括f1和f2的分类或回归模型将与预测模型相比，与f1或f1的情形相比f2包含在数据集中。这是因为f1和f2都是相关的，因此它们提供了与数据集中的模型相同的信息。有各种方法来计算相关因子，但是，Pearson的相关系数是最广泛使用的。Pearson相关系数（ {\ displaystyle \ rho ）的公式为：

{\ displaystyle \ rho _ {X，Y} = {\ frac {\ operatorname {cov}（X，Y）} {\ sigma _ {X} \ sigma _ {Y} \ newline}}}

哪里

cov（X，Y） - 协方差

sigma（X） - X的标准偏差

sigma（Y） - Y的标准偏差

因此，相关特征是无关紧要的，因为它们都贡献相似的信息。只有整个相关或相关特征的一个代表将给出相同的分类或回归结果。因此，在使用各种算法从每个关联或相关的特征组中选择特定代表之后，这些特征是冗余的并且被排除以用于降维。

由这些功能贡献的信息量：

1.熵

熵是衡量平均信息含量的指标。熵越高，该特征的信息贡献越高。熵（H）可以表示为：

{\ displaystyle \ mathrm {H}（X）= \ mathrm {E} [\ mathrm {I}（X）] = \ mathrm {E} [ - \ ln（\ mathrm {P}（X））] \ newline }

哪里

X - 离散随机变量X.

P（X） - 概率质量函数

E - 期望值运算符，

I - X的信息内容。

I（X） - 一个随机变量。

在数据科学中，通过排除特征f1然后计算其余特征的熵来计算特征f1的熵。现在，熵值越低（不包括f1），f1的信息内容越高。以这种方式，计算所有特征的熵。最后，阈值或进一步的相关性检查基于选择的特征来确定特征的最优性。熵主要用于无监督学习，因为我们在数据集中有一个类字段，因此特征的熵可以提供大量信息。

2.相互信息

在信息论中，互信息I（X; Y）是由于Y的知识而在X中的不确定量。在数学上，互信息被定义为

{\ displaystyle I（X; Y）= \ sum _ {y \ in Y} \ sum _ {x \ in X} p（x，y）\ log {\ left（{\ frac {p（x，y） } {p（x）\，p（y）}} \}）\ newline}}

哪里

p（x，y） - X和Y的联合概率函数，

p（x） - X的边际概率分布函数

p（y） - Y的边际概率分布函数

数据科学中的相互信息主要是通过特征来了解关于类共享的信息量。因此，主要用于监督学习中的降维。具有与监督学习中的类相对应的高互信息值的特征被认为是最优的，因为它们可以影响预测模型朝向正确预测并因此提高模型的准确性。