机器学习的维度降低_成都软件开发

技术支持

技术支持分类

机器学习的维度降低

作者：成都软件开发
发表时间：2019-03-21 08:58
来源：未知

什么是预测建模：预测建模是一个概率过程，允许我们根据一些预测因子预测结果。这些预测变量基本上是在决定最终结果时发挥作用的特征，即模型的结果。

什么是降维？

在机器学习分类问题中，通常有太多因素在进行最终分类的基础上。这些因素基本上是称为特征的变量。功能数量越多，就越难以可视化训练集然后对其进行处理。有时，大多数这些功能是相关的，因此是多余的。这就是降维算法发挥作用的地方。降维是通过获得一组主要变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。

为什么Dimensionality Reduction在机器学习和预测建模中很重要？

可以通过简单的电子邮件分类问题来讨论降维的直观示例，其中我们需要对电子邮件是否是垃圾邮件进行分类。这可能涉及大量功能，例如电子邮件是否具有通用标题，电子邮件的内容，电子邮件是否使用模板等。但是，这些功能中的一些可能会重叠。在另一种情况下，依赖于湿度和降雨量的分类问题可以折叠成仅一个基础特征，因为前述两者都高度相关。因此，我们可以减少此类问题中的特征数量。3-D分类问题可能难以可视化，而2-D分类问题可以映射到简单的2维空间，而1-D问题可以映射到简单的线。下图说明了这个概念，

降维的组成部分

降维有两个组成部分：

特征选择：在此，我们尝试找到原始变量或特征集的子集，以获得可用于对问题建模的较小子集。它通常涉及三种方式：

过滤

包装纸

嵌入式

特征提取：这将高维空间中的数据减少到较低维度空间，即较小的空间。尺寸。

维数降维方法

用于降维的各种方法包括：

主成分分析（PCA）

线性判别分析（LDA）

广义判别分析（GDA）

尺寸减小可以是线性的或非线性的，这取决于所使用的方法。下面讨论称为主成分分析（PCA）的主线性方法。

主成分分析

这种方法由Karl Pearson介绍。它的工作条件是，当较高维空间中的数据被映射到较低维空间中的数据时，较低维空间中的数据的方差应该是最大的。

它涉及以下步骤：

构造数据的协方差矩阵。

计算该矩阵的特征向量。

对应于最大特征值的特征向量用于重建原始数据的大部分方差。

因此，我们留下了较少数量的特征向量，并且在此过程中可能存在一些数据丢失。但是，剩余的特征向量应该保留最重要的方差。

降维的优点

它有助于数据压缩，从而减少存储空间。

它减少了计算时间。

它还有助于删除冗余功能（如果有）。

维度降低的缺点

这可能会导致一些数据丢失。

PCA倾向于发现变量之间的线性相关性，这有时是不可取的。

在平均值和协方差不足以定义数据集的情况下，PCA失败。

我们可能不知道要保留多少主要组件，但是应用了一些拇指规则。