数据科学家需要掌握的10个基本统计技术

发布时间：2019-02-20 14:07:05 所属栏目：酷站来源：谢涛

导读：【编译】无论您在数据的科学性问题上持哪种看法，都无法忽视数据的持续重要性，也不能轻视分析、组织和情境化数据的能力。根据大量的就业数据和员工反馈信息统计，在“25个最佳美国就业机会”排行榜中，数据科学家排名第一。毫无疑问，数据科学家所做的具

　　最佳子集选择：这里我们对每个可能的p预测因子组合进行单独的OLS回归，然后查看最终的模型拟合。算法分为2个阶段：(1)拟合所有包含k预测因子的模型，其中k是模型的最大长度;(2)使用交叉验证的预测误差选择单个模型。使用测试或验证错误非常重要，而不是训练错误来评估模型拟合，因为RSS和R 2单调增加更多的变量。最好的方法是在测试误差估计值上交叉验证并选择具有最高R 2和最低RSS的模型。

　　向前逐步选择考虑预测因子的一个小得多的子集。它从不含预测因子的模型开始，然后在模型中添加预测因子，直到所有预测因子都在模型中。被添加变量的顺序是变量，其给出对拟合的最大的加法改进，直到没有更多的变量使用交叉验证的预测误差来改进模型拟合。

　　向后逐步选择开始将模型中的所有预测因子，然后迭代去除最不有用的预测因子。

　　混合方法遵循向前逐步回归方法，但是，在添加每个新变量之后，该方法还可以去除对模型拟合没有贡献的变量。

数据科学家需要掌握的10个基本统计技术

　　5 - 收缩：

　　这种方法适合一个涉及所有p预测因子的模型，然而，估计系数相对于最小二乘估计向零收缩。这种缩水，又称正规化，具有减少方差的作用。取决于执行什么类型的收缩，其中一些系数可能恰好被估计为零。因此这个方法也执行变量选择。将系数估计收缩为零的两个最著名的技术是岭回归和Lasso。

　　岭回归类似于最小二乘，通过最小化一个稍微不同的数量估计系数。像OLS一样，岭回归寻求降低RSS的系数估计值，但是当系数接近于零时，它们也会有收缩惩罚。这个惩罚的作用是将系数估计收缩到零。不用进入数学计算，知道岭回归缩小列空间方差最小的特征是有用的。像在主成分分析中一样，岭回归将数据投影到双向空间，然后比高方差分量收缩低方差分量的系数，这相当于最大和最小主分量。

　　岭回归至少有一个缺点：它包括最终模型中的所有p预测值。犯规条款将使它们中的许多接近于零，但不完全为零。这对于预测准确性来说通常不是问题，但它可能使模型更难以解释结果。 Lasso克服了这个缺点，并且能够迫使一些系数归零，只要s足够小。由于s = 1导致有规律的OLS回归，当s接近0时，系数收缩为零。因此，Lasso回归也执行变量选择。

　　6 - 维度降低：

　　维数减少将估计p + 1个系数的问题简化为M + 1个系数的简单问题，其中M <p。这是通过计算变量的M个不同的线性组合或投影来实现的。然后，这些M预测被用作预测因子以通过最小二乘拟合线性回归模型。这个任务的两种方法是主成分回归和偏最小二乘法。

　　可以将主成分回归描述为从大量变量中导出低维特征集合的方法。数据的第一个主要组成方向是观测值变化最大的。换句话说，第一台PC是尽可能接近数据的一条线。人们可以适应不同的主要组成部分。第二个PC是与第一个PC不相关的变量的线性组合，并且受这个约束的变化最大。这个想法是主要的组成部分使用随后正交方向的数据的线性组合捕获数据中最大的变化。通过这种方式，我们也可以结合相关变量的效果，从可用数据中获取更多信息，而在正则最小二乘中，我们将不得不放弃其中一个相关变量。

　　我们上面描述的PCR方法包括确定最能代表预测因子的X的线性组合。这些组合(方向)以无监督的方式被识别，因为响应Y不用于帮助确定主要组件方向。也就是说，响应Y不监督主成分的识别，因此不能保证最能解释预测因子的方向对于预测响应(即使经常假设)也是最好的。偏最小二乘法(PLS)是一个监督的替代PCR。与PCR一样，PLS是一种降维方法，它首先识别一组新的较小的特征，这些特征是原始特征的线性组合，然后通过最小二乘法拟合一个线性模型到新的M特征。然而，与PCR不同的是，PLS利用响应变量来识别新的特征。

数据科学家需要掌握的10个基本统计技术

　　7 - 非线性模型：

　　在统计学中，非线性回归是回归分析的一种形式，其中观测数据是由一个函数建模的，该函数是模型参数的非线性组合，并取决于一个或多个自变量。数据通过逐次逼近的方法进行拟合。以下是一些处理非线性模型的重要技巧：

　　如果实数的函数可以写成区间指示函数的有限线性组合，则称实数为函数。非正式地说，一个阶梯函数是一个只有很多片段的分段常量函数。

　　分段函数是由多个子函数定义的函数，每个子函数应用于主函数域的一定间隔。分段实际上是表达函数的一种方式，而不是函数本身的一个特征，但是具有额外的限定，可以描述函数的性质。例如，分段多项式函数是在其每个子域上是多项式的函数，但是每个子域上可能是不同的。

　　样条函数是由多项式分段定义的特殊函数。在计算机图形学中，样条是指分段多项式参数曲线。由于其结构简单，评估方便和准确，以及通过曲线拟合和交互式曲线设计逼近复杂形状的能力，样条曲线是流行的曲线。

　　广义加性模型是一种线性预测模型，其中线性预测变量线性依赖于某些预测变量的未知光滑函数，兴趣集中在对这些光滑函数的推理上。

　　8 - 基于树的方法：

　　基于树的方法可以用于回归和分类问题。这些涉及将预测空间分层或分割成若干简单区域。由于用于分割预测变量空间的分裂规则集合可以在树中进行概括，所以这些类型的方法被称为决策树方法。下面的方法生成多个树，然后结合在一起产生一个单一的共识预测。

　　套袋(Bagging)是减少预测方差的方法，通过使用重复组合来生成原始数据集中的训练数据，从而生成与原始数据相同的多样性。通过增加你的训练集的大小，你不能提高模型的预测力，只是减少方差，勉强把预测调整到预期的结果。

　　提升(Boosting)是一种使用几种不同的模型计算产出的方法，然后使用加权平均方法对结果进行平均。通过改变你的加权公式，结合这些方法的优点和缺陷，你可以使用不同的狭义调整模型，为更广泛的输入数据提供一个很好的预测力。

　　随机森林(random forest )算法实际上非常类似于套袋。你也可以绘制训练集的随机bootstrap样本。但是，除了自举样本之外，还可以绘制随机子集来训练单个树;在套袋中，你给每个树一套完整功能。由于随机特征选择，与常规套袋相比，树木之间的相互独立性更高，这通常会带来更好的预测性能(由于更好的方差偏差权衡)，而且速度更快，因为每棵树只能从功能的一个子集。

数据科学家需要掌握的10个基本统计技术

　　9 - 支持向量机：

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页