数据科学家需要掌握的10个基本统计技术

发布时间：2019-02-20 14:07:05 所属栏目：酷站来源：谢涛

导读：【编译】无论您在数据的科学性问题上持哪种看法，都无法忽视数据的持续重要性，也不能轻视分析、组织和情境化数据的能力。根据大量的就业数据和员工反馈信息统计，在“25个最佳美国就业机会”排行榜中，数据科学家排名第一。毫无疑问，数据科学家所做的具

　　【编译】无论您在数据的科学性问题上持哪种看法，都无法忽视数据的持续重要性，也不能轻视分析、组织和情境化数据的能力。根据大量的就业数据和员工反馈信息统计，在“25个最佳美国就业机会”排行榜中，数据科学家排名第一。毫无疑问，数据科学家所做的具体工作内容将会进一步拓展。随着机器学习等技术变得越来越普遍，深度学习等新兴领域对研究人员和工程师的需求得到了巨大的推动，数据科学家们在创新和技术进步的浪潮中再次崭露头角。

　　编码能力强大是很重要的，但数据科学并不专职于软件工程(事实上，对Python很熟悉就足够了)。数据科学家生活在编码、统计学和批判性思维的交叉点上。正如乔希·威尔斯(Josh Wills)所说的那样：“数据科学家是一个比任何程序员都要好的统计学家，而且比任何统计学家都更擅长编程。”笔者个人知道有太多的软件工程师希望转向数据科学家，并盲目利用机器学习框架TensorFlow或Apache Spark，而不透彻理解背后的统计理论。因此出现了“统计学习”，一个与机器学习有关的理论框架，包含统计到功能分析的一系列专业领域。

数据科学家需要掌握的10个基本统计技术

　　为什么学习统计学习?了解各种技术背后的想法是非常重要的，可以让你知道如何以及何时使用它们。由简入繁，首先要理解更简单的方法，才好把握更复杂的方法。准确地评估一种方法的性能，了解它的工作效果多好或者多糟，这一点很重要。此外，这是一个令人兴奋的研究领域，在科学，工业和金融领域有着重要的应用。最终，统计学习是培养现代数据科学家的基本要素。统计学习问题的例子有：

　　·确定前列腺癌的危险因素。

　　·根据记录周期图对录制的音素进行分类。

　　·根据人口统计、饮食和临床测量，预测是否有人会发生心脏病。

　　·自定义垃圾邮件检测系统。

　　·识别手写邮政编码中的数字。

　　·将组织样本分为几个癌症类别之一。

　　·建立人口调查数据中工资与人口变量之间的关系。

　　统计学习和机器学习之间的差异在于：

　　·机器学习是人工智能的一个子领域。

　　·统计学习是统计学的一个分支。

　　·机器学习更强调大规模应用和预测的准确性。

　　·统计学习强调模型及其可解释性，精确性和不确定性。

　　1 - 线性回归：

　　在统计学中，线性回归是一种通过拟合自变量与自变量之间最佳线性关系来预测目标变量的方法。最好的做法是确保每个点的形状和实际观测之间的所有距离之和尽可能小。形状的适合性是“最好的”，因为在形状的选择上没有其他位置会产生较少的误差。线性回归的2种主要类型是简单线性回归和多元线性回归。简单线性回归使用一个独立变量来通过拟合最佳线性关系来预测因变量。多重线性回归使用多个独立变量来通过拟合最佳线性关系来预测因变量。

　　选择你在日常生活中使用的任何两件相关的东西。如每月支出，月收入和过去三年每月的旅行次数的数据。就需要回答以下问题：

　　我明年的每月开支是多少?

　　哪个因素(每月收入或每月旅行次数)在决定我的每月支出时更重要?

　　月收入和每月旅行如何与每月支出相关联?

　　2 - 分类：

　　分类是一种数据挖掘技术，它将类别分配给数据集合，以助进行更准确的预测和分析。有时也称为决策树，分类是用于对非常大的数据集进行分析的几种方法之一。眼下有2大分类技术脱颖而出：Logistic回归和判别分析。

　　Logistic回归分析是当因变量是二分(二元)时进行的适当的回归分析。像所有回归分析一样，Logistic回归是预测分析。 Logistic回归用于描述数据并解释一个相关二元变量与一个或多个标称、序数、区间或比例级别的独立变量之间的关系。逻辑回归可以检查的问题类型：

　　每增加一磅的超重和每天吸一包香烟，肺癌的可能性(是vs否)会发生怎样的变化?

　　体重卡路里摄入量，脂肪摄入量和参与者年龄对心脏病发作是否有影响(有vs无)?

　　在判别分析中，先验已知2个或更多个组或群或群，并基于所测量的特征将1个或更多个新观察分类到1个已知群中。判别分析在每个响应类别中分别对预测因子X的分布进行建模，然后使用贝叶斯定理将它们翻转为给定X的值的响应类别概率的估计。这样的模型可以是线性的或二次的。

　　线性判别分析为每个观测值计算“判别分数”，以便对它所处的响应变量类别进行分类。这些分数是通过寻找自变量的线性组合得到的。它假设每个类别内的观察值都来自多变量高斯分布，预测因子的协方差在响应变量Y的所有k水平上是共同的。

　　二次判别分析提供了一种替代方法。和LDA一样，QDA假定每个Y类的观测值都是从高斯分布中得到的。但是，与LDA不同的是，QDA假定每个类都有其自己的协方差矩阵。换句话说，预测因子不被假定在Y中的每个k水平上具有共同的方差。

数据科学家需要掌握的10个基本统计技术

　　3 - 重采样方法：

　　重采样是从原始数据样本中绘制重复样本的方法。这是统计推断的非参数方法。换句话说，重采样方法不涉及使用通用分布表来计算近似p概率值。

　　重采样根据实际数据生成唯一的采样分布。它使用实验方法而不是分析方法来生成独特的抽样分布。它产生无偏估计，因为它是基于研究者所研究数据的所有可能结果的无偏样本。为了理解重采样的概念，您应该理解术语Bootstrapping和交叉验证：

　　Bootstrapping是一种技术，可以帮助您在很多情况下验证预测模型的性能、集成方法、估计模型的偏差和方差。它通过对原始数据进行替换来进行采样，并将“未选择”的数据点作为测试用例。我们可以做这几次，并计算平均分作为我们的模型性能的估计。

　　另一方面，交叉验证是验证模型性能的一种技术，它是通过将训练数据分成k个部分来完成的。我们以k - 1部分作为训练集，并使用“伸出部分”作为我们的测试集。我们重复k次不同的方式。最后，我们将k分数的平均值作为我们的业绩估计。

　　通常对于线性模型，普通最小二乘法是考虑将它们适合于数据的主要标准。接下来的3种方法是可以为线性模型的拟合提供更好的预测精度和模型可解释性的替代方法。

　　4 - 子集选择：

　　这种方法确定了我们认为与响应相关的p预测因子的一个子集。然后，我们使用子集特征的最小二乘拟合模型。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页