数据科学家需要掌握的10个基本统计技术

发布时间：2019-02-20 14:07:05 所属栏目：酷站来源：谢涛

导读：【编译】无论您在数据的科学性问题上持哪种看法，都无法忽视数据的持续重要性，也不能轻视分析、组织和情境化数据的能力。根据大量的就业数据和员工反馈信息统计，在“25个最佳美国就业机会”排行榜中，数据科学家排名第一。毫无疑问，数据科学家所做的具

　　SVM是机器学习中监督学习模型中的一种分类技术。通俗地说，它涉及于找到超平面(2D中的线，3D中的平面和更高维中的超平面，更正式地说，超平面是n维空间中的n维空间)最大保证金从本质上讲，它是一个约束优化问题，其边界被最大化，受限于它对数据进行了完美的分类(硬边缘)。

　　这种“支持”这个超平面的数据点被称为“支持向量”。对于两类数据不能线性分离的情况，这些点被投影到可能线性分离的分解(高维)空间。涉及多个类的问题可以分解为多个一对一或者一对二的分类问题。

　　10 - 无监督学习：

　　到目前为止，我们只讨论了监督学习技术，其中组是已知的，提供给算法的经验是实际实体和它们所属的组之间的关系。当数据的组(类别)未知时，可以使用另一组技术。它们被称为无监督的，因为它会留在学习算法中以找出所提供的数据中的模式。聚类是无监督学习的一个例子，其中不同的数据集被聚类为密切相关的项目组。下面是最广泛使用的无监督学习算法的列表：

　　主成分分析通过识别一组具有最大方差和相互不相关的特征的线性组合来帮助产生数据集的低维表示。这种线性维度技术有助于理解变量在无监督环境下的潜在相互作用。

　　k-Means聚类：根据到群集质心的距离将数据分为k个不同的集群。

　　分层集群：通过创建集群树来构建集群的多级分层结构。

　　以上是一些基本的统计技术的简单解释与说明，可以帮助数据科学项目经理和主管人员更好地理解他们的数据科学小组背后隐藏的内容。实际上，一些数据科学小组纯粹通过python和R库运行算法。他们中的大多数甚至不必考虑潜在的数学问题。但是，能够理解统计分析的基础知识可以为您的团队提供更好的方法。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页