加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

纯干货!埃森哲的大数据分析框架分享-part 2

发布时间:2022-11-04 14:33:09 所属栏目:大数据 来源:网络
导读: “接着上一篇的内容,这篇主要讲在PPT中提到的几种分析方法以及每种方法的实现方式”
0、简述在我们做数据分析或者数据挖掘时肯定要借助一些分析方法来得到我们想要的结果,我们根据PPT的内

“接着上一篇的内容,这篇主要讲在PPT中提到的几种分析方法以及每种方法的实现方式”

0、简述在我们做数据分析或者数据挖掘时肯定要借助一些分析方法来得到我们想要的结果,我们根据PPT的内容主要介绍几种主要的分析方法,具体内容:1.1 分类与回归1.2聚类分析

1.3 关联分析1.4 时序模型1.5 遗传算法2 数据分析工具

每一种分析方法都有整理好的案例介绍(在传送链接里,附python实现代码),先马后看。

1、分析方法提起数据分析,大家往往会联想到一些密密麻麻的数字表格大数据计算框架,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”是每个人都具备的能力;比如预订酒店时,我们会比对多家的价格,地理位置等信息后做出最终选择。这些小型决策,其实都是依照我们脑海中的数据点作出判断,这就是简单分析的过程。对于分析师来说,则需要掌握一套系统的、科学的、符合商业规律的数据分析知识。

几种主要的分析方法汇总如下:

种类

功能

算法

典型应用

分类

回归

分类

决策树、神经网络分类、区别分析、逻辑回归、概率回归

风险分析、客户挽留分析、欺诈探测

回归

线性回归、非线性回归

收益率分析,收入预测,信用价值预测,客户潜在价值预测

聚类

集群分析

K-平均值,神经网络聚类

客户分割

关联

规则

关联分析

统计学,集合理论

交叉销售。捆绑销售

序列关联分析

统计学,集合理论

交叉销售

相似时间序列分析

统计学,集合理论

产品生命周期

时序

模型

时间序列预测

统计时间序列模型、神经网络

销售预测、利率预测、损失预测

1.1、分类与回归

分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。

"talk is cheap, show you the code"

一定不能少的三个模型:

逻辑回归,决策树,支持向量机

逻辑回归

Logistic 回归算法基于 Sigmoid 函数,或者说Sigmoid 就是逻辑回归函数。

其函数曲线如下:

大数据生态圈框架_docker部署大数据计算框架_大数据计算框架

逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某信用卡用户发生逾期的可能性。

决策树

决策树对于单调的特征变换是”indifferent”的,也就是说特征的单调变换对于决策树来说不会产生任何影响.优势:

支持向量机

SVM最大的好处就是它只依赖于处于分类边界的样本来构建分类面,可以处理非线性的特征,优势:

逻辑回归,决策树,支持向量机三个模型的详细介绍:

1.2、聚类分析

聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分,类似这种目标群体的分类就是精细化经营,个性化运营的基础和核心,只有进行了正确的分类,才可以有效进行个性化和精细化的运营,服务及产品支持等。

聚类分析是一种定量方法,从数据分析的角度看,它是对多个样本进行定量分析的多元统计分析方法,可以分为两种:对样本进行分类称为Q型聚类分析对指标进行分类称为R型聚类分析

从数据挖掘的角度看,又可以大致分为四种:

无论是从那个角度看,其基本原则都是:最小化簇间的相似性,最大化簇内的相似性。

常见业务应用场景如下

下面这篇文章对这些都有非常详细的解释:

1.3、关联分析关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。简单说就是找出事件间的联系或依赖,通过关联分析找出数据集合中隐藏的关系网络,例如大家都听过的啤酒和尿布的故事。

关联分析几个常见的场景:

docker部署大数据计算框架_大数据生态圈框架_大数据计算框架

关于关联分析分享一篇数据派的文章,里面有很详细的介绍:

1.4、时序模型时序分析是以分析时间序列的发展过程、方向和趋势,预测将来时域可能达到的目标的方法。此方法运用概率统计中时间序列分析原理和技术,利用时序系统的数据相关性,建立相应的数学模型,描述系统的时序状态,以预测未来。

大数据计算框架_大数据生态圈框架_docker部署大数据计算框架

大数据生态圈框架_大数据计算框架_docker部署大数据计算框架

分析一篇有关ARIMA时序模型的案例应用:

1.5、神经网络神经网络应用在分类问题中效果很好。工业界中分类问题居多。LR或者linear SVM更适用线性分类。如果数据非线性可分(现实生活中多是非线性的),LR通常需要靠特征工程做特征映射,增加高斯项或者组合项;SVM需要选择核。而增加高斯项、组合项会产生很多没有用的维度,增加计算量。GBDT可以使用弱的线性分类器组合成强分类器,但维度很高时效果可能并不好。而神经网络在三层及以上时,能够很好地进行非线性可分。第一篇是我之前的一点学习笔记的分享:

第二篇是较为详细的《神经网络的理解与实现》,附代码:

2、数据分析工具下图是原PPT给出的一些分析工具:

大数据计算框架_docker部署大数据计算框架_大数据生态圈框架

很多是我们在学生时代肯定会接触到的工具,但是我想说“Life is short, use Python”

所以上述的分析模型分实现方式里都有python代码。

PDF下载

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!