加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

对大数据时代的新认识

发布时间:2022-12-07 14:03:08 所属栏目:大数据 来源:网络
导读: 我搞数据建模大体有两个阶段。
第一个阶段是90 年代初读研究生的时候。那个时候算法都是自己搞的。那个时候用C或者FORTRAN自己编算法。所谓的研究,就是不停地根据结果改模型、改算法。有的

我搞数据建模大体有两个阶段。

第一个阶段是90 年代初读研究生的时候。那个时候算法都是自己搞的。那个时候用C或者FORTRAN自己编算法。所谓的研究,就是不停地根据结果改模型、改算法。有的时候算一次几十分钟,出来不满意再改。几乎每次改都要重新编码。无效的劳动时间很多。

第二个阶段就是到宝钢工作的时候。那时,宝钢引进了一个叫做SAS 的分析软件,做起来就方便多了、无效劳动时间很短。

开始的时候有两点不爽:数据量大到一定程度的时候就非常慢,每次分析要等几十秒才能出结果。有时候,要把一个数据集分成几个、分几次来做。这样就比较耽误时间了,仍然有时间的浪费。

这个项目我先后做了12 年,后来换过几次计算机大数据时代,问题就好多了。后来做的时候,几乎是按下按钮就出结果;然后马上再做另外一个分析、进行对比。计算机已经不再耽误我的时间了。

有一次公司查贯标,要求我把分析过程记录下来。我说这很难做到:因为每天要做几百次的分析,很多结果就是看一眼就丢。如果要记录下来,就要把太多的时间用于记录。而且,这么多的分析结果,以后也不会有人看。无效劳动太多。所以,最后只能是把那些觉得特别有意思的结果和过程记下来。

现在回想起来,如果用90 年代的做法,这个项目可能结束不了:按那个时候的条件,效率至少会低5倍。我不可能华60年时间完成一个项目吧?而且,90年代初的计算机内存只有640K,而我在宝钢的很多数据文件在10M以上,90年代的计算机根本就玩不转。

所以,计算机性能提高了以后,很多做不成的事情可以做成了。

昨天和两个学生通电话。谈到大数据的时候,我谈到一个观点:对数据分析师来说,大数据时代,是不必关心“数据大了怎么办”了的时代 。在这个时代,你可以把全部精力用在如何分析数据上了。过去的数据分析师需要知道更多的IT 知识。比如,用IBM PC 机的时候,你要知道数据超过64K以后怎么办。现在就不用知道这些了。

当然,“数据大了怎么办”也是一个问题,但这是平台的问题、是 IT技术人员的问题,别人可以帮你去处理,而不是数据分析师的问题。在大数据时代,数据分析师和IT技术人员实现了更好的分工。数据分析师可以专注于对业务的理解、对数据特性的理解、对数据分析技巧的理解。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!