加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

盘点:大数据挖掘带动的变迁

发布时间:2021-08-19 19:51:05 所属栏目:大数据 来源:互联网
导读:副标题#e# 中国电子学会云计算专家委员会名誉主任委员、中国大数据专家委员会顾问、中国工程院院士李德毅在题为大数据挖掘的演讲中重点强调:PB时代是对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战。大数据标志一个新时代的到来。这个时代的特征不

    水不转,云在转。这是我报告的第二条。随着互联网贷款6个月翻一番的速度,它比9个月翻一番、18个月翻一番要快,你的带宽有能耐就多起点作用,于是人类进入了交互时代,交互带动着计算和存储。

 

 

    水不转,人在转。移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘,这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据。

 

 

    这种非结构化数据有什么特点呢?它常常是低价值、强噪声、异构、冗余冰冷的数据,有很多数据放在存储器里一辈子没再用过。数据的形式化约束越来越宽松,越来越接近互联网文化、窗口文化和社区文化,我们现在的青年人不要学什么东西,只要会玩手机,越玩越熟悉,因为他已经进入这个文化之中。

 

 

    关注的对象也发生很大改变,挖掘关注的首先是小众,只有满足小众挖掘需求,才谈得上满足更多小众组成的大众的需求,因此一个重要思想,就是由下而上胜过由上而下的顶层设计,强调挖掘数据的真实性、及时性,要发现关联、发现异常、发现趋势,总之要发现价值,但是它未必注重因果、未必注重主次、未必注重时序,更未必发现普遍的知识。

 

 

    移动互联网时代的大数据挖掘过程当中,数据的简约具有自适应性,不必具有固定特征或者层次。许多年来,我的课题组提出一个方法,叫认知物理化方法,对128×128的象素组成的人脸,如果他们的数据场是等价的话,我们可以用28个特征点数据来等价这个流媒体数据。对另外一张人脸,它可以变成254个数据、59个数据,这是非常不同于结构化、半结构化的。

 

 

    当前,深度学习也是一种数据自适应简约,百度人工智能建设院的吴教授他们就开展了这方面的研究,如果我们在百度上用深度学习搜索一个人脸象素搜索,这么多人脸谁是谁?是他吗?数据量急剧增加,各种媒体形态可随意碎片化,组织结构和挖掘程序要围着数据转,程序要碎片化,并可以随时虚拟重组,挖掘常常是人机交互环境下不同社区的发现以及社区中形成的群体智能,在非结构化数据挖掘中,会自然进行数据清洗和逐步强形式化,自然形成半结构化数据和结构化数据,以提高数据使用效率。

 

 

    因此我们用网络化的大数据挖掘方法,首先要是在这个复杂的人人都连网的情况之下找到一个特定问题的社区,因此由社区发现成为大数据发展的首要问题,要研究社区成员,就必须要研究他们之间的相连关系,要研究他们的交互形态,显现的形态有评论、心情、收藏、购买、评分、顶踩、分享、转载、加为好友、邀请等等,这些统计数据都成为我们挖掘的基础。隐形形态有跳转、浏览、翻页、收听、观看、聊天、点击、取消、会话中断、黑名单等等。

 

 

    交互的特点可以从频繁性、增量性、主动性、广泛性、多样性、持久性去研究社区成员的连接强度。我们利用拓扑势方法挖掘社区,我们还要发现在一个社区中,谁是一个领头羊,谁是第二个领头羊,成员的角色和重要性,成员之间的关系等等。

 

 

    在现实生活中,人类的某个概念,或者世界的认知经过一段时间的反复交互、汇聚、修正、演化,群体形成趋于相对稳定的共识。合作编辑下的维基条目,社会化标注等都是这种过程中的生动再现。

 

 

    群体智能是一个最近说得越来越多的词,大家知道我们曾经在计算机上做一个图灵测试,让计算机区分哪些码是人产生的,哪些是机器产生的,这是卡内基美隆大学提出来的,在网络购物、登录网站、申请网站时都会碰到适配码被使用。这里我要提到第三个代表人物,他叫路易斯,他提出用这个适配码应用方式。

 

 

    路易斯提出能不能把129年的报纸扫描,把图片碎片化,变成检验码,让大家去识别,这样一来,如果每天有两亿个检验码,从而一下子就把129年的纽约时报实现数字化,这就是群体智能。有些事情计算机做得很好,人做不好,有些事情人做得很好,很简单,计算机做不好,怎样把这两个优势加在一起呢?于是就有了群体智能。

 

 

    所以云计算支撑大数据挖掘要发现价值的话,我们认为云计算本来就是基于互联网的大众参与计算模式,其计算资源是动态的,可收缩的,被虚拟化的,而且以服务的方式提供。 产生摆脱了传统的胖配置带来的系统升级开柙,更加简洁、更加灵活多样、个性化,手机、游戏机、数码相机、电视机差别细微,出现更多iCloud产品,界面人性化个性化,可成为大数据挖掘的终端。

 

 

    挖掘员支撑各种各样的大数据应用,如果我们有数据收集中心、存储中心、计算中心、服务中心,一定还有数据挖掘中心,这样一来,我们就可以实现支撑大数据的及时应用和价值的及时发现。

 

 

    云计算产生的众包思想已经被大家接受,无论是电影行业,还是搜狗的输入方法,还是摄影照片共享,还是T恤衫的设计购买,说明众包是怎么样完成生产购买的。因此我们可以设想,在互联网环境下,利用人的认知和大众间的交互,融合计算机存储对大数据挖掘,形成群体智能,这样一来,我们提出一个新的概念,叫众挖,大家来挖。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读