加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

一段爬虫引起的风暴,大数据公司史上最大“危机”

发布时间:2023-01-08 09:34:37 所属栏目:大数据 来源:网络
导读: 最近一段时间有关大数据的话题可谓是热火朝天,要知道大数据作为一项切实改变着我们生活的技术,虽然给我们的生活带来了不少便利,但也让我们的隐私荡然无存。
不过最近的数据圈子并不太平

最近一段时间有关大数据的话题可谓是热火朝天,要知道大数据作为一项切实改变着我们生活的技术,虽然给我们的生活带来了不少便利,但也让我们的隐私荡然无存。

不过最近的数据圈子并不太平,准确一点的说,是爬虫圈不太平,甚至可以说是迎来了中国爬虫圈的最大风暴。

多家公司高管进宫

自今年9月份开始,圈内大数据公司的高管被有关部门请去小黑屋里喝茶,直到现在为止音讯全无。

就在前几天,某信用卡公司也被警方进行调查,其中一个原因便是因为该公司违规使用爬虫爬取用户隐私信息,给外包催收公司提供用户隐私信息。

可以说,这几个鲜活的例子,直接让整个行业进入冰河时期,业内人士每天如同行走在刀尖之上,小心谨慎,生怕一个不小心便万劫不复。

真的是应了最近网上流传的那句话:“爬虫玩得好,监狱进得早。数据玩得溜,牢饭吃个够。”

大数据爬虫_网络爬虫与大数据_大数据爬虫资料

不过这句话并非是危言耸听,毕竟前车之鉴就摆在那里,被有关部门请过去喝茶的也不是小人物。

前些天有一篇《只因为写了一段爬虫,公司200多人被抓!》的文章也是引起了广泛热议,文章中写的是一名程序员写了一段爬虫后被刑侦的事情,其中,大家最关心的点便是爬虫究竟是合法还是违法的?

在探讨爬虫究竟是合法还是违法之前,先带大家了解一下爬虫到底是什么。

网络爬虫到底是啥

网络爬虫又名“网络蜘蛛”,是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的

我们在日常生活所使用的那些搜索引擎就是一种巨型爬虫系统,例如Google、Yahoo和百度等,通过你输入的内容来进行筛选之后再爬取网页。

爬虫技术的善与恶

爬虫技术本身是没有对错之分的,但使用技术的人就难免有问题了。例如Google就是善意爬虫,将用户想要浏览的网页呈现在用户面前,用户开心,被爬取的网页也开心。

善意的爬虫对大家都好,而恶意的爬虫却很容易影响到我们,甚至会泄露我们的隐私信息。

像一些抢票软件这样的爬虫就属于恶意爬虫,他们无限制的对12306进行访问,会对12306的服务器造成很大压力,也会影响一些正常购票用户的操作。

因此12306也会通过验证码的方式来对爬虫进行拦截,像2015年春运前夕12306上线的“史上最坑图片验证码”,想必很多经历过的人都记忆犹新吧。

网络爬虫与大数据_大数据爬虫_大数据爬虫资料

不仅有在“孙楠、王大治、杨臣刚”中选出杨臣刚的图片,还有在全部是“白百何和王珞丹”中选出谁是白百何。你要是分不清楚这些人脸,就连家都回不去了。

可能有人会问了,抢票软件很方便,每次自己在12306上买不到票的时候就会去一些抢票软件上进行抢票。

但你需要知道的是,用抢票软件的话不仅个人信息容易泄漏,而且对于一些不熟悉互联网的人来说,他们可能仅仅只是会用手机打电话而已,抢票软件对他们而言是不是太不公平了呢?

同时,根据公开数据显示:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这其中还没有包括被验证码拦截在外的爬虫,可想而知12306的服务器每天承担的压力有多大。

技术犯罪隐私泄露

如果通过爬虫抓取网络公开信息,并不违法;但如果抓取的是未公开、未授权的个人敏感信息,就属于违法行为,违反的是2017年6月1日实施的《网络安全法》以及“两高”相关司法解释。

前面我就说过,技术本身没有对错之分,同样是爬虫技术,Google所带来的是互利双赢,大家都开心的局面。而抢票软件这种,则就是错误的案例,不仅会造成资源浪费,也会让你隐私泄露的风险增大。

大数据爬虫资料_大数据爬虫_网络爬虫与大数据

现如今,爬虫所造成的危害已经不仅仅是资源浪费,给服务器增压了。而是一些打着“大数据”旗号的公司,披着光明的外衣,干着肮脏龌龊的勾当。

它们使用爬虫抓取了未公开、未授权的个人敏感信息,甚至违规留存、使用、买卖这些隐私数据,而且这种大数据还是互联网金融风控的“基础设施”。

某家科技公司曾经推广过自家的爬虫产品只需要用户提供在其他现金贷平台的账号和密码,就可以爬取用户的所有信息。

大数据爬虫资料_网络爬虫与大数据_大数据爬虫

甚至这家科技公司还有专门爬取支付宝数据的产品,只需要用支付宝扫描一下二维码,就可爬取支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息、交易记录等。

因此,一些放贷公司在拿到了这些数据之后,就可以进行分析用户的还款能力和信誉度,来进行广告投放和短信推送大数据爬虫,所以大家手机上或者邮箱里总能收到一些贷款广告。

国家出手行业整顿

爬虫横行,其归根结底不过是利益所趋罢了,不过现如今国内数据收集法律已经逐渐健全了起来。

10月初,有媒体透露,行业正在筹划《个人金融信息保护试行办法》,并开始征求各方意见。10月10日,该办法草稿甚至已经通过央行下发到各家银行,持续征求意见。

据悉,该办法要求金融机构不得从非法从事个人征信业务活动第三方获取个人金融信息,也不得以“概括授权”方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意。

大数据爬虫资料_大数据爬虫_网络爬虫与大数据

如果该办法正式出台,银行需要根据要求对提供业务数据第三方机构进行摸排,对于不能保证数据来源合法数据供应商,则要停止合作。

在法律法规不健全的时候,个人数据被滥用于商业广告和金融产业,问题层出不穷。而新规虽然有些一刀切,不过也没有出乎意料,数据属于当今社会的超能武器,大数据所带来的利益和风险是一样大的,被严格管理也是理所当然的。

技术没有对错之分,但使用它的人却有好坏之分。网络不是法外之地,合理利用技术才是长久之计。

▼关于小川

▼微博:科技_喻小川独特的观点

点评专业的事

大数据爬虫_大数据爬虫资料_网络爬虫与大数据

科技喻小川

深耕互联网科技圈

专注有态度的新闻

网络爬虫与大数据_大数据爬虫资料_大数据爬虫

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!