我投了份简历,接到了十八个骚扰电话
目前来说,爬虫技术仍处于灰色地带,对于利用爬虫技术获取公开数据这一行为的正误,在认知上也各有不同。目前更多的还是在道德层面,而非法律,比如:遵循robots,尽量放慢爬取速度,从而减少对提供数据查询网站的压力,不要造成拒绝服务,不要公开爬虫程序源码,不要分享爬虫数据等等。 (注:robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。) 但这些在马蔚彦看来,缺乏法律保障的约束力非常弱。 随着涉及个人、企业的数据资源越来越多,提供这些数据的平台、系统也越来越多,非常需要通过建立正确的爬虫观念、提升反爬技术手段、建立合理的爬虫相关法律规定等都多方面的综合努力,才能更好地提供对于恶意爬虫的防御,保护企业和客户数据资源。 对于终端用户来说,除了接到手软的骚扰电话,似乎是完全无感知的。 焦林俊表示,用户应该避免在不安全的招聘网站发布简历,遇到打电话称自己是猎头需要提供本人完整信息的说法也不要轻信。而对于招聘网站,应该从业务方面进行规范,搭建自己反爬虫平台,利用前沿的反爬虫技术,如大数据分析,根据访问行为提取特征,通过设备指纹,人机识别,环境检测等技术识别出人还是机器。这样即可以去掉验证码等降低用户体验的操作,也避免了用户有价值的信息被爬取。
|