黑灰产调查:上亿公民信息非法倒卖,200亿巨头拉卡拉闪崩跌停!深度解析爬虫技术及背后黑灰产!
1
如此海量的个人信息被泄露,幕后黑手是谁?又暴露出怎样的制度漏洞?
其中,拉卡拉支付旗下的考拉征信涉嫌非法提供身份证返照查询9800多万次,获利3800万元。
警方已将考拉征信服务有限公司及北京黑格公司的法定代表人、董事长、销售、技术等20余名涉案人员抓获。
2
爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
你可以简单地想象:每个爬虫都是你的 “ 分身 ”。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。
你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。
抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。
爬虫是什么
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
通俗地讲,我们把互联网比作一张大蜘蛛网,每个站点资源比作蜘蛛网上的一个结点,爬虫就像一只蜘蛛,按照设计好的路线和规则在这张蜘蛛网上找到目标结点,获取资源。
为什么使用爬虫
为什么我们需要使用爬虫呢?
大家可以想象一下一个场景:你非常崇拜一个微博名人,对他的微博非常着迷,你想把他十年来微博上的每一句话摘抄下来,制作成名人语录。这个时候你怎么办呢?
手动去 Ctrl+C 和 Ctrl+V 吗?这种方法确实没错,数据量小的时候我们还可以这样做,但是数据成千上万的时候你还要这样做吗?
我们再来想象另一个场景:你要做一个新闻聚合网站,每天需要定时去几个新闻网站获取最新的新闻,我们称之为 RSS 订阅。
难道你会定时去各个订阅网站复制新闻吗?恐怕个人很难做到这一点吧。
上面两种场景,使用爬虫技术可以很轻易地解决问题。
所以,我们可以看到,爬虫技术主要可以帮助我们做两类事情:一类是数据获取需求,主要针对特定规则下的大数据量的信息获取;另一类是自动化需求,主要应用在类似信息聚合、搜索等方面。
爬虫的分类
从爬取对象来看,爬虫可以分为通用爬虫和聚焦爬虫两类。
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为搜索引擎和大型 Web 服务提供商采集数据。
这类网络爬虫的爬取范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低。
例如我们常见的百度和谷歌搜索。我们输入关键词,它们会从全网去找关键词相关的网页,并且按照一定的顺序呈现给我们。
聚焦网络爬虫(Focused Crawler),是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。
和通用网络爬虫相比,聚焦爬虫只需要爬取特定的网页,爬取的广度会小很多。
例如我们需要爬取东方财富网的基金数据,我们只需要针对东方财富网的页面制定规则爬取就行。
通俗地讲,通用爬虫就类似于一只蜘蛛,需要寻找特定的食物,但是它不知道蜘蛛网的哪个节点有,所以它只能从一个节点开始寻找,遇到节点就看一下,如果有食物就获取食物,如果这个节点指示某某节点有食物,那它就顺着指示去寻找下个节点。
而聚焦网络爬虫就是这只蜘蛛知道哪个节点有食物,它只需要规划好路线到达那个节点就能获取到食物。
浏览网页的过程
在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张图片以及百度搜索框,类似下面图片这样:
这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。
因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。
URL的含义
URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL 的格式由三部分组成:
第一部分是协议(或称为服务方式)。 第二部分是存有该资源的主机IP地址(有时也包括端口号)。 第三部分是主机资源的具体地址,如目录和文件名等。
由于爬虫的目标是获取资源,而资源都存储在某个主机上,所以爬虫爬取数据时必须要有一个目标的 URL 才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。
3
就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。
而越是每个人切身利益所在的地方,就越是爬满了爬虫。
我们今天要说的,就和这些 App 有关
爬虫的 “ 骚操作 ”
爬虫也分善恶。
像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。
但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为“恶意爬虫”。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)
给你看一张图:
分布图
这张图里显示的,就是各行各业被爬“叨扰”的比例。
(注意,这张图显示是全世界,不是全中国)
而每一个色块背后,都是一条真实而强大的利益链条。
接下来,就给你科普一下里面的骚操作。
1、排名第一的是出行
出行行业中爬虫的占比最高( 20.87% )。
在出行的爬虫中,有 89.02% 的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。
你还记得当年 12306 上线王珞丹和白百何的 “ 史上最坑图片验证码 ” 么?
一口老血
这些东西不是为了故意难为老老实实买票的人的,而恰恰是为了阻止爬虫( 也就是抢票软件 )的点击。
刚才说了,爬虫只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。
你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。
没错,抢票软件也不是吃素的。
它们在和铁总搞“对抗”。
有一种东西叫做 “ 打码平台 ”,你可以了解一下。
打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码!
那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。
当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是 “ 锅铲 ”,那么下次这张图片再出现的时候,系统就直接判断它是 “ 锅铲 ”。
时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
你可能会问:为什么 12306 这么抠呢?它大方地让爬虫随意爬会死吗?
答:会死。
你知道每年过年之前,12306 被点成什么样了吗?
公开数据是这么说的:“ 最高峰时 1 天内页面浏览量达 813.4 亿次,1 小时最高点击量 59.3 亿次,平均每秒 164.8 万次。”
这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。
况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?
铁路被爬虫 “ 点鸡 ” 成这样已经够惨了,但它还有个难兄难弟,就是航空。
而航空里,被搞得最惨的不是国航,不是海航,也不是东航。
而是亚航!
航空类爬虫的分布比例
很多人可能都没坐过亚洲航空。
这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷 X 度假之首选。
为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。
本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。
据我所知,他们是这样玩的:
技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。
亚航有规定,你拍下来半小时( 具体时间记不清了 )不付款票就自动回到票池,继续卖。
但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。
直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后 0.00001 秒之后,就帮你用你的名字预定了这张票。
“ 我是中间商,我就要赚差价!” 这波骚操作,堪称完美。
2、排名第二的是社交
社交的爬虫重灾区,就是你们喜闻乐见的微博。
给你看张图:
这是爬虫经常光顾的微博地址
这里的代码其实指向了微博的一个接口。
它可以用来获取某个人的微博列表、微博的状态、索引等等等等。
获得这些,能搞出什么骚操作呢?
你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。
其实,僵尸粉都只是爬虫的常规操作,更骚的来了:
1、我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论,不亦乐乎。
2、我去找一个游戏厂商,跟他说:你看我有这么多粉丝,你在我这投广告吧。我帮你发一条游戏的注册链接,每有一个人通过我的链接注册了游戏,你就给我一毛钱。广告主说,不错,就这么办。
3、我发出注册链接,然后没人点。。。
4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。
5、我躺在床上,数着赚来的一万块钱。
( 以上数据不一定和现实吻合,只是展现一个逻辑。具体操作也会更复杂。)
还有更骚的么?有的。
你家爱豆不是经常在微博上发红包么?好的,我率十万僵尸粉去抢。
凭本事抢来的红包,就问你有什么不妥吗?
3、排名第三的是电商
你回忆一下,有几种东西叫做 “ 比价平台 ” “ 聚合电商”和“返利平台 ”。
他们大体都是一个原理:
你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东,还有唯品会苏宁易购。
这就是爬虫的功劳。
它们去淘宝上,把胖次袜子杜蕾斯的图片和价格统统扒下来,然后在自己这里展示。
这个原理和谷歌差不多。只不过他们展示的不是网页而是商品。但是被放在一起比价,淘宝是拒绝的,京东也是拒绝的啊。。。
然鹅,由于机器爬虫模拟的是人的点击,电商很难阻止这类事情发生。他们甚至都不能向 12306 学习,因为购买的流程越简越好。
当然,电商对抗爬虫有另外的方法,那就是 “ web 应用防火墙 ”,简称 WAF。
这个我们后面再单独说。
说到这,有童鞋会有个疑问:
那些聚合平台,自己写爬虫,然后帮助淘宝京东卖货,他们的名字叫雷锋么?
醒醒啊同学,雷锋叔叔已经走了很多年了。
我随便给你说一下这种聚合电商平台的盈利模式:
1、假设几家店铺都卖杜蕾斯,但是用户在我这里搜索“杜蕾斯”的时候,我是有权利决定谁的店铺在前面谁在后面的啊。
谁给的钱多,我就让谁在搜索的前面呗。@百度君,你说说是不是这个道理?( 注意,每个店铺和淘宝平台可不是一致行动人。淘宝平台不希望自己的内容被聚合平台抓取,但每个店铺可是很乐意多一个渠道帮他们卖货的。)
2、如果你觉得搞竞价排名良心会痛,也可以用更简单的方式——在网页上展示独立的广告。访问你网站的用户,看到页面上的广告,也有可能会点击。每点击一次,你就赚一次钱。
3、你还可以作为中间商,收点中介费。我帮你店家卖货了,你是不是要给我意思意思。除了给我意思意思,你还得给来买东西的用户意思意思。这种套路,就是“返利网”这类平台的玩法。
4、接下来是 O2O 和搜索引擎
问你一个问题:
你在大众点评上看到的信息,真是吃货们点评的吗?
答:大部分时候是,但有时候不是。
这里面的影响因素还是爬虫。
这些爬虫很可能被用来做两件事:
1、大众点评毕竟是最好的点评网站。很多网站都会爬取大众点评的数据,用来丰富自己的信息。
2、很多刚上点评的商户,信誉值不高,可以用爬虫来模拟留言、点赞,刷高自己的信誉值。
所以,理论上讲一旦大众点评对这些爬虫对抗出现松懈,就会有一些不三不四的店铺被 “ 刷 ” 到顶部。
而与之相似的,是爬虫针对搜索引擎的进攻。
你可能了解,搜索引擎决定哪个网页排名靠前,( 除了广告以外 )主要一个指标就是看哪个搜索结果的点击次数更多。
既然这样,那么我就派出爬虫,搜索某个特定的 “ 关键词 ”。
然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。
这个过程就叫做 SEO( 搜索引擎优化 )。
举个例子:
我随意搜索一个关键词。
它排在前面的网址,有可能就是经过 SEO 的。
作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗 SEO。
尤其是很多赌博、黄色网站,搜索引擎如果敢收广告费让他们排到前面,那就离倒闭不远了。
所以黄赌毒网站只能利用黑色 SEO,强行把自己刷到前面。直到被搜索引擎发现,赶紧对它们 “ 降权 ” 处理。
不过,这些黄色网站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。
这也就解释了为什么有时我们 “ 众里寻他千百度 ”,蓦然回首,却看到 “ 有人正在脱裤裤 ” 了。
5、再说说政府部门
你看这张图,全是爬虫针对政府信息的爬取。
第二名,北京市预约挂号统一平台。
这个锅,板上钉钉要号贩子来背。
其他的,例如法院公告、信用中国、信用安徽,为什么爬虫要爬这些信息呢?
因为有些信息,是只有政府部门才掌握的。
比如,谁被告过,哪家公司曾经被行政处罚,哪个人曾经进入了失信名单。这些信息综合起来,可以用来做一个公司或者个人的信誉记录。
我试着打开了一下排名第四位的 “ 信用中国 ”。
在这个平台上,你只要输入一个身份证号或者手机号,就可以查询到一个人的信用情况。
拉到最底下一看,这个网站果然是是根红苗正的。
如果一家公司要对外做信誉库的服务,它必须先把信用中国的信息下载到自己的库里,然后才能和其他数据进行综合运算。
如此,信用中国被爬,也就很容易解释了。
不过刚才那张表格里,排名第七的是四川住建厅。这又是什么骚操作?
根据推测,这很可能是某些公司提供的一项 “ 特殊服务 ”:
他们把四川省各个地区的招标情况汇总起来,然后实时提醒那些房地产公司:别睡了,起来投标了。
6、爬虫,只爬用户?
以谈之色变的现金贷为例:
(现金贷一度是爬虫产品的最大买家)
Q:爬同行能干嘛?
A:直接省去风控的环节。
Q:爬什么?
A:被爬平台上用户填写的信息,如:个人基本信息、银行卡信息、就业信息、联系人信息、贷款信息、还款记录……
Q:然后呢?
A:然后你授信多少我就授信多少,你放给谁,我也放给谁,以最快速度跻身“击鼓传花”行列。
一般,爬取用户的什么信息?
以支付宝为例:
可以爬到用户的真实姓名、手机号、收货地址、购物信息、甚至详细到每笔金额,而且不断爬取,不断更新……
据悉,随着相关公司不断被调查,尤其近期针对数据隐私保护的监管力度又上新台阶。
大数据风控从业者表示并不意外:
“正常的,近期很多爬虫类的数据服务都不能用了。数据风控确实越来越难做了”。
4
对企业来说,爬虫着实伤害了自己。
有句话说:“ 主救自救者。” 他们得组织 “ 民兵 ” 自己保卫自己。
爬虫战争谁会赢?
爬虫和被爬企业越来越势不两立。
说白了,他们的对抗都是在阻挡对方的财路。所以下手都挺重。
企业经典的对抗方式,大概有几种:
图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等。。。
这张图来自极验验证的滑块验证技术
除了刚才这些小模块,企业还可以通过 WAF( Web 应用防火墙 )来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。
其实,小公司,小网站,没有做反爬虫的技术处理,爬虫代码就简单多了,这个没有什么技术含量。
而如果使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫,说明是违背了内容提供者意愿的。
最常见的反爬虫手段有三种:
-
通过分析用户请求的 Headers 信息进行反爬虫。
-
通过判断同一个 IP 或者同一个设备,在短时间内是否频繁访问对应网站等进行分析;
-
通过动态页面增加爬取的难度,达到反爬虫的目的。
对于爬虫者来讲,可以非常方便的获取别人辛辛苦苦收集和整理的信息,内容等,
但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力,因为有些暴力爬虫者,不管三七二十一,频繁请求别人的服务器,导致服务器压力过大。
所以,作为技术人来讲,爬虫要讲究规则和方法的,一定要善用爬虫,慎用爬虫,爬虫虽好,但是一定不要侵权,尤其是盗取别人的原创内容和知识,更不要传播具有版权的内容和产品。
但是,爬虫的请求,和真人的请求真的太像了!
我觉得,对这种战争一个形象的比喻就是抗癌。
癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。
不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫。
但是,在这场对抗中,这条战线会达到一个精妙的平衡。
这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。
5
2015年11月至2016年5月,元光公司为提高本公司的APP软件“车来了”在市场上的用户量和信息查询的准确度,指使员工利用网络爬虫技术获取谷米公司“酷米客”APP的实时公交信息数据,将之用于“车来了”并对外提供给公众查询。
法院认为,“元光公司利用网络爬虫技术大量获取并无偿使用‘酷米客’APP实时公交信息数据的行为,是一种不劳而获的行为,破坏他人的市场竞争优势,具有主观过错,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争”,并判处元光公司赔偿谷米公司经济损失及维权合理费用50万元。
该判决的意义在于,“当大数据开发形成的智力成果具有独创性成为著作权法保护的作品时,持有者可以大数据形成的作品成为一项法定权利来对之加以保护”,“当大数据不构成作品时,持有者通常会选择不正当竞争来制止他人的未经许可使用行为。”
换言之,它确认了未经允许的爬虫行为的民事违法性,从而开启了对大数据权益的法律保护之旅。
在此案之后,全国陆续出现了很多不当使用爬虫软件而被判处不正当竞争的案件。
诸如,北京淘友天下技术公司采用爬虫行为大量抓取、使用新浪微博用户职业信息、教育信息不正当竞争案, 国家图书馆出版社与北京百度网讯科技有限公司侵害作品信息网络传播权纠纷案, 浙江泛亚电子商务有限公司诉北京雅虎网咨询服务有限公司等侵犯著作权纠纷案,等等。
这些案件对于规范爬虫行为起到了很好的作用。
全国首例爬虫行为入罪案(上海晟品公司爬虫行为入罪案)则清晰展示了爬虫行为从民事违法转化到刑事入罪的变化。
上海晟品网络科技有限公司的主管人员,成功破解北京字节跳动公司的防范措施,采用爬虫技术抓取北京字节跳动公司服务器中存储的视频数据,造成北京字节跳动公司损失技术服务费人民币2万元。
法院以非法获取计算机信息系统数据罪对被告人予以定罪判刑。
法院判决指出,爬虫软件在数据抓取的过程中,“使用了伪造device_id绕过服务器的身份校验,伪造UA及IP绕过服务器的访问频率限制等规避或突破计算机系统保护措施的手段获取数据,构成非法获取计算机信息系统罪”。
该案中的被告公司及主管人员未经许可,强行突破反爬技术,侵入“国家事务、国防建设、极端科学技术领域”之外的计算机信息系统,并采用爬虫技术获取该系统内的数据,
其行为根据我国《刑法》第285条第2款的规定,构成非法获取计算机信息系统数据罪。
值得注意的是,该案判决特别指出:“在信息时代,‘爬虫’技术是一种常见的数据抓取技术,最常用的领域是搜索引擎,该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣,但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员,必须在法律的框架之内合理使用该技术,违反法律规定利用该技术非法获取数据可能构成犯罪。”
该案是确认爬虫行为刑事违法性的第一案,具有标志性意义。
虽然爬虫行为在精准搜索、大数据分析与预测等领域作出了重要贡献,但是,如果“对数据抓取行为不加以限制约束,收集、处理、经营数据的相关平台以及提供优质内容的用户的权益便都无法得到保障,从长远来看必将对互联网内容产业产生负面影响”。
总之,爬虫行为既可能涉及民事、行政违法,也可能构成犯罪;基于维护法秩序与互联网产业健康发展的需要,对爬虫行为的合理刑事规制极为必要。
Web之父Tim Berners—Lee对web3.0进行了定义:
“web3.0是这样一种互联网:由数据定义内容,它能阅读和理解内容。”
数据只是信息的代名词而已,因此,3.0时代的犯罪其实就是数据犯罪或信息犯罪。
信息泛滥的时代使得如何防止爬虫行为对公民个人信息的侵犯成为一个急迫的问题。
我国《刑法》第253条之一第1款规定:“违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。”
该条之一第2款规定:“违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。”
该条之一第3款规定:“窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。”
毫无疑问,网络爬虫行为是否构成侵犯公民个人信息罪,主要取决于爬虫行为是否为第253条之一第3款规定的“以其他方法非法获取公民个人信息”行为。“
以其他方法非法获取公民个人信息”是该罪的违法构成要件。
根据罪刑法定原则——“法无明文规定不为罪不为刑”基本的形式法治之要求,对这一要件的判断,重点不在于“其他方法”,因为这一要素的规定本身为兜底性表述,而且,爬虫行为可否认定为“其他方法”,其实依赖于是否“非法”获取公民个人信息。
因此,“以其他方法非法获取公民个人信息”的判断,重点应针对其中的“非法”要素进行。
其具体可分两个层面进行:
第一个层面是合法性原则,我国《刑法》第253条之一的“违反国家规定”也属于其中的内容;
第二层面是行业规则,即爬虫协议。
首先,违反合法性原则的网络爬虫行为获取公民个人信息的,可以认定为“以其他方法非法获取公民个人信息”之“非法”。
6
今年初,一家收录了超过1.6亿人的简历大数据公司巧达科技,因涉嫌提供海量个人数据进行牟利,被一锅端。公司办公室直接被查封,据说连带着整个公司人都被暂时拘留了。
这家公司的简历信息你们猜猜看哪来的?其一是靠爬虫采集来的,其二是靠HR们自己上传的。
有人会有疑惑到哪里采集简历信息,各大招聘网站如果你注册了企业主,你可以查询很多的简历信息。
那为什么HR会自己上传呢?因为这些简历大数据企业他们会把自己包装成一个企业服务。
大家都知道HR每天要处理非常多的信息数据,所以如果有一个平台能帮助他们处理一些简历数据,那是再好不过的,所以就有了这样的企业。
这样一来这些简历大数据企业就掌握了非常多的简历数据,类似的企业非常多。
大家都知道一封简历里面囊括的个人信息非常多:姓名、年龄、可能包括工资水平、在什么公司、城市等一系列的个人信息。
得益于此,这些简历大数据公司的赚钱模式也非常多。
包括向HR、招聘企业、猎头等售卖简历信息;对简历进行分析,这些个人财产等数据可以直接进入黑产。
能从个人简历上做的文章特别多。
正因为他们这种灰色的赚钱模式,他们的公司盈利数据非常好看,类似这种掌握个人信息的大数据公司在前几年活的非常好。
但是这一直是处于灰色地带的。
首先大量采集个人信息数据,它本身是犯法的;再者通过获取的个人信息数据进行售卖非法获利更是违法的。
预计在接下来的一段时间内,类似的企业可能都会活得不太好,倒闭这个问题算是小的,更严重的是进局子。
其实关于爬虫是不是犯法的问题被争论了很久,
一般人认为爬虫并不犯法,因为爬虫采集的是公开的数据。
这个定义里面有一个非常关键的词语是公开,对大众公开,对所有人公开的信息,并不是特定人群才能看到的信息,我们称之为公开。
所以如果你漫游到内网,采集一些不是公开的信息,这可能是违法的,因为这个信息不是公开的。
对这种超纲的爬虫,我们是嗤之以鼻的。
另外,对于自己采集的数据,一旦包含个人信息的,请立即停止你的爬虫,更不要想通过这种信息来赚钱。
一时的贪恋可能毁了你自己。
各位在工作的做爬虫或不做爬虫的同学,也要注意一下自己的公司是否存在类似行为,尤其是利用采集数据进行售卖的企业更要当心。
采集个人信息是红线,
贩卖个人信息更是红线。
未经授权 请勿转载 ▍
51吃瓜网51吃瓜,进学习交流群
共有 0 条评论