黑灰产调查:上亿公民信息非法倒卖,200亿巨头拉卡拉闪崩跌停!深度解析爬虫技术及背后黑灰产!

黑灰产业链深度调查



1

拉卡拉事件




公民隐私不容侵犯,敢越雷池者,必将付出惨痛代价。


如此海量的个人信息被泄露,幕后黑手是谁?又暴露出怎样的制度漏洞?


 
拉卡拉午后跌停
旗下考拉征信因涉嫌"黑产"被调查
 
11月20日,拉卡拉午后跳水跌停,股价报49.29元/股,截至收盘成交额近3亿元,换手率超14%,最新市值197亿,较上一交易日蒸发22亿元

今年4月25日,拉卡拉正式登录A股深圳创业板,被称作“A股第三方支付第一股”


 
拉卡拉股价跌停背后,原来是公司担任大股东的一家第三方的信用评估及征信管理服务商出了事儿。
 
日前,江苏淮安警方通报,在公安部督办下,他们以“打链条、打平台、打团伙”为目标,依法打击了7家涉嫌侵犯公民个人信息犯罪的公司,涉嫌非法缓存公民个人信息1亿余条。


其中,拉卡拉支付旗下的考拉征信涉嫌非法提供身份证返照查询9800多万次,获利3800万元。


警方已将考拉征信服务有限公司及北京黑格公司的法定代表人、董事长、销售、技术等20余名涉案人员抓获。


天眼查信息显示,考拉征信的运营主体考拉征信服务有限公司成立于2014年4月,注册资本5000万人民币,经营范围包括企业信用的征集、评定、数据处理(数据处理中的银行卡中心、PUE值在1.5以上的云计算数据中心除外)等,由考拉昆仑信用管理有限公司全资控股。



而考拉昆仑信用管理有限公司的最大股东便是拉卡拉支付股份有限公司,持股比例为32.4%。

此外,根据股权穿透图,A股上市公司拓尔思、旋极信息、蓝色光标均持股10.80%,A股上市公司广联达持股3.00%。

而拉卡拉支付股份有限公司最大股东为联想控股股份有限公司,持股比例为28.24%。




考拉征信出事,上述这些与其股权有所关联的A股上市公司今天在二级市场都有所表现。

除跌停的拉卡拉外,截至收盘,拓尔思跌0.77%、旋极信息跌3.83%、蓝色光标跌1.85%、广联达从涨超3%跌至涨1.18%,收盘涨1.2%,港股联想控股跌0.37%。




上亿条个人信息被明码标价
成套路贷、暴力催收帮凶
 
事实上,公民个人身份信息、身份证照片等均为隐私信息。一旦被私下贩卖,有可能成为“套路贷”犯罪、暴力催收以及电信诈骗的帮凶等,引发严重后果。
 
警方发现这起“地下征信”黑色产业链最初源于一起主动投案。
 
央视新闻报道,2018年4月,江苏淮安警方在网上巡查时发现,有人非法购买公民个人信息,后嫌疑人高某主动到警方投案。

高某交代,他花500块钱从网名叫“过去、将来”的人手里购买了317条公民个人信息,这些信息包括手机号、姓名、身份证号和家庭地址。

他买这些信息的目的是打电话、给网络小贷公司拉客户,警方通过对QQ、微信等资料的综合研判,锁定贩卖个人信息的“过去、将来”位置在河南焦作,随即出动警力,将犯罪嫌疑人申某在家中抓获。



在申某的电脑里,警方查获公民个人信息7万多条,这些信息包括公民姓名、身份证号、地址、电话以及芝麻信用分等,很多信息显示推广来源为“花钱无忧”“借点钱”等小贷平台。

警方表示,申某自己不做贷款,而是通过个人信息买卖赚差价,加个几毛钱或者一块钱一条,再出售给其他人。
 
随后,申某的一名主要上线谢某在广州家中被警方抓获。

另一个通过他人向申某贩卖公民个人信息的是广东一个网名叫“叮咚叮咚”的人,警方发现,“叮咚叮咚”在微信群中大肆贩卖公民个人信息,迹象表明,身为广州诺涵科技公司的员工,他贩卖公民信息并非个体行为。
 
淮安警方深度研判发现,广州诺涵科技公司不只是贩卖公民个人信息,更主要的是在进行小额贷款并进行软暴力催收,是一个组织严密、分工明确、涉案人数众多的犯罪团伙。

经过周密部署,2018年6月6日,在广东警方配合下,淮安警方一举将该公司45名涉案人员全部抓捕。
 
警方发现,在广州诺涵科技公司,公民个人信息被称为“流量”,公司自己开发有“乐花管家”等多个小贷平台,在自身购买公民个人信息用于推销贷款、软暴力催收的同时,也和其他公司相互交换公民个人信息,

还开发有爬虫云等软件,通过技术手段爬取其他小贷公司的公民个人信息,用于公司放贷和非法出售牟利。


警方发现,涉案的广州诺涵公司虽然披着科技公司的外衣,其实从事的是网络放贷、软暴力催收、贩卖公民个人信息等违法犯罪行为。

在他们贩卖的公民个人信息里,甚至还出现了公民身份证照片信息,警方测试后发现,返回的是带网纹的二代身份证彩色照片。
 

7家涉案公司被依法打击
考拉征信董事长等20余人被抓获
 
锁定相关犯罪证据后,淮安警方在长沙、深圳分别将湖南九象公司的法定代表人和技术主管抓获。

警方审讯得知,九象公司黑爬虫网站的“身份核验返照”业务端口来自北京黑格科技有限公司,而黑格公司是从北京考拉征信服务有限公司等四家公司购买的查询接口。
 
随即,警方将北京黑格公司和考拉征信服务有限公司的法定代表人、董事长、销售、技术等20余名涉案人员抓获,并于今年4月在北京将他们上游公司的5名涉案人员抓获。


 
经查,北京考拉征信服务有限公司从上游公司获取接口后又违规将查询接口出卖,并非法缓存公民个人身份信息,供下游公司查询牟利,从而造成公民身份信息包括身份证照片的大量泄露。
 
淮安公安分局网络大队中队长顾明表示:“违规缓存相当于把公民个人信息复制了一份,存在那边,下游公司再向它通过数据接口调取数据的时候,它就不需要再向上游调取,也是节省了开支,这个是违法的。”


 
经查,2015年3月以来,北京考拉公司非法提供查询返照9800余万次,获利3800余万元,在公司服务器中查获并收缴被非法获取、存储的公民姓名、身份证号、相片近1亿条。

警方已将考拉征信服务有限公司及北京黑格公司的法定代表人、董事长、销售、技术等20余名涉案人员抓获。
 
返照认证是实名认证的升级版,可以在核实用户提交的身份证号码和姓名的基础上,返回用户照片信息。
 
个人信息这些及其隐私的数据被一些公司包装成为个人数据产品进行贩卖,严重侵害了个人隐私,部分涉案人员因侵犯公民个人信息罪已经被法院判处了相应的刑罚。
 

曾获央行个人征信试点的征信巨头
 
值得注意的是,考拉征信是行业巨头,曾获央行个人征信试点。
 
据其官网介绍,考拉征信是首批获央行备案开展企业征信和批准开展个人征信业务准备的八家机构之一,也是国内首家成立大数据征信模型专业实验室的征信机构,主要从事个人和小微企业信用状况评估业务。
 
2018年1月,中国互联网金融协会和考拉征信等八家征信机构,共同发起成立百行征信有限公司。考拉征信作为发起人之一,积极支持百行征信的发展,全力促进征信行业健康有序运行。


 
事实上,针对此案暴露出的行业乱象,公安部已经开展了全面的打击整治工作。
 
截至目前,警方共立案侦查29起,涉案个人信息4.68亿余条,抓获犯罪嫌疑人288人,涉案金额9400余万元,涉案公司非法缓存的公民身份认证数据已经全部收缴、身份核验返照业务接口全部关停,公安部将会同央行加强对公民身份认证服务、个人征信服务的监管。


2

网络爬虫技术



爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。


你可以简单地想象:每个爬虫都是你的 “ 分身 ”。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。


你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。


抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。

爬虫是什么

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通俗地讲,我们把互联网比作一张大蜘蛛网,每个站点资源比作蜘蛛网上的一个结点,爬虫就像一只蜘蛛,按照设计好的路线和规则在这张蜘蛛网上找到目标结点,获取资源。

为什么使用爬虫

为什么我们需要使用爬虫呢?

大家可以想象一下一个场景:你非常崇拜一个微博名人,对他的微博非常着迷,你想把他十年来微博上的每一句话摘抄下来,制作成名人语录。这个时候你怎么办呢?

手动去 Ctrl+C 和 Ctrl+V 吗?这种方法确实没错,数据量小的时候我们还可以这样做,但是数据成千上万的时候你还要这样做吗?

我们再来想象另一个场景:你要做一个新闻聚合网站,每天需要定时去几个新闻网站获取最新的新闻,我们称之为 RSS 订阅。

难道你会定时去各个订阅网站复制新闻吗?恐怕个人很难做到这一点吧。

上面两种场景,使用爬虫技术可以很轻易地解决问题。

所以,我们可以看到,爬虫技术主要可以帮助我们做两类事情:一类是数据获取需求,主要针对特定规则下的大数据量的信息获取;另一类是自动化需求,主要应用在类似信息聚合、搜索等方面。

爬虫的分类

从爬取对象来看,爬虫可以分为通用爬虫和聚焦爬虫两类。

通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为搜索引擎和大型 Web 服务提供商采集数据。

这类网络爬虫的爬取范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低。

例如我们常见的百度和谷歌搜索。我们输入关键词,它们会从全网去找关键词相关的网页,并且按照一定的顺序呈现给我们。

聚焦网络爬虫(Focused Crawler),是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。

和通用网络爬虫相比,聚焦爬虫只需要爬取特定的网页,爬取的广度会小很多。

例如我们需要爬取东方财富网的基金数据,我们只需要针对东方财富网的页面制定规则爬取就行。

通俗地讲,通用爬虫就类似于一只蜘蛛,需要寻找特定的食物,但是它不知道蜘蛛网的哪个节点有,所以它只能从一个节点开始寻找,遇到节点就看一下,如果有食物就获取食物,如果这个节点指示某某节点有食物,那它就顺着指示去寻找下个节点。

而聚焦网络爬虫就是这只蜘蛛知道哪个节点有食物,它只需要规划好路线到达那个节点就能获取到食物。

浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张图片以及百度搜索框,类似下面图片这样:

baidu_pic_index

这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL 的格式由三部分组成:

  • 第一部分是协议(或称为服务方式)。
  • 第二部分是存有该资源的主机IP地址(有时也包括端口号)。
  • 第三部分是主机资源的具体地址,如目录和文件名等。

由于爬虫的目标是获取资源,而资源都存储在某个主机上,所以爬虫爬取数据时必须要有一个目标的 URL 才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。



3

爬虫的应用



就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。


而越是每个人切身利益所在的地方,就越是爬满了爬虫。


我们今天要说的,就和这些 App 有关

 


爬虫的 “ 骚操作 ”


爬虫也分善恶。


像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。


但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为“恶意爬虫”。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)


给你看一张图:


分布图


这张图里显示的,就是各行各业被爬“叨扰”的比例。

(注意,这张图显示是全世界,不是全中国)


而每一个色块背后,都是一条真实而强大的利益链条。


接下来,就给你科普一下里面的骚操作。



1、排名第一的是出行 


出行行业中爬虫的占比最高( 20.87% )


在出行的爬虫中,有 89.02% 的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。


你还记得当年 12306 上线王珞丹和白百何的 “ 史上最坑图片验证码 ” 么?


一口老血


这些东西不是为了故意难为老老实实买票的人的,而恰恰是为了阻止爬虫( 也就是抢票软件 )的点击。


刚才说了,爬虫只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。


你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。


没错,抢票软件也不是吃素的。


它们在和铁总搞“对抗”。


有一种东西叫做 “ 打码平台 ”,你可以了解一下。


打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码!


那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。


当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是 “ 锅铲 ”,那么下次这张图片再出现的时候,系统就直接判断它是 “ 锅铲 ”。


时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。



你可能会问:为什么 12306 这么抠呢?它大方地让爬虫随意爬会死吗?


答:会死。


你知道每年过年之前,12306 被点成什么样了吗?


公开数据是这么说的:“ 最高峰时 1 天内页面浏览量达 813.4 亿次,1 小时最高点击量 59.3 亿次,平均每秒 164.8 万次。


这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。


况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?


铁路被爬虫 “ 点鸡 ” 成这样已经够惨了,但它还有个难兄难弟,就是航空。


而航空里,被搞得最惨的不是国航,不是海航,也不是东航。


而是亚航!


航空类爬虫的分布比例


很多人可能都没坐过亚洲航空。


这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷 X 度假之首选。


为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。


本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。


据我所知,他们是这样玩的:


技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。


亚航有规定,你拍下来半小时( 具体时间记不清了 )不付款票就自动回到票池,继续卖。


但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。


直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后 0.00001 秒之后,就帮你用你的名字预定了这张票。


“ 我是中间商,我就要赚差价!” 这波骚操作,堪称完美。



2、排名第二的是社交 


社交的爬虫重灾区,就是你们喜闻乐见的微博。


给你看张图:


这是爬虫经常光顾的微博地址



这里的代码其实指向了微博的一个接口。


它可以用来获取某个人的微博列表、微博的状态、索引等等等等。


获得这些,能搞出什么骚操作呢?


你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。


其实,僵尸粉都只是爬虫的常规操作,更骚的来了:


1、我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论,不亦乐乎。


2、我去找一个游戏厂商,跟他说:你看我有这么多粉丝,你在我这投广告吧。我帮你发一条游戏的注册链接,每有一个人通过我的链接注册了游戏,你就给我一毛钱。广告主说,不错,就这么办。


3、我发出注册链接,然后没人点。。。


4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。


5、我躺在床上,数着赚来的一万块钱。


( 以上数据不一定和现实吻合,只是展现一个逻辑。具体操作也会更复杂。)


还有更骚的么?有的。


你家爱豆不是经常在微博上发红包么?好的,我率十万僵尸粉去抢。



凭本事抢来的红包,就问你有什么不妥吗?



3、排名第三的是电商 


你回忆一下,有几种东西叫做 “ 比价平台 ” “ 聚合电商”和“返利平台 ”。


他们大体都是一个原理:


你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东,还有唯品会苏宁易购。


这就是爬虫的功劳。


它们去淘宝上,把胖次袜子杜蕾斯的图片和价格统统扒下来,然后在自己这里展示。



这个原理和谷歌差不多。只不过他们展示的不是网页而是商品。但是被放在一起比价,淘宝是拒绝的,京东也是拒绝的啊。。。


然鹅,由于机器爬虫模拟的是人的点击,电商很难阻止这类事情发生。他们甚至都不能向 12306 学习,因为购买的流程越简越好。


当然,电商对抗爬虫有另外的方法,那就是 “ web 应用防火墙 ”,简称  WAF。


这个我们后面再单独说。


说到这,有童鞋会有个疑问:


那些聚合平台,自己写爬虫,然后帮助淘宝京东卖货,他们的名字叫雷锋么?


醒醒啊同学,雷锋叔叔已经走了很多年了。


我随便给你说一下这种聚合电商平台的盈利模式:


1、假设几家店铺都卖杜蕾斯,但是用户在我这里搜索“杜蕾斯”的时候,我是有权利决定谁的店铺在前面谁在后面的啊。


谁给的钱多,我就让谁在搜索的前面呗。@百度君,你说说是不是这个道理?( 注意,每个店铺和淘宝平台可不是一致行动人。淘宝平台不希望自己的内容被聚合平台抓取,但每个店铺可是很乐意多一个渠道帮他们卖货的。)


2、如果你觉得搞竞价排名良心会痛,也可以用更简单的方式——在网页上展示独立的广告。访问你网站的用户,看到页面上的广告,也有可能会点击。每点击一次,你就赚一次钱。


3、你还可以作为中间商,收点中介费。我帮你店家卖货了,你是不是要给我意思意思。除了给我意思意思,你还得给来买东西的用户意思意思。这种套路,就是“返利网”这类平台的玩法。



4、接下来是 O2O 和搜索引擎 


问你一个问题:


你在大众点评上看到的信息,真是吃货们点评的吗?


答:大部分时候是,但有时候不是。


这里面的影响因素还是爬虫。


这些爬虫很可能被用来做两件事:


1、大众点评毕竟是最好的点评网站。很多网站都会爬取大众点评的数据,用来丰富自己的信息。


2、很多刚上点评的商户,信誉值不高,可以用爬虫来模拟留言、点赞,刷高自己的信誉值。


所以,理论上讲一旦大众点评对这些爬虫对抗出现松懈,就会有一些不三不四的店铺被 “ 刷 ” 到顶部。


而与之相似的,是爬虫针对搜索引擎的进攻。


你可能了解,搜索引擎决定哪个网页排名靠前,( 除了广告以外 )主要一个指标就是看哪个搜索结果的点击次数更多。


既然这样,那么我就派出爬虫,搜索某个特定的 “ 关键词 ”。


然后在结果里拼命地点击某个链接那么这个网站在搜索引擎的权重里自然就会上升。


这个过程就叫做 SEO( 搜索引擎优化 )


举个例子:


我随意搜索一个关键词。



它排在前面的网址,有可能就是经过 SEO 的。


作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗 SEO。


尤其是很多赌博、黄色网站,搜索引擎如果敢收广告费让他们排到前面,那就离倒闭不远了。


所以黄赌毒网站只能利用黑色 SEO,强行把自己刷到前面。直到被搜索引擎发现,赶紧对它们 “ 降权 ” 处理。


不过,这些黄色网站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。


这也就解释了为什么有时我们 “ 众里寻他千百度 ”,蓦然回首,却看到 “ 有人正在脱裤裤 ” 了。



5、再说说政府部门 


你看这张图,全是爬虫针对政府信息的爬取。



第二名,北京市预约挂号统一平台。


这个锅,板上钉钉要号贩子来背。


其他的,例如法院公告、信用中国、信用安徽,为什么爬虫要爬这些信息呢?


因为有些信息,是只有政府部门才掌握的。


比如,谁被告过,哪家公司曾经被行政处罚,哪个人曾经进入了失信名单。这些信息综合起来,可以用来做一个公司或者个人的信誉记录。


我试着打开了一下排名第四位的 “ 信用中国 ”。



在这个平台上,你只要输入一个身份证号或者手机号,就可以查询到一个人的信用情况。


拉到最底下一看,这个网站果然是是根红苗正的。



如果一家公司要对外做信誉库的服务,它必须先把信用中国的信息下载到自己的库里,然后才能和其他数据进行综合运算。


如此,信用中国被爬,也就很容易解释了。


不过刚才那张表格里,排名第七的是四川住建厅。这又是什么骚操作?


根据推测,这很可能是某些公司提供的一项 “ 特殊服务 ”


他们把四川省各个地区的招标情况汇总起来,然后实时提醒那些房地产公司:别睡了,起来投标了。



6、爬虫,只爬用户? 


不,同行也在互爬与反互爬之间挣扎。


以谈之色变的现金贷为例:

(现金贷一度是爬虫产品的最大买家)


Q:爬同行能干嘛?

A:直接省去风控的环节。



Q:爬什么?

A:被爬平台上用户填写的信息,如:个人基本信息、银行卡信息、就业信息、联系人信息、贷款信息、还款记录……



Q:然后呢?

A:然后你授信多少我就授信多少,你放给谁,我也放给谁,以最快速度跻身“击鼓传花”行列。


一般,爬取用户的什么信息?


以支付宝为例:


可以爬到用户的真实姓名、手机号、收货地址、购物信息、甚至详细到每笔金额,而且不断爬取,不断更新……

Q:爬了我的数据能干嘛?
A:卖!卖给有需求的公司。于是你不断的接到广告电话、推销电话甚至骚扰电话。

骚扰电话此处特指:

自己的某位朋友,涉足某网贷,授权/“被”授权APP获取信息后,你在他通讯录,恰恰有过通话记录……进一步被相信,你俩关系还行,比较近,能联系上;

这时候一旦这位朋友逾期,你以及他通讯里/通话记录里与你情况类似的真假好友们,变成了各大催收公司的重点请求 呼叫 骚扰 对象……当然,一开始此类来电还是比较客气的。


据悉,随着相关公司不断被调查,尤其近期针对数据隐私保护的监管力度又上新台阶。


大数据风控从业者表示并不意外:


“正常的,近期很多爬虫类的数据服务都不能用了。数据风控确实越来越难做了”。



4

爬虫战争



对企业来说,爬虫着实伤害了自己。


有句话说:“ 主救自救者。” 他们得组织 “ 民兵 ” 自己保卫自己。



爬虫战争谁会赢?


爬虫和被爬企业越来越势不两立。


说白了,他们的对抗都是在阻挡对方的财路。所以下手都挺重。


企业经典的对抗方式,大概有几种


图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等。。。


这张图来自极验验证的滑块验证技术


除了刚才这些小模块,企业还可以通过  WAF( Web 应用防火墙 )来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。


其实,小公司,小网站,没有做反爬虫的技术处理,爬虫代码就简单多了,这个没有什么技术含量。


而如果使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫,说明是违背了内容提供者意愿的。



最常见的反爬虫手段有三种:


  • 通过分析用户请求的 Headers 信息进行反爬虫。

  • 通过判断同一个 IP 或者同一个设备,在短时间内是否频繁访问对应网站等进行分析;

  • 通过动态页面增加爬取的难度,达到反爬虫的目的。


对于爬虫者来讲,可以非常方便的获取别人辛辛苦苦收集和整理的信息,内容等,


但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力,因为有些暴力爬虫者,不管三七二十一,频繁请求别人的服务器,导致服务器压力过大。


所以,作为技术人来讲,爬虫要讲究规则和方法的,一定要善用爬虫,慎用爬虫,爬虫虽好,但是一定不要侵权,尤其是盗取别人的原创内容和知识,更不要传播具有版权的内容和产品。



但是,爬虫的请求,和真人的请求真的太像了!


我觉得,对这种战争一个形象的比喻就是抗癌。


癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。


不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫。


但是,在这场对抗中,这条战线会达到一个精妙的平衡。


这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。



5

是否违法



2015年11月至2016年5月,元光公司为提高本公司的APP软件“车来了”在市场上的用户量和信息查询的准确度,指使员工利用网络爬虫技术获取谷米公司“酷米客”APP的实时公交信息数据,将之用于“车来了”并对外提供给公众查询。


法院认为,“元光公司利用网络爬虫技术大量获取并无偿使用‘酷米客’APP实时公交信息数据的行为,是一种不劳而获的行为,破坏他人的市场竞争优势,具有主观过错,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争”,并判处元光公司赔偿谷米公司经济损失及维权合理费用50万元。


该判决的意义在于,“当大数据开发形成的智力成果具有独创性成为著作权法保护的作品时,持有者可以大数据形成的作品成为一项法定权利来对之加以保护”,“当大数据不构成作品时,持有者通常会选择不正当竞争来制止他人的未经许可使用行为。” 


换言之,它确认了未经允许的爬虫行为的民事违法性,从而开启了对大数据权益的法律保护之旅。



在此案之后,全国陆续出现了很多不当使用爬虫软件而被判处不正当竞争的案件。


诸如,北京淘友天下技术公司采用爬虫行为大量抓取、使用新浪微博用户职业信息、教育信息不正当竞争案, 国家图书馆出版社与北京百度网讯科技有限公司侵害作品信息网络传播权纠纷案, 浙江泛亚电子商务有限公司诉北京雅虎网咨询服务有限公司等侵犯著作权纠纷案,等等。


这些案件对于规范爬虫行为起到了很好的作用。


 

全国首例爬虫行为入罪案(上海晟品公司爬虫行为入罪案)则清晰展示了爬虫行为从民事违法转化到刑事入罪的变化。



上海晟品网络科技有限公司的主管人员,成功破解北京字节跳动公司的防范措施,采用爬虫技术抓取北京字节跳动公司服务器中存储的视频数据,造成北京字节跳动公司损失技术服务费人民币2万元。



法院以非法获取计算机信息系统数据罪对被告人予以定罪判刑。


法院判决指出,爬虫软件在数据抓取的过程中,“使用了伪造device_id绕过服务器的身份校验,伪造UA及IP绕过服务器的访问频率限制等规避或突破计算机系统保护措施的手段获取数据,构成非法获取计算机信息系统罪”。 


该案中的被告公司及主管人员未经许可,强行突破反爬技术,侵入“国家事务、国防建设、极端科学技术领域”之外的计算机信息系统,并采用爬虫技术获取该系统内的数据,


其行为根据我国《刑法》第285条第2款的规定,构成非法获取计算机信息系统数据罪。


值得注意的是,该案判决特别指出:“在信息时代,‘爬虫’技术是一种常见的数据抓取技术,最常用的领域是搜索引擎,该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣,但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员,必须在法律的框架之内合理使用该技术,违反法律规定利用该技术非法获取数据可能构成犯罪。” 



该案是确认爬虫行为刑事违法性的第一案,具有标志性意义。


虽然爬虫行为在精准搜索、大数据分析与预测等领域作出了重要贡献,但是,如果“对数据抓取行为不加以限制约束,收集、处理、经营数据的相关平台以及提供优质内容的用户的权益便都无法得到保障,从长远来看必将对互联网内容产业产生负面影响”。 


总之,爬虫行为既可能涉及民事、行政违法,也可能构成犯罪;基于维护法秩序与互联网产业健康发展的需要,对爬虫行为的合理刑事规制极为必要。




Web之父Tim Berners—Lee对web3.0进行了定义:


“web3.0是这样一种互联网:由数据定义内容,它能阅读和理解内容。” 


数据只是信息的代名词而已,因此,3.0时代的犯罪其实就是数据犯罪或信息犯罪。


息泛滥的时代使得如何防止爬虫行为对公民个人信息的侵犯成为一个急迫的问题。



我国《刑法》第253条之一第1款规定:“违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。”


该条之一第2款规定:“违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。”


该条之一第3款规定:“窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。”



毫无疑问,网络爬虫行为是否构成侵犯公民个人信息罪,主要取决于爬虫行为是否为第253条之一第3款规定的“以其他方法非法获取公民个人信息”行为。“


以其他方法非法获取公民个人信息”是该罪的违法构成要件。


根据罪刑法定原则——“法无明文规定不为罪不为刑”基本的形式法治之要求,对这一要件的判断,重点不在于“其他方法”,因为这一要素的规定本身为兜底性表述,而且,爬虫行为可否认定为“其他方法”,其实依赖于是否“非法”获取公民个人信息。


因此,“以其他方法非法获取公民个人信息”的判断,重点应针对其中的“非法”要素进行。


其具体可分两个层面进行:


第一个层面是合法性原则,我国《刑法》第253条之一的“违反国家规定”也属于其中的内容;


第二层面是行业规则,即爬虫协议。

 

首先,违反合法性原则的网络爬虫行为获取公民个人信息的,可以认定为“以其他方法非法获取公民个人信息”之“非法”。



6

总结



今年初,一家收录了超过1.6亿人的简历大数据公司巧达科技,因涉嫌提供海量个人数据进行牟利,被一锅端。公司办公室直接被查封,据说连带着整个公司人都被暂时拘留了。


这家公司的简历信息你们猜猜看哪来的?其一是靠爬虫采集来的,其二是靠HR们自己上传的。


有人会有疑惑到哪里采集简历信息,各大招聘网站如果你注册了企业主,你可以查询很多的简历信息。


那为什么HR会自己上传呢?因为这些简历大数据企业他们会把自己包装成一个企业服务。


大家都知道HR每天要处理非常多的信息数据,所以如果有一个平台能帮助他们处理一些简历数据,那是再好不过的,所以就有了这样的企业。


这样一来这些简历大数据企业就掌握了非常多的简历数据,类似的企业非常多。


大家都知道一封简历里面囊括的个人信息非常多:姓名、年龄、可能包括工资水平、在什么公司、城市等一系列的个人信息。


得益于此,这些简历大数据公司的赚钱模式也非常多。


包括向HR、招聘企业、猎头等售卖简历信息;对简历进行分析,这些个人财产等数据可以直接进入黑产。


能从个人简历上做的文章特别多。


正因为他们这种灰色的赚钱模式,他们的公司盈利数据非常好看,类似这种掌握个人信息的大数据公司在前几年活的非常好。


但是这一直是处于灰色地带的。


首先大量采集个人信息数据,它本身是犯法的;再者通过获取的个人信息数据进行售卖非法获利更是违法的。


预计在接下来的一段时间内,类似的企业可能都会活得不太好,倒闭这个问题算是小的,更严重的是进局子。


其实关于爬虫是不是犯法的问题被争论了很久,


一般人认为爬虫并不犯法,因为爬虫采集的是公开的数据。


这个定义里面有一个非常关键的词语是公开,对大众公开,对所有人公开的信息,并不是特定人群才能看到的信息,我们称之为公开。


所以如果你漫游到内网,采集一些不是公开的信息,这可能是违法的,因为这个信息不是公开的。


对这种超纲的爬虫,我们是嗤之以鼻的。


另外,对于自己采集的数据,一旦包含个人信息的,请立即停止你的爬虫,更不要想通过这种信息来赚钱。


一时的贪恋可能毁了你自己。


各位在工作的做爬虫或不做爬虫的同学,也要注意一下自己的公司是否存在类似行为,尤其是利用采集数据进行售卖的企业更要当心。


采集个人信息是红线,

贩卖个人信息更是红线。


我们总说技术无罪,但也期待完善的立法、制度明确合规的界限。毕竟谁也不希望,“爬虫用得好,监狱进得早;数据玩得溜,牢饭吃个够。”


未经授权 请勿转载 ▍




51吃瓜网51吃瓜,进学习交流群


快告诉朋友,我在看!
本站内容来源于网络,如有侵权,请联系吃瓜网站。 吃瓜网站
THE END
分享
二维码
< <上一篇
下一篇>>