解密游走于法律边缘的爬虫技术

解密游走于法律边缘的爬虫技术

2018年4月至5月,广东警方开展“净网安网”专案收网动作,共打掉团伙40余个,缴获不法生意的公民小我信息1.2亿余条。摄影/本刊记者 陈骥旻

本刊记者/赵一苇

一场囊括大数据风控行业的风暴仍在持续。

从9月下旬起头,多个业内闭门交流会紧要召开,每个会场都摆出谨防死守的架势。“参会者中不乏近期被查或有关系的大数据公司高管。”一位接近会议的业内子士向《中国新闻周刊》透露,这些闭门会严厉保密参会名单,拒绝外部报名,会场门口都邑严厉一一核验参会者身份,尤其严禁媒体进入,“人人都是来商议今后怎么办,能不克活下去都是个问题。”

这是一场针对大数据办事商的强监管风暴。自9月初起,多家杭州、上海的大数据风控公司被查询,业内知名的集奥聚合、新颜科技、公信宝等多家公司的焦点高管被警方带走查询,连一些与这类数据公司有过生意履历的公司高管也被警方带走协助查询,个中包罗中国电信旗下征信机构天翼征信的多位焦点高管。但在新闻传出后,天翼征信和新颜科技方面仍向《中国新闻周刊》透露,“公司买卖一切正常。”

业内已风声鹤唳,尤其以习用收集爬虫手艺爬取并违规使用数据的公司最为惊恐。

所谓收集爬虫,即一种按照必然划定,主动抓取互联网信息的法式。在大数据风控行业中,以收集爬虫获守信息数据的做法盛行,而违规使用、生意爬虫得来的数据则是导致数据泄露、隐私泄露等一系列问题的根源。

“爬虫手艺自己是中性的,要害在于是否合规使用爬虫数据。”中关村大数据联盟副秘书长陈新河在接管《中国新闻周刊》采访时透露,若是经由爬虫抓取收集公开信息或授权信息,并不违规;但若是抓取的是未公开、未授权的小我敏感信息,且违规留存、使用、生意这些隐私数据,就属于违规行为。

“真正合规的公司数据起原都是有官方授权的,能获得这类授权的公司少之又少。”一位历久与大数据公司打交道的甲方公司高管敷陈《中国新闻周刊》,大数据风控行业门槛低,业内鱼龙混同,且监管难度大,“行业混沌,监管层只能先一刀切”。

大数据公司被查的蝴蝶效应敏捷传导至信贷市场。比来一个月里,多家中小银行和金融机构纷纷收紧信贷产物审批,多家网贷公司和贷款超市..大面积下架假贷产物。

“很多中小银行和金融机构的风控模型对第三方数据有较大依靠性,自身风控系统不完美,依靠的外部数据被割断,风控势必会受到影响。”一家与持牌金融机构有多年合作经验的第三方风控公司高管敷陈《中国新闻周刊》。

很快,监管层表清楚督促银行增强自立风控的立场。10月12日,北京银保监局印发《关于规范银行与金融科技公司合作类买卖及互联网保险买卖的通知》,要求规范辖内银行与金融科技公司合作类买卖及互联网保险买卖,促进银行保险机构增强风险管控和合规治理,明确强调要严厉落实自立风控原则。

“监管层对数据公司的清算酝酿已久,但完整的数据平安法还临时不会出台。”一位接近监管层的人士向《中国新闻周刊》透露,“若何界定小我数据的司法性质,仍然是一个需要商量的问题。”

暂停爬虫买卖

这一轮强监管从深圳、杭州、上海等地起头,已经敏捷囊括了整个大数据风控行业。清算力度之大,令业内和相关合作方人人自危。

“如今行业内根基暂停了爬虫买卖,好多之前做爬虫的也都在清理数据库,就怕被查。”一位大数据金融业内子士敷陈《中国新闻周刊》,不光是互联网金融公司,连与大数据公司只有过零星合作的雇用公司、风控公司比来也纷纷割断了合作,“数据公司被查,相关行业都邑受到波及。”

在大数据行业中盛行的爬虫手艺,首要分为公开爬虫和授权爬虫两类。前者只能爬取机构或网站公斥地布的信息数据,如工商信息等;尔后者则需要取得用户的小我授权,以爬取小我通信录、邮箱、网银、电商..等小我隐私数据。

凭据全国信息平安尺度化手艺..于本年6月发布的《小我信息平安规范》收罗定见稿,小我信息掌握者在收集小我敏感信息前,应征得小我信息主体的明示赞成,并应确保小我信息主体的明示赞成是其在完全知情的根蒂上自立给出的、具体的、清楚明确的意愿透露。

“所稀有据授权都需要显着明确地示知消费者,授权获取数据是要害。”深圳中兴飞贷金融科技公司副总裁孟庆丰在接管《中国新闻周刊》采访时透露,“弗成否认的是,数据行业内的确存在很多错误规的做法,尤其是未经授权的爬取数据。”

“此次事件之前,正常情形下,即使是已获得用户授权的爬虫,在爬取数据并合规使用后,数据就消散了。”中关村大数据联盟副秘书长陈新河向《中国新闻周刊》举了个例子,“譬如你申请A银行的一项贷款产物,就需要授权A银行去查询获取你的社保、公积金、航班出行等数据,银行或者经由一个中央数据办事商去授权爬虫,爬虫获得的信息供应给A银行,在双方商定的划定上,这些数据的使用就到此为止,不得留存或卖给第三方”。此次事件之后,以北京银保监局2019年10月12日发布的《关于规范银行与金融科技公司合作类买卖及互联网保险买卖的通知》为代表,其明确划定“严禁与以‘大数据’为名窃取、滥用、不法生意或泄露客户信息的企业开展合作。”中央办事商的合规评估、认证需要时间,为降低风险,A银行将多采用“断代购直”,采用直连数据源的模式,中央数据办事商的模式将大大受到限制。

值得注重的是,恰是一些大数据办事商获取了未经授权的数据或授权后私自留存的数据,才滋长出游走于灰色地带的数据生意。

有互联网金融公司人士向《中国新闻周刊》供应的一份数据办事商报价单显露,常规数据办事一样分为身份验证类、关联人验证类、位置验证类、根蒂属性标签类等,既怀孕份证号、手机号、姓名等信息,也含有近三个月关联人活跃度排名、通信录名单、常用位置信息等隐私数据。所有办事均按次收费,单次有效查询的价钱在0.38元~0.98元不等。“在数据行业,每条信息都是明码标价,若是包年还有额外扣头。

业内子士介绍,很多数据公司既供应信息查询办事,传播“毫秒级响应”,也支撑数据输出打包生意。除了通信类小我信息数据,在互联网金融公司平常接触的各数据公司报价单中,关于小我社保、公积金、司法信息、网银支出宝账号暗码、淘宝京东等电商..生意记录、社交..信息等主要隐私数据,也赫然在列。

“很多数据公司对数据起原避而不谈,只强调数据自己的价格。”上述互联网金融公司人士向《中国新闻周刊》透露,“很难说他们是经由什么渠道获取这些数据的,也很难去验证数据起原。”

2017年6月1日起头施行的《收集平安法》中已明确划定,收集运营者收集、使用小我信息,该当遵循正当、合法、需要的原则,公开收集、使用划定,明示收集、使用信息的目的、体式和局限,并经被收集者赞成;收集运营者不得收集与其供应的办事无关的小我信息;未经被收集者赞成,不得向他人供应小我信息。

同时,《小我信息平安规范》中也明确提出,小我信息掌握者在共享、让渡小我敏感信息前,应向小我信息主体示知涉及的小我敏感信息类型、数据领受方的身份和数据平安能力,并事先征得小我信息主体的明示赞成。

“未经授权的爬取、使用、销售数据相当于偷盗。”深圳中兴飞贷金融科技公司副总裁孟庆丰向《中国新闻周刊》直言,“一些数据公司既没有获得授权,又私自行使爬虫手艺去违规接纳外部数据,这就是不被许可、错误规的。”

“爬虫手艺比如是一把刀,刀自己没有错,要害看用刀的人是谁,用刀的目的是什么,不克因为一个罪犯用菜刀杀了人,便剖断所有菜刀都是杀人对象而被悉数禁止使用。”陈新河在一个涵盖今朝主流金融科技公司的362人“01数据爬虫危机商议群”抛出这个概念获得人人的一致承认。陈新河对《中国新闻周刊》强调,“此次所谓的“爬虫危机”,罪名就有问题,爬虫与危机没有直接的逻辑关系,真正的问题不在于爬虫手艺,而在于数据的合规获取和合规使用。”

在10月12日举办的2019中国普惠金融国际论坛上,Visa大中华区首席风险官杨景香提出:“数据便是问题也是解决方案。不需要存储的数据必然不要存储,敏感数据必然不要存储。”

大数据风控之兴

回溯大数据风控行业的鼓起路径,不难发现其与互联网金融的爆发关系亲切,两个行业的成长也亦步亦趋。

自2013年起,各类消费金融机构、互联网贷款..敏捷鼓起,依靠互联网大数据的风控与获客系统,敏捷成为消费金融市场的主力军,同时倒逼传统银行加速互联网转型。在掠取市场的战争中,金融机构纷纷加速脚步,线上获客与风控的需求暴增。

“中小型银行和各类金融机构、网贷公司都是大数据风控的需求方。”一位资深城商行高管敷陈《中国新闻周刊》,大银行一样拥有坚韧的数据根蒂和较强的数据下沉能力,而对于根蒂和能力都较微弱的中小银行和网贷公司来说,第三方数据办事则能够作为提拔风控能力、提高信贷效率的主要副手,“有的机构会从第三方购置数据来完美本身的风控模型,有的小机构会直接购置第三方的数据模型或评估究竟。”

需求刺激之下,大数据风控行业应运而生。凭据亿欧智库2018年11月发布的《2018中国智能风控研究申报》(下称《申报》)显露,截止其时,金融风控企业已经达到573家,个中跨越六成企业成立于2014~2016年。

行业的敏捷崛起离不开风投的助推。凭据上述《申报》数据,在其时的573家金融风控企业中,有192家企业获得投资,投资金额跨越1000亿元,个中三成企业获得三次及以上的投资。

野蛮生长的海潮中,依靠爬虫手艺违规爬取和使用数据的公司敏捷强大,凭借雄厚的数据起原和极低的把持成本,跻身行业前列,市场份额甚至大大跨越合规数据公司。

“真正合规的公司数据起原都是有官方授权的,有严厉的官方指定,自己数量占比小,市场份额也占比小。”一位历久与大数据公司打交道的甲方公司高管向《中国新闻周刊》透露,“那些做非授权数据的公司,一样成本和价钱都较低,但焦点数据一旦出问题就非常麻烦。”

鉴于大数据风控公司良莠不齐的近况,金融机构与大数据公司实际买卖合作往往采用“一对多”的模式,以期获得尽或者雄厚的数据源,尽或者增强大数据风控的靠得住性。

“大部门合作的金融机构都邑同时和十几家第三方数据风控公司有买卖往来,会购置多家公司的数据产物来交叉验证,以求更有保障的风控。”一位互联网金融公司人士向《中国新闻周刊》透露,“越大的金融机构甘愿购置更多数据源来完美本身的风控模型,有些自身就不规范的小型网贷公司甚至只会直接买评估究竟。”

“有实力的金融机构会强调大数据的全流程应用,贯穿获客、风控、反欺诈、催收等多个环节。”苏宁金融研究院院长助理薛洪言在接管《中国新闻周刊》采访时谈到,对大机构而言,有些环节是需要买一些原始的数据来完美已有的模型,补齐用户画像,起到辅助风控感化;但对小公司而言,奉行“拿来主义”的成本更低,更倾向于直接采用第三方的解决方案,好比黑名单、智能..策略等。

跟着监管层对大数据行业的监管收紧,既无官方授权,也无完美用户授权的大数据公司面临生存危机,这类大数据公司大多已起头测验转型。

有业内子士向《中国新闻周刊》透露,今朝业内以未授权爬虫的数据源为首要买卖的公司根基已经停摆,都在尽或者地做合规买卖。相关合作方也都在清查合作数据公司的数据源合规性,对于数据源授权语焉不详的都邑自动割断关联。

“能获取的数据源变少后,公司的风控模型必然会变。”深圳中兴飞贷金融科技公司副总裁孟庆丰敷陈《中国新闻周刊》,“任何一个风控模型都是基于必然的数据源而竖立,且需要必然时间来进行完美和验证结果,数据源的更改尤其是变少,会显著影响模型的精准度。”

苏宁金融研究院院长助理薛洪言认为,这一轮对大数据公司的清算无疑是一次行业洗牌。“错误规公司的客户必然流失,实力不足的公司也会因数据源的削减引起模型预期正确率的下降,同样面临客户流失的逆境。”

“强监管的结果一向持续到来岁,大数据行业必然会有一次彻底的洗牌,该退场的错误规公司都邑退场。”孟庆丰直言,“跟着监管层对数据平安的持续发力,今后数据行业内能活下来的必定只有获取了官方授权的合规公司。”

银行堵破绽

10月上旬,多位业内子士向《中国新闻周刊》确认,比来央行已将《小我金融信息(数据)珍爱试行法子(稿本)》下发到各家银行,今朝正在收罗定见中。凭据本年4月发布的《中国人民银行2019年规章制订工作规划》,该《法子》是中国金融范畴落实《收集平安法》确立的收集信息平安和收集运行平安两大轨制的最高位阶部门规章。

10月12日,北京银保监局印发《关于规范银行与金融科技公司合作类买卖及互联网保险买卖的通知》(以下简称《规范通知》),明确提出银行需要增强合作机构治理,严禁与以“大数据”为名窃取、滥用、不法生意或泄露客户信息的企业开展合作。

实际上,自9月初起头的大数据公司被查风浪后,已有多家中小银行自动割断了与涉嫌错误规的大数据公司的合作,但随之而来的是银行信贷审批的收紧。

“如今中小银行和金融机构都不太敢去买第三方的数据产物了,起头强挪用本身的风控部门获取用户授权后爬,买卖规模和审批效率都受到了很大影响。”一家与持牌金融机构有多年合作经验的第三方风控公司高管敷陈《中国新闻周刊》。

“弗成否认,这几年城商行、农商行的敏捷成长,离不开线上大数据公司的匡助。”前述高管透露,“很多中小银行和金融机构的风控模型对第三方数据有较大依靠性,自身风控系统不完美,依靠的外部数据被割断,风控势必会受到影响”。

值得明确的是,一些大数据风控公司切实对中小银行完美风控系统起到了必然积极感化。以比来被查询的知名数据公司同盾科技为例,其官网上展示的客户案例仅有一则与渤海银行的合作,称为渤海银行量身定制了笼盖买卖全流程的风控系统,其信用评分模型的KS值达到40%,比行业平均水平提拔10%。

在10月11日召开的中国普惠金融国际论坛上,方付通董事长兼CEO孙宏宇提出,大数据不决意一切。在缺乏线上数据的时候,能够经由线下数据增补,再连系线上的科技手段验证,从而提高中小银行客户数据的完整度。

“值得一定的是,近年来大数据公司对金融机构提高风控能力、提拔效率的确起到了积极感化。”浙江泰隆银行首席经济学家郑勇军在接管《中国新闻周刊》采访时透露,大数据等金融科技普遍应用于小微金融、普惠金融范畴,有助于解决小微客户信用数据不完整的问题,“对于中小金融机构而言,大数据的应用多施展在风控环节”。

郑勇军认为,大数据的应用一样可贯穿金融机构贷前、贷中、贷后三个环节。个中,贷前环节包罗审核、反欺诈、征信等信息验证,贷中环节能够起到辅助信用评分、风险订价、加速审批等感化,贷后环节能够起到监控资金去向、治理存量客户等结果。

“需要注重的是,现在主流的风控模式仍然需要线上加线下配合构成,不克完全纯真依靠线上的大数据风控模型。”郑勇军强调,“在现阶段,线下审查仍然具有需要性。”

在方付通董事长兼CEO孙宏宇看来,在很长一段时间内,线上、线下相连系仍然是主流风控模式。“所谓纯大数据风控,中国或者还需要时间,或者得百行征信再丰满今后才能实现。”

对此,监管层的立场与业界一致。北京银保监局印发的《规范通知》中也明确提出,银行要严厉落实自立风控原则,不得将贷款“三查”、风险掌握等焦点买卖环节外包给合作机构,不得仅凭据合作机构供应的数据或信用评分直接作出授信决议。

小我金融信息隐忧

早在这一轮大数据行业清洗前,监管层在2017年5月、2018年11月,已针对电信诈骗、爬虫导致的小我信息泄露有过两轮整治。其间,《收集平安法》在2016年11月发布,并于2017年6月1日正式实施,并查处了多个不法获取数据的案例。

2017年,曾号称“数据第一股”的北京数据堂被警方查询,也成了大数据爬虫公司中第一个入刑案例。这家在2014年就挂牌新三板的科技公司,经查涉嫌行使收集爬虫手艺违规获取、倒卖小我信息数据,在8个月时间内日均传输公民小我信息1.3亿多条,个中包罗主要隐私数据。2018年8月,山东省费县人民法院一审判处数据堂首席运营官柴银辉、..产物部副总裁胡晓敏有期徒刑三年。

中关村大数据联盟副秘书长陈新河向《中国新闻周刊》直言,在监管进一步收紧前,国内游走于灰色地带的数据生意体量弗成小觑,“最常见的有买房后被装修公司..、买车后被保险公司..等。跟着大数据的笼盖越来越广、应用场景越来越多,数据合规使用和小我数据隐私珍爱加倍迫在眉睫。

本年以来,关于增强小我金融信息立法珍爱的监管旌旗密集释放,有关部门正在抓紧推进数据珍爱方面的规章轨制、尺度等的制订工作。

截止10月,国度互联网信息办公室已经会同各行业主管部门研究草拟了《数据平安治理法子(收罗定见稿)》《收集平安审查法子(收罗定见稿)》《小我信息出境平安评估法子(收罗定见稿)》《儿童小我信息收集珍爱划定(收罗定见稿)》《App违法违规收集使用小我信息行为认定方式(收罗定见稿)》,并面向社会公开收罗定见。此外,工业和信息化部也会同有关部门草拟了规范性文件《收集平安破绽治理划定(收罗定见稿)》,正在向社会公开收罗定见。

值得一提的是,央行于10月下发到各银行的《小我金融信息(数据)珍爱试行法子(稿本)》(以下简称《法子》)恰是近几年业界一向呼吁出台的统一的小我信息珍爱律例。

早在4月发布的《中国人民银行2019年规章制订工作规划》中,就已经包罗制订该《法子》。6月14日,央行副行长朱鹤新也透露,要研究鞭策小我金融信息珍爱立法,明确各方的权益义务,使小我金融信息珍爱取得实效。

“监管并不料味着要取缔或禁止大数据行业,让行业规范化成长才是监管的本意。”苏宁金融研究院院长助理薛洪言向《中国新闻周刊》透露,金融行业离不开数据的支撑,数据能够作为一种资产去促进金融科技的成长,促进金融业的转型,促进金融业更好地办事实体经济、普惠金融的成长,“不克过火地舆解成要为了数据珍爱牺牲金融科技,监管的真正意义在于规范成长”。

在监管层面之外,小我金融常识教育则是数据珍爱的基石。亚洲斥地银行研究院(ADBI)研究经济学家黄必红提议,能够借鉴..的经验,从学生、工作生齿、老年生齿三个角度离别推进金融常识教育。“近年来,金融科技成长非常敏捷,也代表着将来的财富成长偏向。除了传统金融常识的教育,金融科技常识教育也应该纳入国民教育系统,包罗一些新的金融产物,新的金融科技风险的提防。若是受到欺诈,消费者知道经由什么样的渠道珍爱本身。”

“从过往经验看,数据灰色生意其实已存在三十多年甚至更长的时间,只是在我们步入大数据时代后,问题会被进一步放大。”中关村大数据联盟副秘书长陈新河对《中国新闻周刊》说,“今朝大数据行业存在的问题仍属于成长中的问题,行业整体仍在向积极的偏向进步,应该连结决心。”

中国新闻网微信号:暂无扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 英雄联盟宣传片(英雄联盟宣传片cg动画视频合集)

    大家好,小娟今天来为大家解答英雄联盟宣传片以下问题,英雄联盟宣传片cg动画视频合集很多人还不知道,现在让我们一起来看看吧!1、LCK宣传片

  2. 2 帆船纹身手稿(帆船纹身图片乘风破浪)

    大家好,小美今天来为大家解答帆船纹身手稿以下问题,帆船纹身图片乘风破浪很多人还不知道,现在让我们一起来看看吧!1、纹身帆船是指在身上

  3. 3 如何格式化u盘又不破坏数据(怎样格式化u盘读取的速度快)

    大家好,小乐今天来为大家解答如何格式化u盘又不破坏数据以下问题,怎样格式化u盘读取的速度快很多人还不知道,现在让我们一起来看看吧!1、

  4. 4 韩剧阿娘使道传国语(韩剧阿娘使道传国语)

    大家好,小娟今天来为大家解答韩剧阿娘使道传国语以下问题,韩剧阿娘使道传国语很多人还不知道,现在让我们一起来看看吧!1、阿娘使道传》是

  5. 5 刘汉自曝睡过的女星(刘汉自曝睡过的女星)

    大家好,小伟今天来为大家解答刘汉自曝睡过的女星以下问题,刘汉自曝睡过的女星很多人还不知道,现在让我们一起来看看吧!1、范冰冰:范冰冰

  6. 6 老婆喜欢和多人日(老婆喜欢和多人日)

    大家好,小美今天来为大家解答老婆喜欢和多人日以下问题,老婆喜欢和多人日很多人还不知道,现在让我们一起来看看吧!1、很明显的,直接分手

  7. 7 我最难忘的一个人(我最难忘的一个人的作文)

    大家好,小伟今天来为大家解答我最难忘的一个人以下问题,我最难忘的一个人的作文很多人还不知道,现在让我们一起来看看吧!1、在夜空中,总

  8. 8 别董大其一(别董大其一唐高适)

    大家好,小美今天来为大家解答别董大其一以下问题,别董大其一唐高适很多人还不知道,现在让我们一起来看看吧!

    1、《别董大二首》是唐代诗

Copyright 2024 看看网,让大家及时掌握各行各业第一手资讯新闻!