8月发生的两起全国数据危机,展现出行业领军公司在“用好大数据”上还有很长的路要走。
在滴滴顺风车司机杀人事件里,滴滴的困境是:这么多的个人信用数据,滴滴却未能用好,以至未能识别高风险的司机。据调查,犯罪嫌疑人钟某案发前曾向 51家机构借款,“几乎借遍了所有能借款的机构”,还发生过多起逾期(见下图)。如果滴滴在审查顺风车司机资格时能将个人信用数据充分考量,本应将这种频频失信者拒之门外。
钟某的借款记录。来源:每日经济新闻
在华住原始数据泄露事件里,华住的困境是:存储了海量的用户原始数据 “不知道有何用”,且一旦泄露,公司形象受冲击,股价甚至有大跌的风险。大数据对华住,成了烫手山芋。
( 黑客在暗网售卖华住用户数据的截图,此图由一位网络安全专家向《财经》记者提供)
大数据本可以被用得更好
华住与滴滴,按数据规模标准,都是 “亿级大数据公司”。但规模大不等于能用的好。要用好数据,需要在数据搜集、数据对接、数据分析、数据预警等方面,作更系统的安全设置。
数据搜集阶段,应着眼于要素的 “相关”和“全面”。比如滴滴的顺风车司机资质准入,就可以基于更完备的信用维度数据,考查借贷次数、借贷对象、违约比率等信用指标;而不是只搜集是否有私家车、是否有驾驶经验等操作要素。
数据对接阶段,应着眼于防范数据泄露,保护个人隐私。以华住为例,存储用户原始数据的初衷,是为了验证用户身份真实、符合入住要求。除此用途之外,存储大量的用户隐私信息(手机号、家庭住址、生日、消费金额等),对华住并无价值,反而增加了隐私泄露风险。在数据对接阶段,越多的原始数据就意味着越大的泄露风险。越是大规模的数据对接,就越需要作好数据加密与数据防火墙;好不暴露原始数据,才能从根本上杜绝数据传输、存储过程中的泄露风险。
数据分析阶段,应在关键指标与业务影响间,建立分析链。比如滴滴顺风车司机例子中, “是否短期内有多次借贷记录”可以成为一个相关项,指向信用。因为在短期内多头借贷的人,他的生活状态就不是特别正常——能看出他是有很大的现金需求的,并且收入不稳定。如果我们能对于这些共享经济平台上的潜在服务人员作好风控,就能预防危机的发生。
数据预警指的是在服务发生过程中,对实时、动态新数据的敏捷分析与快速响应。如在滴滴顺风车司机案例中,完全可以基于位置偏离信息(路线与订单差别大)的异常数据情况进行诊断。滴滴并不需要知道每位用户的具体位置,但是只要有一个 “偏离最初路线”的指标被追踪,就可以根据指标异常,联系后台进行报警;一旦触发主动或自动报警,就应该有权限直接连到公安,而不是依靠权限有限反应迟缓的的外包客服处理。
破局之道 ——“区块链安全多方计算”
传统意义上的 “大数据服务“在各个环节漏洞百出,是因为中心化地屯集售卖原始数据,必然导致数据缺失、数据泄露、以及数据多而无用。如下图所示:
而这些环节漏洞,可以通过基于区块链的安全多方计算,加以解决。如下图红体部分:
在数据搜集环节,区块链可以提升信息真实性和数据分享的积极性。少量关键数据(如滴滴案例中所涉及的犯罪记录等信息)进行链上存储外,大部分原始数据可以在链下存储。只要在区块链中设置校验机制,就可以保证信息的真实性:当信息之间校验结果出现差异时,区块链可以根据自动判断并返回结果。同时,区块链校验机制激励正确信息提供者;并处罚提供虚假数据的人。这样就同时保证了分享的积极性与可信度。
在数据对接环节,区块链可以更好地保护个人隐私。零知识证明等技术可以帮助数据所有者在不交换原始数据的前提下证明自己的数据所有权,并共享分析结果。在美国, Uber正在积极与加州伯克利大学合作,将非对称隐私(differential privacy)技术应用在用户个人数据共享中,从而既能将Uber体系的用户行为数据提炼出公共治理和商业上有用的洞察,又防范用户家庭住址和出行习惯等敏感信息泄露所导致的个人风险。
在数据清洗、加工和分析环节,智能合约激励更多参与方来 “竞标”,确保最优分析模型得到采用。因为原始数据无泄露、个人隐私得到保护,所以有更多的分析参与方可以在合规的前提下,基于客户需求(如滴滴/华住/Uber),参与到搜集、加工数据资产,和构建分析模型中来,并能获得回报。届时拥有大量数据却不知如何分析的大企业如华住,完全可将数据清洗、加工和分析工作,放心地众包给天南海北的大神们完成。
在数据应用环节,用户数据的需求方 ——无论拥有或不拥有原始数据,将真正视数据为璞玉,而非定时炸弹。无论是O2O企业如airbnb,还是纯线上服务互联网公司如Facebook,或传统企业如工商银行,它们搜集用户数据资产的效率将得到提升,用户数据资产转变为业务KPI的速度将加快,同时不会有存储和泄露用户原始数据的后顾之忧。
在以上基于区块链的安全多方数据计算机制下,大家会主动贡献更多的、更准确的数据,打破数据孤岛,将数据点石成金,同时惠及每个数据拥有方、分析方和需求方。
哪些行业和公司将直接受益于安全多方计算?
所有的共享经济平台。滴滴、美团、爱彼邻( airbnb),都涉及用户隐私保护,对服务提供方(司机、骑手、房东等)信用及安全的事前评估,以及服务过程中的实时数据分析与预警。以美团为例,在骑手招募阶段,同样可以在骑手的手机端对其生活、借贷状态做一个预判和分析,分析后对此人的风险进行评分,并把评分系统贡献在大的风控体系中。以airbnb为例,在房东评估阶段与房产租赁阶段,也可以进行同样的评估;这样的评估无需采集原始数据,所有的计算都可以在手机端、本地化地完成,大限度保护各方隐私。
所有基于用户账号体系的互联网平台与智能硬件平台。互联网平台如 Facebook、亚马逊、阿里、微信,智能硬件平台如小米、苹果,这些企业在注册与服务中会自然产生大量的用户身份信息与行为信息,用户数据泄露的风险及危害甚至比共享经济平台还要大;Facebook在4月的Cambridge Analytica数据泄露事件,即是前车之鉴。如能够引入安全多方计算体系,原始数据从一开始就得到屏蔽,Facebook完全可以“御敌于国门之外”,既能继续基于用户的数据优化社交产品体验和广告效果,又不用担心第三方有意或无意的泄露。
在业务中会囤积大量用户原始数据的传统服务企业。包括酒店连锁、航空公司、银行、医疗等接触大量用户私人信息的企业。这类企业一方面在业务中必然涉及用户的身份信息验证,从而囤积大量原始数据;一方面在数据清洗、数据存储、数据安全方面,又缺乏技术能力,因而对大数据往往有捧着 “烫手山芋”的尴尬。安全多方计算,可以在保障这类企业数据需求(如用户身份验证)的同时,大限度地降低它们保护用户隐私的难度。
区块链多方安全计算在各行业应用,可以说是方兴未艾。而企业的态度,不应再是亡羊补牢式的应激反应,而应该是未雨绸缪,谋局于先。
相关阅读: