美而远的一帘幽梦:P2P的大数据风控

搜狐网 view 38 2015-2-13 02:53
share to
Scan QR code with WeChat

这是个梦,所有P2P及互联网金融从业者的共同理想。

美,像无数科幻大片所描绘的,世界被0和1的数字充斥着;衣食住行,一切的一切皆为数字化的智能应用。

幽,一地相思、两处闲愁,又是混沌间的一缕光。

远,如古希腊神话中的坦塔罗斯头顶上的水果,看似触手可及,而确实又遥不可逮。

说到大数据的神奇,多半是以这个案例入手的:怒不可遏的美国父亲投诉某电商给她女儿寄来不少婴儿用品的产品目录。淡定的商家表示,根据对其女儿在网站点击浏览的行为综合分析得出,她怀孕的概率很高,故而系统自动推送婴儿用品。医院的检查证实了电商数据分析的结果。若干年前以为希奇的东西,现在已经见怪不怪了。

经常网上购物的看官们时常有这样的体会,最近在淘宝浏览过的商品,有时会出现在不知名的小网站的banner位置;大型电商通常有一栏叫“您所喜欢的还有”等等。这些都和那个堪比妇产科大夫的美国电商一样,时时刻刻抓取用户各种维度的数据。

地域(ip地址)、上网时间(点概念)、页面停留时间(线概念)、鼠标滑动区域和轨迹等,海量的这些貌似不相关的数据形成了极为丰富的数据资料。就像3D打印,打印喷头一点一点地在三维空间中勾勒出目标用户或特定群体的画像。事实上,算上时间维度,至少是四维的。

人都有五官,但每个人的脸都不一样(即使双胞胎也是),局部的细微差别导致所描绘的画像差之毫厘,谬以千里。根据大数据来勾勒目标对象也是一个道理。

立体解析几何中我们设定有xyz三根轴,这样,空间中的每个点就可以精确地以(x,y,z)的坐标来描述。但人物画像又岂能用这样的坐标来描绘呢?(现在貌似已经有数字油画了,汗!)至少很难用坐标去勾画。接下来就引出勾画错误的两个来源:一是错误的坐标;二是缺失的坐标。

很多P2P平台说运用大数据来做风控。问及大数据的来源,一般是说向第三方公司购买及自身平台数据。确实,笔者看过转发在微信朋友圈的一个央视报道,说有些第三方公司通过在大型网站加代码的方式获取用户cookie数据,且数以亿计。很难说现在大数据风控的数据不来源于此。

单个数据错误会导致画像勾勒错误,这点是显而易见的。所以,平台是如何甄别原始数据的准确性呢?甄别成本也是平台运营所需要考量的。

上面说的是第一类错误来源,而最可怕的是第二类,即缺失的坐标。用不完整的数据刻画出来的画像会是怎样的图景啊?利用“报喜不报忧”数据得出的结论,无论用什么模型过的,相信是一定失真的,而且很可能是南辕北辙的。

数据无穷尽啊,数据不完整太正常了,难不成就没法做风控了吗?

所以对于平台而言,靠谱的做法是:一尽量保证所使用数据的准确性,可能需要一定成本花费,但毕竟是短时间内做得到的;二是利用数据的交叉关系做验证,而非做判断。这点很重要。在审计中有一种技术,普遍用于审计证据受限的情况下,叫做“分析性复核”。就是从数据本身及互相的比例、逻辑关系中去验证假设是否成立。严格来讲,通过这样的大数据分析得出的结论是一种“合理保证”,即没有证据表明标的没问题,或者说在某个较高的置信度下是可信赖的。三是数据要海量,但光大还不行,还要不相关。这类似于回归中的多重共线性,变量间的高度相关性会大大影响回归模型的准确性。

笔者认为,至少当下还没有平台能够做到利用大数据来直接做判断,腾讯、阿里恐怕也不敢说。但相信就像渐近线,会无限靠近,却达不到极致,这也是笔者所谓大数据“美而远”之所在。

如果说2013年是互联网金融元年,今年才第三个年头。[1]BCG的一份报告中提到,全球数据总量有90%诞生于最近两年;沃尔玛每小时产生的交易数据量是美国国会图书馆藏书总量的67倍;一个人要看完YouTube上的所有视频,需要花1000年的时间……

很多场景数据的加入,不光使得风控更客观、准确、接地气,在安全的前提下,也让互联网金融运用更为便捷。一些LBS的位置数据,让一些特定的场景允许采用特定的方式去实现。比如,经常性的家庭场景中的小额支付就不需要繁琐的密码或短信验证等等。

虽然远,但她美,而且离我们愈来愈近了。

btcfans公众号

Scan QR code with WeChat

Disclaimer:

Previous: 比特币把在线商务带到尼日利亚 Next: 此退彼进:比特币ATM在上海、纽约的境况

Related