金融大数据的思维与实践

未知來源閱讀 67 2014-12-27 05:31

导读：大数据可以帮助金融企业解决信息不对称以及营销、定价、风险和欺诈等问题，还可以识别用户的行为和潜在需求，从而提升金融企业的IQ。

我主要是做IT的，和银行家们是跨界交流。而我们跟淘宝也有区别，淘宝的IT是自己运营，而我们是面向企业输出运营的。我们的业态是什么？我们公司从2008年开始做云计算和大数据，主要业务都在运营商，去年被金融行业吸引，一些股份制银行和大型保险公司也成为了我们的客户。在大数据处理方面，我们主要是以平台建设为主，帮运营商分析数据。现在应该说是互联网之外最大的体量，每天有300多亿条明细数据，每天平台处理在几个PB（1PB=1024TB），这相当于是一家股份制银行全量记录的上千倍。这些作为IT技术的一种输出，能够帮助金融业看清在互联网和企业里面我们做了哪些业务。今天我分享一下我们在大数据上的实践和思维。

互联网于金融

（一）互联网对金融的贡献

互联网于金融，主要是支付、信贷、储蓄这三方面。我们认为，现在大数据在互联网金融领域主要解决三个问题，第一是解决运营交易成本过高的问题。网银降低了20万个网点成本。而阿里主要是把信用和抵押进行置换。第二是提供流动性，解决资产与负债流动性不匹配的问题。P2P就是将存款进行转让，比如众筹。第三是拓展4000万中小微企业市场。互联网金融出现以后，更大的变化是把市场体量做大了，不是只服务于我们现有的客户，还可以把碎片化的需求和供给进行整合，进而细化渗透到很多中小企业市场和中小客户市场。而我们也关注到了市场的另一端，即高端客户市场，也就是理财的运营市场。对于理财市场客户，应该是通过线下接触最好。但海外金融机构也提到，对于每一位高端客户，与他接触的次数以及准确接触的能力都是非常有限的。那么，怎样把精准的内容和手段提供给高端理财客户？这也是大数据解决的问题之一。以上三点都是互联网金融中我们有能力去拓展的一些功能。

（二）互联网存在的问题

大家都在谈互联网的优势，觉得互联网很美妙。但是要研究互联网，一定要面对互联网自身的问题，其中最具挑战的就是信息过载问题。在互联网上，信息以WebPage的形式呈现，等待人们去点击，那么互联网的主体必然是注意力经济。例如，2013年1月，财经金融类网站总访问次数381539万，访问时长9122万小时，即10413年。在此情况下，不可能用传统的方式获取所有的信息。如何从这些过载的信息中获取被稀释了的数据价值呢？这是移动互联网面对的最具挑战的一个问题。

（三）新业务模式

那么，是不是互联网就是终极形态？我们给出了一个经济范畴的定义，即这样的模式怎么去挣钱。互联网早期最简单的业务形式是2B，传统经济模式下，企业向客户出售产品或服务，以直接赚取金钱为目的，衡量指标就是产量等概念。第二个时代就是2C，互联网经济下，企业尽可能多地发展用户，不以直接从用户处赚取金钱为目的，希望通过后向收费或者发掘用户终身价值等方式赚取利润。这个时代，像谷歌、Facebook等公司主要是经营用户，那么用户体量就是衡量标准。这一过程，在北美互联网时代被颠覆了。Zynga曾经创造了一个财富奇迹，它的经营模式形态能够快速积累用户，用2个月达到了5千万用户规模，但是一年以后，千亿美金估值的神话就破灭了。

这种通过发掘用户、后向收费、靠广告盈利的模式，是不是有一些新的挑战和变化呢？是不是靠经营用户或者靠点击量就能够获取到新的业务呢？未来我们看到的将是2D的业务形态，也就是大数据经济。数据将是未来企业的重要资产，企业通过数据创造新的商业模式，或直接通过数据售卖以及利用数据提供增值服务获得巨大利润。在这一时代，海量用户和良好的数据资产将成为未来核心竞争力与收入的重要来源。这个数据未必是靠人的点击。比如，在座的各位可能与运营商没有任何交易往来，但是手机的传感器在持续记录你的位置信息，这个信息在不断地跟基站通讯，也就是不需要点击，你的行为就已经被运营商捕捉了。我们今年给运营商做规划，已经开始从云业务拓展到上网业务，今年开发了信令业务，一个省新增十几个PB的业务，价值更加碎片化了。而且这个过程是无干预的，在没有任何体验的情况下，已经将用户行为捕捉和沉淀下来了。所以2D更多的是以数据为驱动力的生意模式。这种生意模式把附加值扩展得很大。而互联网只能通过广告来盈利，因为它依靠的是注意力经济。这种模式下，很难挣钱，只有少量通过马太效应才能盈利。现在细分市场的很多数据规模能驱动产生新的价值。

以上是大的经济形态。具体来讲，大数据更多的是帮助金融企业包括传统银行获得金融IQ,即接触市场和接触用户的权利和能力。在我们看来，传统银行的数据价值远大于互联网公司。其实，金融企业很多线下的数据沉睡在数据库里了，大家千万不要小瞧，这些数据的价值远远大于阿里数据的价值。金融用规则创造了一个很好的商业形态，但是这种形态离市场和用户越来越远，几千万用户的数据对银行而言是陌生的图像。而互联网因为其直接是免费使用，所以必须非常准确地定位用户，而一个用户身后甚至有超过十万个标签，这些标签的维度非常稀疏。大家可能对精准推荐比较好奇，比如高跟鞋，分高跟、坡跟、豹纹、外高跟、内高跟等，这种精确的描述是对以前那种定向化的数据维度一个极大的突破。而这种突破，使得对于客户的理解和描述非常清晰。这个手段，就是我们说的大数据手段。综合来看，识别用户的行为和潜在需求，了解和感知市场，进而形成一个正反馈的干预市场的能力，这可以看做是金融企业的IQ。

如何拥抱大数据？

（一）大数据的能力

大数据帮助我们解决信息不对称，解决营销、定价、风险和欺诈问题。一年来我们做了一些案例，主要体现在三个方面：

第一是市场营销。体现在如何进行客户挽留、客户价值评估等。包括在交叉销售、二次销售方面，例如我们给保险公司做了全量的数据处理后，就可以实现很多财险和寿险的匹配。还包括客服投诉评估和产品投放评估等。例如，在决定投放什么样的产品时可以即时反馈。互联网最典型的，就是A/B Testing，正反馈的闭环机制，哪怕鼠标按了一个键，都有一个在线的测试。通过这种方式，某一个产品的上线和下线数据，不需要几个月以后从市场上获得，而是直接从线上的数据来获取。第二是信贷和风险，主要是信用分配、风险评估、实施授权、风险干预和欺诈识别等。第三是预测与估价，包括周期行为分析、量化分析、流失分析、催收分析等。

实现路径很关键的点，就是“去IOE”（替代IBM的小型机、Oracle数据库、EMC的存储）。完备数据本身是非常核心的，能处理一千倍以上数据规模，完全不可能靠原有的摩尔定律发展，肯定需要颠覆性的系统架构才能解决。现在的传统系统架构肯定不可能处理我们即将讨论到的那些模型，还是要依靠完备数据本身。我们为一家大的股份制银行做完备数据做了很长时间，这个过程很有意义。它可以帮助用户看到以前看不到的很多事实，过去需要通过业务规则、银行家的经验形成的业务判断，现在通过机器学习的方式，发现了很多新规则。比如异常交易、欺诈等，很多都是通过数据本身的特性发现的。

所以实现路径的第一步是完备数据，第二步是洞察、干预，最后是优化收益。

我们用稍微“IT”一点的方式解释一下大数据到底是什么。图1是加州大学伯克利分校做的一个模型，这个模型把大数据的范畴解释得比较清晰。其中第二部分是Machines，例如Hadoop、NoSQL，比较简单一点去理解就是信息技术。这些架构能让我们有更强的能量，实现“去IOE”。我们向银行推广了大量的分布式平台，主要就是Machines，也就是分布式的计算能力。简单理解，就是团结起来力量大，用一些X86 Server来替换掉以前的小型机架构。

图1 大数据的三个支撑能力

我之前服务于国外一家企业，其主要销售对象不是互联网公司，而是北美的大型投行，其实他们用这种分布式计算的方式主要在做定价和风险评估的模型。2007年，我们去香港汇丰，他们两万多个节点里只有六十多节点核心，大量体系建设是在风险和欺诈模型上进行投入。

（二）考虑使用大数据分布式计算作为基础设施

自2009年高调宣布去IOE战略以来，对为支付宝用户服务了5年的最后一台小型机的欢送，标志着阿里巴巴“去IOE运动”的又一阶段性成果。没有哪个架构的核心不可能操纵PB级别的数据，不可能有一个稀疏的数据表对用户数据进行全面记录。现在太多银行用僵化的表结构，用字段的方式去对客户、市场、业务规则做描述，而现在新的互联网的思路是用一张表就处理完成。我们给运营商只用一张单维的表，就能全部覆盖2.5亿用户。数据可以非常稀疏，但是省了很多数据处理逻辑的复杂操作。这些新的结构完全是依赖于云计算新的方式。

科技创新本身带来的革命就发生在今天。因为IT本身发生了一场颠覆，从小型机到今天，这场革命确实很深刻。另外，就是业务革新。银行属性从记帐式的卖方更多转向风险、欺诈、定价的买方属性，而这些特点很多都是非线性的，这些离散的特点需要大量的计算能力，一个业务驱动，另一个科技目标驱动，用新的基础设施部署成为一个必然。

（三）考虑数据的全量在线

大数据首先要数据全量在线。现在太多系统都是孤立的，银行的对公、对私，还有卡业务都是分开的，当把所有业务揉合在一起时，会发现很多客观规律。

舍恩伯格的《大数据时代》在国内非常畅销，他书中有一个核心的概念——全量。因为全量视角下看到的内容、方式完全不一样。有一个保险公司的案例，这家保险公司以前只能做抽样，对高端人群、对某一个险种人群的调查，通过在两千个维度里抽取一些维度，比如收入，进行建模，建模之后进行试用，再考察结论。现在有了大规模的计算能力，就不进行干预，完全让机器自己去找规律，让机器学习出在两千个维度里到底什么是建模的规则，这完全是黑箱建模的思路。黑箱建模让我们发现了很多以前我们不知道的内容和规律。比如，反洗钱是不是只有40多种在线规则？实现机器学习以后能发现1000多条在线规则。对于保险用户，我们也发现很多有意思的现象，在九千多万用户里有百分之零点几的用户的年收入4万多，但是买了7万多的保险产品。那么相应的销售人员是以怎样的保险理财理念去推销产品的？有怎样的经验？这是需要发掘的。

当然，为了面向用户，所有大数据的处理要做到容易解读。但客观讲，阿里从来不解读，而是细分到碎片化以后直接做匹配、工具操作，阿里没有任何一个人在你购物买了这个包以后给你推荐另外一个包。分析决策的过程全部是用1万2乘以1万6的一个基础矩阵做的，是一个端到端的匹配操作，当分析结果出来以后，就直接执行了。所以在这个过程中，全量数据可以帮助发现业务规则。

这其中就涉及到很多模型。以前可能只是在北美金融界进行一些深度学习，都是比较学术型的。现在大数据很跨界，在大数据的学术范畴里，不仅有IT的人、统计的人，还有物理学、经济学、金融的都在其中。学科交叉非常明显，它是一个基础的现代跨界科学。尤其是伯克利创建的模型里，就是以金融为主的。

在无假设条件下，通过机器学习能发现用户的一些特征。这些工具、方式、方法，帮助金融用户非常清楚地了解到以前未知的市场和未知的用户。就像互联网企业一样，通过这些了解，能够对这些用户进行有针对性的操作。

（四）考虑多样化数据

以上更多的是帮助我们获得大规模数据处理能力，相当于在打算盘的世界里发给了大家一堆计算器，它能处理以前处理不了的数据规模。现在大数据又扩展到另外一个范畴，就是在组织数据时，是不是所有的信息都能够非常清晰地用一张平面表结构、二维表的空间进行组织和计算呢？并非如此。自然语义的内容、视觉的内容、行为关系网络等复杂的关系，这些内容在以前的数据结构上很难处理，现在因为有了大规模的计算平台以后，大数据可以让系统用新的组织方式，比如矩阵、向量进行处理。比如关系网络，快递人员给许多收件人打电话，这些人是没有互相形成拓扑结构的。这个数据非常稀疏，但是有很大的社会属性和经济价值，它会通过评估关系的链条来描述出很多个体的社会属性，也就是个体的社会资本。现在供应链金融规模比较大，但是是靠线下、专业领域技巧去识别供应链。其实银行根据转帐记录建立一个大的社交网络就可以传播这些链条，就可以把一些细碎的、每个月定期存五千块钱的小型供应链通过计算模式挖掘出来。

以前我们了解一件事情，可能大多是非常准确、非常精确的，不允许有任何混杂性的的操作，要完全匹配。面对流感这样的突发性疫情，利用互联网信息可以快速确认疫情分布。传统做法是通过搜索引擎技术对相关关键词进行主题跟踪，得到疫情分布。大数据一个著名的故事，就是Google经常用twitter的数据做预测，也是最早利用大数据技术对美国流感分布情况进行预测，并取得成功。

它是怎么做的呢？就是描述一个主题。比如不久前我国爆发的H7N9禽流感，天云大数据公司采用语义空间主题投影方式，跟踪了数百个相互关联的信息点，建立语义网络，在二度以上传播空间深度挖掘，从而发现了更多不为认知的事实。其中用到了上千个变量，有H7N9、流感、豆粕、鸡、发热、口罩、医院等，每一个变量有权重，每一个变量有依赖关系，这些依赖关系和权重从数亿片的论坛、微博、专业资讯网站里抽取出来。建立模型以后，可以跟踪整个主题变化。图2显示了主题的波动。将主题热度与豆粕价格做比较，显示出明显的负相关性。对于期货公司而言，这些碎片化的公共的信息具有巨大经济价值。这些以前我们认为碎片化的东西、情绪化的东西，很难量化，现在可以被大数据的能力所量化了。

图2 期货预测

还有是沉睡在里面的大量文字性内容。比如银行信用卡记录，以前我们只能靠用户的消费水平去识别这个用户属于高端、中端还是低端。除了数字以外，是不是还有其他信息呢？比如消费记录，他是经常去沃尔玛还是其他超市购物，经常去夜店还是星巴克，怎么识别他是一个白领还是一个新新人类？这些通过分类能非常清晰地获取。也就是以前我们可以对数据进行操作，现在对文字也同样可以进行操作了。现在一些金融监管机构做抽取，其实就是彭博社用机器写新闻的方式。

怎样刻画人与人之间的关系？互联网买网页的关系，用Pagerank，Google做得非常好。社会资本来自运营商通话记录的评估，运营商可以通过电话的输入输出记录把一个人社会资本客观地做一个输出。人力资本来自招聘网站、社交网络。人力资本是人的另一个属性，可以通过他的简历，进行评估，把专业背景都可以做出来。金融资本来自网上交易、生活缴付、房屋车辆不动产。

（五）过载信息的价值提炼

怎么解决互联网上的过载问题？一位股票分析师每天要花四五个小时看大量信息，其过程可以让机器自动化实现，通过机器写出缩略的方式把过载的东西突出出来。这个还不够，关键是情绪，把大涨、猛增、下跌这些有极性的内容突出显示。极性在机器里理解，就是一个维度，一个值，这个值可以跟商品期货做一个相关性的匹配。

大数据的实践

（一）要精确还是要混杂？

比如一家保险公司，怎样评估它的产品？品牌是很模糊、很难量化的东西，我们用了十多亿条微博数据和论坛数据来画一条曲线，也就是在这个周期之内品牌的波动，就可以把品牌感知量化，把产品投放也量化。

（二）要群体，还是要个体？

我们如何来看大数据与传统数据的区别？银行做数据业务做了十多年，那么大数据和传统数据的仓库有哪些差异？实际就是群体和个体的差异。互联网数据完全瞄向个体，数据结构也是精准于个体，而传统的数据面向经营指标、面向群体。宏观意义上来看，假如小明去了一百次书店，以前要回答的问题是他第一百零一次买不买书，即业绩和经营指标的问题；而现在，互联网关心的是什么？最关心的是他第一百零一次买什么书，需要将什么样的内容推荐给他。这不是一个概率问题，而是一个模糊的程度问题。要量化这个程度，我们一定要基于个体，而不是基于群体的共性描述。传统定义上，更多关注的是一类人群，用同一类规则制订套餐给他们；而在互联网时代，要把每个人都精准刻画出来，进行精准匹配。有电商说他们要做到一百万用户要有一百万个商店，特别是在移动的小屏幕上，三次点击以后就会损失一个客户。所以差异化绝对不可能是对群体共性的描述，而完全是对个体差异的刻画。

（三）要决策，还是要工具？

大数据到底是面向决策还是面向工具？很多人认为大数据是决策性的，是让人获得更多洞察力的一个工具。实际上大数据更多的是一个自动化的匹配工具。

一个典型案例，我们为一家保险公司计算了九千万用户在每一个险种上的流失概率，之后他们要求我们汇总成一份报告，将流失百分比的数据向领导汇报。当结论上升到领导的时候，这个决策必须是宏观的，而且周期很长，几个月以后反馈回来可能就有偏差了。而大数据的动作是直接把东西下沉，九千万个用户的所有流失概率全部分给五万个保险代理人，每个人通过专门的程序就可以看到由他负责的客户到底在做什么样的动作，而这个行动是由基层直接完成的。所以是把这些权限和能力全部推到一线，而不是上升、汇总到总部做决策。所以大数据更多的是一个自动进行的过程，而不是分析决策的过程。

以上这些内容，是想通过思考和实践，帮助银行企业,具备将大数据落地的能力。