李其柄:区块链数智协作平台助力北外滩建设
Ownership团队凭借自主研发的一站式区块链数智协作平台摘得2020万向区块链黑客马拉松大赛桂冠。10月26日下午,北外滩金融科技(区块链)产业发展研讨会暨北外滩国际区块链创新生态港揭牌仪式上,虹口区金融工作局李骥局长和虹口区科学技术委员会副主任刘长林为该团队颁奖。
虹口区领导为2020万向区块链黑客马拉松一等奖团队颁奖
该团队研发的区块链数智平台构建了一套应用层中间件,便于快速部署基于5G、物联网技术形成的开放数据,并提供数据服务,为多方提供友好易用的数据协作软件。10月27日,团队代表李其柄在第六届区块链全球峰会上对项目进行了详细介绍。
Ownership团队代表李其柄在第六届区块链全球峰会上演讲
以下为演讲全文:
能够获得2020年万向区块链黑客马拉松大赛一等奖,我们感到非常高兴。我们Ownership团队是由来自清华大学和浙江大学的几位同学组建而成的。针对此次大赛的主命题“区块链技术在北外滩创新生态港建设中的应用”,我们设计了一个基于区块链的一站式数智协作平台。
数据是新基建的核心要素,将数据融合共享,应用到北外滩实际建设中可以产生非常多创新应用。比如,在供应链金融中,将物流数据和银行数据共享,可以实现更精准的风控。当前,许多企业面临线上线下获客难的问题,解决这一难题的关键在于如何掌握更多用户数据,对目标客户进行更精准的广告投放和运营,这就需要实现跨机构数据共享,把混乱的数据统一在一个平台上。
然而,监管机构十分重视企业对用户数据的保护,所以企业通常不会共享自己拥有的用户数据资产,这使得部分产业链断裂。目前市面上有很多企业正在尝试用区块链和隐私计算技术来解决这个问题。我们这次设计的这个基于区块链的数智协作平台主要是在做数据市场和数据联合运营工具,其底层是基于PlatON的Rosetta框架和可以快速部署数据市场的Ocean公链协议。
这是我们目前实现的前端,中间部分展示了一个统一的数据市场平台,企业可以将私域数据源发布到平台里,左右两部分是数据建模控制台,科学家和业务人员可以选择数据和算力进行协同分析。
这是产品后端的主要工作流,它展示了资产元数据如何上链,以及安全多方计算引擎如何做出任务响应。
为了完整运行demo,我们首先要部署一个任务市场合约,把数据/算力的元数据注册到链上,并运行MPC守护进程,随后在数据市场页面就可以查看相关记录。科学家在选择数据和算力后,例如添加了两个银行的用户行为相关数据后,可以进入控制台,通过新建任务和代码编辑器来建立联合风控模型。训练的过程也可以进行实时可视化,两方的数据始终是在银行本地的。
这是我们的数据协作技术架构。底层可以基于各种各样的区块链网络和存储协议,上层是数据应用。中间层解决资产元数据上链和多方安全计算等问题,也是我们在这次黑客松中的主要工作。主要的技术创新有共享特征学习和可组合数据通证两点:
(1)共享特征学习
针对目前隐私AI框架训练速度慢的问题,我们团队从AI角度思考了如何改善这个问题。了解AI朋友应该知道神经网络有很多层,但通常只有第一层跟数据输入是相关的,如果我们可以在第一层直接保护数据源,后续就可以用常规的AI框架进行数据训练。简单来说,企业只需要秘密共享数据的特征,而不需要共享原始数据,就可以基于安全多方计算节点进行数据聚合。
(2)可组合数据通证
它可以实现分布式计算的的全流程可信追踪。除了确保原始数据不出私域外,还需要保证所有远程操作的日志都是不可篡改的。比如,在两家企业共享数据,不仅需要两家企业都有数据共享的意愿,还需要他们将共享用户数据的目的、用途、操作等过程都记录下来,以便监管机构检查。另外,现在很多人在讨论数据市场,那该如何构建数据市场呢?如果我们不知道每个企业、每个用户的数据资产是如何被使用的,又如何给它定价呢?同时,在GDPR法规下,用户也有权知道自己的数据是如何被使用的。
考虑到数据、算力和算法都是资产,但只有当它们跟实际业务相关,并得到使用之后才有价值,所以我们设计了链上的任务市场。一个实际问题通常是由右边这个图的形式构成的,特别是安全多方计算和联邦学习。一个联邦学习算法可以应用在很多数据源上,一个企业的数据源可能有很多用户数据,在这种情况下如何实现全流程追溯?
简单地说,上层资产如果要使用下层资产则需要提前获取链上授权,但这也不能实现数据使用的全流程追踪。比如,上层某家企业掌握了用户数据,但用户是不清楚这家企业是如何将他们的数据代理给另一家企业的,这个时候就需要在链上设置一个终止状态。当算法资产被添加到任务市场作为终止状态后,用户才可以看到确实有人要使用自己的数据,并且已为该算法进行了担保。
我们来看一看中间的数据结构,包括链上的可组合数据通证(CDT)和对应的链下文档对象(DDO),它描述了资产的元信息。算法文档里还包含了对所有资源的操作存证,即分布式计算的工作流。以两家银行联合建模为例,由第三方金融科技公司提供联合算法,算法文档里就会包括这两家银行的数据资产和算力资产的CDT标识符,以及对这些资产的代码操作。假如,两个数据源都在银行的私域数据库里(网络安全等级高),首先就要用秘密共享操作把数据取出来,放到联邦域计算力环境(网络安全等级稍低), 再在秘密共享的碎片上进行联合AI建模。
最后稍作总结,我们在这次黑客马拉松大赛中开发了一个开放数据市场和一站式数据协作平台,让业务人员能够更简单轻松地应用数据资产。我们也将在今后的工作中不断改进和完善这个项目。
Scan QR code with WeChat