区块链赋能下的数据治理新思路
大数据时代,数据源源不断产生并且汇集,数据已经成为企业间竞争的关键和影响国家竞争力的重要因素,大规模数据汇聚导致数据垄断困境的出现,进一步,使数据被不合理的分配与享用,然而,大规模数据收集也带来严峻的隐私泄露、数据滥用和数据决策不可信等问题,对传统的数据治理提出了新的挑战,数据隐私如何保护、数据交易和共享中如何可信传输、数据所有权与使用权如何厘清、数据价值如何合理定价等问题如何解决,并使数据得到正确和规范的使用是决定大数据继续发挥价值的关键,也是目前数据治理亟待解决的问题。
数据治理发展概述
数据作为一种新型生产要素,并成为可以变现交易的资产,但又不同于传统的财务资产,因为数据的可拷贝、可重用以及数据的搜集、存储、使用都有其特殊性,数据还涉及到个人隐私、运行的安全。数据治理简单来讲是通过对数据的梳理整合,利用数据驱动业务,实现企业增值,其本质是通过具体的机制对数据可用性、完整性和安全性的整体管理,使数据价值实现最大化。数据作为资产,通过服务产生价值,在数据产生价值的过程中,实现对其的评价、指导、控制,也是做好数据治理必不可少的环节。如下图1所示。
图1 数据治理关键环节
目前,数据治理的关键内容和挑战主要聚焦在以下3个方面:
提高决策数据质量。大数据价值实现需要多源数据的融合,然而大数据来源广泛且生命周期内涉及多方参与主体,数据是否真实产生、数据被篡改和多源数据的标准和类型不一致等问题都会影响决策数据质量,进而影响数据使用者的数据决策结果。所以,数据治理需要支持大数据在其全生命周期内的溯源。
评估与监管个人隐私数据的使用。大数据应用的流通特征使数据生产者对数据获取和共享缺乏知情权和控制权。作为数据生产者,用户不知道哪些数据被收集、被谁收集、收集之后流向哪里和作何使用。同时,数据的收集汇聚导致数据垄断现象出现。数据垄断可能会形成数据孤岛阻碍市场竞争、面临数据滥用和带来严重的个人隐私泄露风险等问题,但数据监管者却无法对数据应用进行评估和监管;所以,数据治理需要对个人隐私数据使用进行评估与监管。
促进数据共享。数据共享可以促进大数据价值实现和缓解数据垄断,但同时也需要解决隐私保护等问题。一方面,数据共享双方之间发生数据共享流通时,考虑到隐私问题,需要以有效的方式保护数据生产者的数据安全。另一方面,限于法律和实际应用中的一些因素,需要在不直接传输原始数据情况下,依据多方数据持有者的数据实现分布式数据集统计分析和分布式机器学习。由于多方参与者之间不存在完全的信任度,此时应该能够实现保护数据使用者对其共享过程进行验证的需求。所以,数据治理需要在权衡数据生产者和数据使用者等参与主体利益的前提下促进数据共享。
数据治理是一个过程,是逐步实现数据价值的过程,是一种持续性服务。数据的价值,也只有在数据治理得到良好改善的时候才会发挥其价值,评估数据资产的运营和应用能力,支持数据价值转化实现,指导数据价值体系治理方案的实施,满足数据资产的运营和应用要求,监督数据价值实现绩效的符合性,并持续改进和优化。以地理位置数据为例,通过数据采集形成数据沉淀,这时候的数据质量要做到一致统一,然后经过分析处理的地理数据才能成为数据资产,这时候数据资产要进行确权存证才能保障其资产权利,然后把数据资产在进行分析提取,成为测绘分析的服务,这时候服务就可以构建信任模式共享给其他参与方,服务在经过价值提取成为具体的地图业务,这时候流动的数据价值就要考虑如何做好价值的监管。如下图2所示。
图2 数据价值评估模型
区块链赋能下的数据治理
——支持审计的数据存储和处理——
数据决策渗透在人们生产与生活的方方面面,由于涉及多方利益相关者,数据在存储、处理和共享流通等过程中存在数据被篡改、数据伪造,以及不同来源数据的类型和标准规则差异等问题,这些问题都会影响决策数据质量。所以,数据使用者需要对决策数据进行审计。区块链作为去中心化的分布式网络系统,可以实现支持审计的数据存储和处理,数据通过全网共识快速广播至各个利益主体,也能够保证数据共享流通的真实性和及时性。
针对不同来源数据的类型和标准规则不一致等问题,可以基于区块链的智能合约制定统一的数据类型和标准规则,根据智能合约上的代码逻辑自动执行验证,将数据存储和同步到区块链网络中各个节点。由于智能合约的执行过程公开透明,使其执行过程和执行结果是可审计的,同时也能提高多源数据共享效率且避免单点失败。
——非对称加密技术与哈希算法保障数据安全——
数据的私密性与数据的完整性是数据安全的重要内容。传统的加密、差分等隐私保护技术虽然对数据隐私具有一定的保护作用,但是目前还不足以应对大规模数据收集带来的隐私泄露风险。区块链运用非对称加密技术、零知识证明算法、哈希算法等技术可以实现数据安全和隐私保护,也可以为评估监管数据和解决数据垄断问题提供技术支持。其中,非对称加密算法能验证数据来源,保护数据安全;哈希算法等匿名算法能保护数据隐私,防止泄露。由于时间戳记录读取数据的时间,当任何一方发现不合理时,可以随时随地通过区块数据和时间戳来追溯历史数据。此外,区块链的数据存储在分布式的链式结构中,确保数据的多重备份,提高数据库的容错性和安全性。这些技术和特性加大了试图篡改、删除数据或者恶意攻击数据库等行为的难度,从而保证区块链数据的真实性、完整性、隐私性和安全性。
——支持验证的分布式数据统计分析和机器学习——
在医学研究、公共安全和商业合作等一些应用领域,需要在大规模分布式数据集上执行统计分析和机器学习任务,但考虑法律法规等因素的限制,需要在不泄露隐私数据前提下进行分布式数据统计分析和机器学习。基于区块链实现可验证的分布式数据集统计分析中,通常参与方包括数据提供者、多个计算节点、多个验证节点和数据查询者。其中,数据提供者提供加密数据,多个计算节点执行密文计算,由区块链组成多个验证节点并对计算节点的计算结果进行验证。除此之外,分布式数据集统计分析需要考虑数据机密性、数据提供者和数据之间不可连接性、查询结果机密性和计算结果的鲁棒性等安全和隐私问题。
基于区块链实现可验证的和公平的分布式机器学习,数据提供者将本地机器学习参数上传和存储至区块链,由区块链执行交叉验证,将分布式机器学习过程的关键环节记录在区块链上。同时,还可以结合零知识证明和密码学承诺对恶意的参与方进行经济惩罚,通过经济激励促进公平。除此以外,分布式机器学习需要考虑数据提供者本地参数的安全性,因为本地参数也可能会泄露数据或者机器学习模型。为此通常采用差分隐私、秘密共享和同态加密等技术对其进行保护。
——实现数据资产确权和定价、可交易——
针对数据交易面临的数据归属、交易安全、二次售卖等问题,区块链技术能够进行有效数据资产确权,记录交易数据,共同验证交易,实现数据资产的可信交易,通过智能合约可以实现复杂数据定价模型,实现按调用次数或者授权期限计费,支持数据有价使用,同时也可以对数据共享范围进行有效约定,避免数据获取后滥用、盗用及挪作它用,智能合约也可以实现高效、安全的多方利益分配机制,保障数据交易双方的利益及信任度。
挑战与问题
区块链为数据治理提供了新的发展思路,但数据治理具体实现过程中也将面临诸多挑战,同时对区块链自身技术有了更高的要求。此外,基于区块链实现数据治理也会导致企业的管控机制和业务流程发生变化,这将对企业管理提出新挑战。目前,区块链助力数据治理实现过程面临的挑战与问题主要包括以下3个方面:
数据治理实现过程中面临的挑战。一方面,虽然将数据共享流通信息记录在区块链可以实现溯源问责,但是在大规模数据收集和数据共享流通错综复杂背景下,如何实现跨平台和跨领域的溯源问责是具有挑战性的问题。同时,溯源问责也可能会带来隐私泄露问题,所以溯源问责过程的隐私保护也至关重要。另一方面,虽然将数据存入区块链,可以一定程度上防止数据篡改和保证数据可以进行追踪溯源,但是保证数据存入区块链之前的真实性和可靠性仍存在挑战。
对区块链自身技术提出了新的挑战。目前虽然区块链自身的存储需求限制、隐私与安全、可扩展性和互操作性等方面都还存在一定限制,还要很好的和其它技术进行结合才能更好满足数据治理的需求。为此应该考虑设计轻量级的、高可扩展的、互联通性较强的适用于数据治理需求的区块链。同时,伴随着各类区块链系统的出现,区块链数据治理系统评价标准与评估规范也成为急需解决的问题。
对企业数据管理提出的挑战。区块链的“去中心化”特性可能会使数据安全和保密的责任置于多方,难以很好的鉴定和厘清责任,会对企业的数据管理等方面带来新的挑战。此外,基于区块链实现数据治理并据此对数据执行相应的监管措施需要一个过程,而且随着区块链技术的快速发展,也会对传统的监管制度和法律法规政策提出新的要求。
x
数据治理已经成为国家数字经济社会发展的重要因素。随着各个领域数据的不断开放共享,数据治理对数据共享、数据监管和隐私保护等方面都提出了更高的要求。这些问题通过与区块链相结合可以提升数据治理的效率和透明度及可审计性,将会有利于构建一个全新的数据信息时代。与此同时也会带来诸多新的挑战,需要社会各界共同的努力去实现数据治理的新篇章。
微信扫描关注公众号,及时掌握新动向
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场