浅谈分布式存储协议:加速边缘计算技术演进
云计算自从2005年提出之后,产生了大量可伸缩的基础设施平台和基于中心化的云计算模型,高密度计算资源的集中和大规模的IDC部署俨然已成为各个国家信息产业的基础设施建设一部分,并且随着大数据,AI,5G,物联网等产业的蓬勃发展,云计算的产业规模还将日益扩大。但是随着各种各样的巨量数据不停的产生于互联网的各个位置,网络带宽受限,不稳定的处理延时,隐私保护等等问题的出现,使集中式的云计算模型在许多场景下迎来越来越多的挑战。而新的分布式存储协议又将给边缘计算技术带来怎样的发展呢?
边缘计算潮起
当今的物联网发展使几乎所有的电子设备都可以连接互联网,也对数据计算带来不同的处理要求。比如实时视频采集系统,要求在短时间内对视频内容进行分析处理和预警,如果所有数据传输回云中心,不仅会造成中心网络拥堵,带来海量数据的存储压力,更会造成不可预测的处理时延,影响用户体验。
同时视频内容的隐私性也无法保证,在许多国家造成合规风险。因此越来越多的行业应用将对数据和内容的处理从集中的云和数据中心转移到网络边缘,将传统的数据采集-云中心-数据消费的云计算范式转变为数据采集-边缘云中心-数据消费(云中心)这样的边缘计算范式,边缘计算为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务。
边缘计算的优势
——快速响应——
随着芯片性能的不断提升以及功耗的持续下降,使得从前需要大量运算的数据处理过程在终端即可快速完成,比如人脸识别,智能交通管理等领域。边缘侧产生特征数据,立刻通知业务中心或者边缘协作接口,同时可以利用位置信息对事件进行及时定位,大大提高了数据整合迁移的时间。同时降低了业务功耗,保护了源数据的隐私性,可谓是一举多得。
——网络带宽优化——
在未来的智慧城市中,无时无刻不在产生着大量的数据,而这些数据如果通通交由云来处理,在网络拓扑中将产生大量的拥塞堵点。如果这些数据能够在边缘侧进行处理,在数据源所在的局域网内进行处理,同时利用边缘计算的就近存储特点,可以最大化利用可用链路,提高数据上传下载的速率。
——数据安全和隐私保护——
在边缘侧对源数据进行处理,可以有效的分离特性向量,使回传数据与数据源脱敏,实现敏感隐私数据的可靠保护。数据存储在网络边缘侧,降低了集中存储数据的风险,降低了IDC的数据维护难度,如果结合分布式存储协议,在边缘侧分片冗余存储则可以有效的降低单点故障的概率,安全隔离用户数据。
边缘存储面临的问题
随着芯片技术的不断发展,各种大数据、AI算法的不断演进和5G的部署,边缘计算的计算和网络接入能力已经不断提高,但是存储的问题一直没做到很好的解决。边缘数据需要分流处理,这是不可避免的趋势。在IOT生成的海量数据中,有些数据是需要被实时计算,上传特征值,有些数据需要分时计算,分步计算,有些数据需要经常性被重新计算,分析,还有些数据需要长时间留存,甚至很少被使用。现有的物联网设备存储主要靠本地存储单元来保存数据,存在存储能力有限,扩展困难的问题。
为此又提出了不少企业级的存储方案,但这些方案也存在许多问题,比如各家标准不统一,基于不同的硬件方案有不同的接口方案,不同的服务商之间无法进行数据的链接和处理,使大量数据存在互相隔离的“容器”中,无法有效的在不同存储提供商之间扩容。并且同一个边缘中心内的数据没有隐私保护和足够的冗余备份,相当于在业务环境中架设了一个个私有“云盘”。最后,采购的多余存储服务无法实现价值,浪费资源。
分布式存储协议重构边缘存储
针对上面提出的问题,需要一个新的分布式存储协议来重构边缘存储方案,将不同存储业务的垂直扩展变成水平扩展,打破业务边界,使边缘存储成为一个独立的,对外提供统一服务的存储层。
1. 统一完整的面向服务的上层接口,隔离存储业务的复杂性
在分布式存储协议中,需要将存储服务的加入,退出,数据的确权,存储,分发,检索,支付等抽象为接口,成为标准协议,这些标准不基于特定的语言,算法和网络协议来组织业务,只要符合统一接口的实现,并且基于服务方共识的业务治理逻辑,不管治理模式是区块链,还是传统的中心化管理平台,只要符合协议标准,服务商都可以参与服务。
2.统一的点对点通信协议
在存储服务层,没有预设的拓扑结构,以端对端的服务为核心。在网络协议上层提供可组合的序列化/反序列化方法,加密算法,握手机制,数据摘要算法等,隔离网络层的复杂性,使运行不同语言编写的,不同操作系统的设备在网络层能够互相识别,完成数据交互服务。
3.基于数据内容确权的命名机制
命名机制对于边缘计算的数据寻址,确权和交换非常重要,但是在现有的边缘计算中还没有特别有效的处理方法。如今大量依托不同的通信技术,比如蓝牙,wifi,5G,NFC等的设备接入互联网,传统的以IP地址为核心的寻址方式已不能满足异构网络之间的数据交换,网络拓扑的动态变化,接入方式的不停切换,设备的移动性等,是当前传统的命名机制如DNS(域名解析服务)、URI(统一资源标志符)等不能很好解决的。
我们需要一种完整的解决方案,这个方案基于对数据内容的确权,一个设备对外的服务声明,不再是网络地址加设备名称的方式,而是基于数据的键值模式。我们使用数据生产者,时间,位置,数据属性,标识符,数据存取方法等数据描述符来表达网络中产生的数据,同时这个描述方式还是由数据生产者签名确认的。
4.可编程的权限控制
从数据的诞生开始,提供全周期的权限控制。用户可以控制数据是在边缘侧进行处理,还是以加密的形式在存储层持久化。对于不同的应用,设置可编程的权限控制信息,该信息应该做到整个网络的业务治理逻辑同步。基于上面的命名进制,对数据在网络中的交换做到可控可查。
微信扫描关注公众号,及时掌握新动向
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场
2.本文版权归属原作所有,仅代表作者本人观点,不代表比特范的观点或立场