分布式存储
distributed storage
定义:将数据按照一定的分布算法分散存储在多台独立的存储节点上,实现多节点并行访问的存储技术。
学科:计算机科学技术_计算机体系结构_存储系统
相关名词:存储介质、大规模并行计算机、服务器
图片来源:视觉中国
【延伸阅读】
分布式存储最早是由谷歌提出的概念,其目的是通过廉价的服务器为大规模、高并发场景下的网页访问场景提供服务。它通过分布式软件将物理资源组织起来,构成具备高性能的逻辑存储池,在保证可靠性的同时提供多种存储服务。
一般而言,分布式存储是将数据分散存储在多台独立的物理设备上(通常是通用X86服务器),采用可扩展的系统结构,利用多台物理服务器分担存储负荷,利用位置服务器定位存储信息。这种架构不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
分布式存储扩展能力强,容量随节点数线性上涨,可达到EB(百亿亿字节,艾字节)级别,但网络时延会成为分布式存储对外提供服务时的瓶颈。
历经几十年的发展,分布式存储的发展经历了以下四个阶段:
第一个阶段是1980年代的网络文件系统,该系统通过少量服务器(通用X86服务器)实现网络环境下的简单文件共享(文件共享是指主动地在网络上共享自己的计算机文件)。
第二个阶段是1990年代的共享SAN文件存储,该类型存储已经能够外接SAN设备实现更大的文件系统。SAN存储全称为存储区域网络,是一种连接外接存储设备和服务器的存储架构。
第三个阶段是2000年代的Share-Nothing存储,这种存储开始利用通用服务器构建起高扩展的存储系统。Share-Nothing存储架构的优点是每台服务器都可以对外提供服务,扩展性比之前的架构更好。
第四个阶段是2010年代逐渐产生的企业级的云存储,这类存储开始具备丰富的企业特性,存储性能、效率和数据保护能力有了进一步的增强,开始广泛应用在各行各业中。
下一个十年,分布式存储的技术创新将集中在AI(人工智能技术)、介质和架构三个主要的方向。
首先是AI,AI技术的发展会使得存储更加智能,使得分布式存储自动化运维的能力逐步增强。
其次是存储介质,QLC(四层存储单元)、TLC(三层存储单元)、NVME over Fabric(使用Fabric网络来承载NVMe协议) 等存储介质和传输协议的发展使得分布式存储具备更优的价格和更低的时延。
最后,为了适应新兴的技术和存储介质,适配海量多样的数据带来的性能和成本挑战,分布式存储在架构上也会出现相应的创新。
分布式存储主要的应用场景一般为气象气候预测、地质勘探、航空航天、工程计算、材料工程等领域。
责任编辑:张鹏辉