电脑技术学习

寻找数据存储之根本

dn001

LAN-Free备份 由于数据通过LAN传播,当需要备份的数据量较大,备份时间窗口紧张时,网络容易发生堵塞。在SAN环境下,可采用存储网络的LAN-Free备份,需要备份的服务器通过SAN连接到磁带机上,在LAN-Free备份客户端软件的触发下,读取需要备份的数据,通过SAN备份到共享的磁带机。这种独立网络不仅可以使 LAN 流量得以转移,而且它的运转所需的 CPU 资源低于 LAN 方式,这是因为光纤通道连接不需要经过服务器的 TCP/IP 栈,而且某些层的错误检查可以由光纤通道内部的硬件完成。

SAN Server-Free备份 LAN Free备份对需要占用备份主机的CPU资源,如果备份过程能够在SAN内部完成,而大量数据流无需流过服务器,则可以极大降低备份操作对生产系统的影响。SAN Server-Free备份就是这样的技术。

备份的物理设备有磁盘和磁带两种。磁盘备份速度快,恢复速度也快,但是备份容量没有磁带大且单位价格高;而磁带备份容量大、单位容量便宜,但是备份和恢复的时间消耗较长,企业可以灵活根据自己的数据量和预算情况灵活选择备份设备。不过随着SATA磁盘的出现情况有所变化,SATA磁盘的单位价格已经大大降低,磁盘有取代磁带的趋势,厂家推出的产品有VTL(Virtual Tape Lib虚拟磁带库),设备备份和恢复速度很快,其价格又接近于传统的磁带库。

目前有些厂家推出了将磁盘和磁带结合的产品,利用高速磁盘作为缓冲器,先将备份数据写入磁盘,然后再写入磁带,这个就是D2D2T(DISK TO DISK TO TAPE)。

现代数据存储系统已经发展成为一套复杂的、集成程度很高的专用系统,然而随着这样存储系统的发展,复杂的系统结构带来了很多诸如管理复杂、价格昂贵、各存储厂家不好整合的种种问题。目前存储系统厂商也看到了存储系统存在的这些问题,并着手去解决这些问题。我们下面就一一的介绍存储系统的这些主要新趋势。

1。 数据存储的结构化趋势(虚拟化存储、异构、Infiniband)

数据存储的结构随着存储系统的发展越来越复杂,现代的数据存储系统包含了、存储管理设备、存储设备等多种设备,然而由于没有类似网络的标准分层,各家厂商产品以及解决方案之间的兼容的情况不是很好。例如当一家企业购买了某种磁盘阵列产品之后,随着企业的发展需要更加完备的存储方案,然后该企业IT经理却沮丧的发现,新购买的NAS存储或SAN存储很难和原来的磁盘阵列整合在一起,企业不得不放弃以前的磁盘阵列产品,造成IT投资的浪费。

实际上数据存储的结构化也顺带解决了存储设备的异构问题,由于存储设备的不断发展。各种存储方案、存储产品、存储、存储接口的互操作性是个难题,有时候甚至是一个“不可能的任务。存储系统如果能够提出一个类似网络分层的统一标准,这些问题将将得到解决。

现在厂商已经推出了一些部分解决问题的方案和概念,比如虚拟化存储和Infiniband.前者能够解决存储设备的异构问题,使得用户不必关心底层各种各样的存储设备,只需要虚拟化存储系统在后台解决系统的异构问题;Infiniband用来解决SAN的某些问题,是一种I/O总线技术。它将存储系统划分为Infiniband交换机、计算节点、I/O节点、存储节点,结构化的存储分层思想十分明显。不过由于只是在SAN之内解决问题,对存储系统的结构化没什么帮助。

2。 虚拟化存储

由于目前存储系统已经日益的复杂和庞大,管理的难度已经大大增加。为了简化存储设备的安装和配置,有效的利用不同厂家、不同型号的存储设备形成一个统一的存储设备,则必须采用虚拟化存储技术。

虚拟存储是介于物理存储设备和用户之间的一个中间层,它屏蔽了具体物理存储设备的物理特性,呈现给用户的是逻辑设备。它所带来的最大好处是提供了一种简单有效的管理手段:在已经建立好的存储池上,用户可以方便地划分虚拟存储空间,当需要增加新的物理存储设备时,用户无需停止服务来对整个存储系统进行重新配置,只需要对存储系统进行简单的配置更改,就可以使新的存储设备加入到存储系统中。

虚拟化存储技术其实在很多厂家的产品中已经得到应用。比如NAS产品将磁盘阵列的细节隐蔽起来而只向客户端提供一个网络硬盘设备就是一种虚拟存储的应用,只不过我们这里所说的虚拟存储的概念对于后端传输网络、物理存储设备的异构特点包容更好。

在典型的网络存储设备的结构中,包含了前端主机、后端存储设备以及连接前后端的网络。在这样的结构中我们可以在任意一层中实现虚拟存储,因此虚拟存储包括如下三种:基于服务器的虚拟存储、基于存储设备的虚拟存储以及基于网络的虚拟存储。

基于服务器的虚拟存储虚拟化层以软件模块的形式嵌入到应用服务器的操作系统中。基于服务器的虚拟存储有以下特点:

首先基于服务器的虚拟存储的应用环境主要针对是服务器数量较少且以服务器为中心的环境。

其次是基于服务器的虚拟存储由于虚拟软件运行在服务器上,其虚拟软件必然占用服务器的CPU、内存等资源来实现各种功能,给服务器带来额外开销。由于和服务器操作系统紧密相关,在存储系统的异构上面不可能做的很好。

再次就是由于不需要额外再添加任何硬件,也不影响现有的存储系统的架构,因此基于服务器的虚拟存储是最容易实现而且成本最低的。

基于存储设备的虚拟化是将虚拟化层放在存储设备的适配器或控制器上。基于存储设备的虚拟存储有如下特点:

首先基于存储设备的虚拟存储的应用环境主要针对异构存储设备,适用于以存储设备为中心的环境。

其次由于国际上没有统一标准,各家厂家对于存储设备的虚拟化基本上处于各自都有自己一套方法的状态,因此各厂家的产品很难在同一环境下整合,削弱了系统的灵活性。

再次由于在存储设备上实现的虚拟化,对用户和管理人员是透明的,使用管理起来比较方便。

3。 存储设备的进步——串行一统天下

随着磁盘和磁带技术的进步,基本存储设备也在发生巨大变化。随着服务器被要求满足不断提高的系统和应用需求,并行技术无法回避的各种问题,如信号终止限制,电缆和连接器的反射,信号扭曲和串音,以及设备寻址能力等问题都成为提高数据传输性能的障碍。串行协议能够解决生产厂家、集成厂商、用户的不少问题,因此就磁盘来说,串行接口将一统天下。

在普通ATA硬盘使用SATA串行接口技术之后,SCSI这个专用服务器硬盘接口协议也开始使用串行技术。串行SCSI的标准称为SAS(Serial Attached SCSI),SAS接口具有多种优势。最明显的优势是它在吞吐量方面比并行SCSI有了显著的改进(大致是后者的4倍)。SAS还使更多的硬盘可以连接在SCSI总线上:并行SCSI可在15个地址上连接设备,但是即使假设每个地址上连接多个逻辑设备(LUN),并行SCSI也不可能达到SAS提供的连接能力—通过扩展器可提供多达128个地址。另外SAS还可以在同一接口中兼容SATA和SCSI硬盘。目前业界普遍看好结合了SAS和SATA硬盘的系统,认为这是对目前FC硬盘的最大威胁,因为在大多数应用中SAS接口的系统就能够满足绝大部分的要求。

磁带是最老的存储设备,原来的备份领域完全是磁带的天下。但是随着各种磁盘存储系统的发展其市场份额却在缓慢减少。对于备份系统来说,磁带备份容量是无限的,而新型磁带的持续传输速率也是比磁盘高的,随着美国对于归档的法律要求,人们发现磁带在归档中是最适合的产品。磁带格式为LTO(Linear Tape-Open,线性磁带开放),其第四代产品Ultrium的容量达到800GB,传输速度能够达到80~160MB/s.

4。 ILM(信息生命周期管理)

信息生命周期管理,顾名思义就是对信息的产生、使用到消亡这样一个完整的生命过程进行有效管理。在早期的存储管理系统中,所有的数据都被存储在企业的主存储器上,然而要存储的数据越来越多,不可能将所有的数据都存储在主存储器上;另外由于主存储器的价格越来越昂贵,比如SAN中的FC硬盘就相当昂贵,不可能将一些并不经常访问的数据也放在主存储器上。有的数据需要保留相当长时间,因此对存储介质的稳定性要求较高;有的数据需要经常访问,因此数据访问速度要快;而有的数据可能只是一些临时数据,因此需要系统能在它失去功效的时候自动将其删除。于是存储方面的技术专家开始从各种角度探讨什么样的数据采用怎样的存储设备最为合适,而要评估那些看上去毫无意义的数据的类型,则需要关注这些数据是如何产生的、它们在何时被何人调用、被调用的频繁程度如何、数据在何时不再有价值而需要彻底删除,从而最终实现数据类型的分析,赋予数据重要、不重要或经常访问、不经常访问等属性,全面地为所存数据制订完善的存储策略,并通过工具自动执行这些存储策略。

5。 存储网络的提速

数据存储现在的趋势是网络存储,数据之间的传输通道不再仅仅通过I/O接口,而还要通过交换网络,因此提高网络的传输速度就成为了提升数据存储速度的途径之一。

而在FC网络这边,目前主流的应用标准为2Gbps,而就在最近很多厂商推出新的4Gbps的产品,据厂家介绍对SAN的网络的提速也是比较明显。不过升级到4Gbps要升级相关设备。

本文只是大概介绍了存储系统的概念和一些最主要的发展,其实存储系统在很多方面都发生着变化,比如大规模非活动磁盘阵列、CAS、CDP等,在本文中不可能一一论述,这些新技术新概念推动着数据存储向着存储容量更大、存储速度更快、更容易使用的方向发展。

名词解释

在线存储

在线存储又称工作级的存储,存储设备和所存储的数据时刻保持“在线状态,是可随意读取的,可满足计算平台对数据访问的速度要求。如我们PC机中常用的磁盘基本上都是采用这种存储形式的。一般在线存储设备为磁盘和磁盘阵列等磁盘设备,价格相对昂贵,但性能最好。

离线存储

离线存储主要是用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子卷到头,再进行定位。当需要对已写入的数据进行修改时,所有的数据都需要全部进行改写。因此,离线海量存储的访问是慢速度、低效率的。

近线存储

所谓近线存储,就是指将那些并不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。对这些的设备要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但由于不常用的数据要占总数据量的大多数,这也就意味着近线存储设备首先要保证的是容量。