探索中国CIO人才现状 | 第四季调研报告
分级存储与管理及数据自动迁移存储技术
2014-02-13  作者:互联网 

  事实上,数据也是具有生命周期的,不同时期有其存在的不同意义。数据刚生成时,访问频率最高,数据的价值也最高;随着时间的推移,访问频率降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量。如果全部用高性能存储设备来存储所有数据,费用非常高,管理也复杂,也没有必要。


  一般对企业来说,数据从产生到存储、利用、归档,最后超过存储期限被删除,数据被读取的频率逐渐下降,数据存储的位置也应该随之变化,以提高存储设备的使用率,降低存储成本。因此有必要进行分级存储,企业在存储其关键业务数据时,采用昂贵的存储设备、存储技术和存储方式。


  存储设备包括高性能的磁盘或磁盘阵列,存储技术如RAID磁盘、复制、定时拷贝、多级备份等。当数据已经不再为企业带来效益时,将这类数据迁移到较便宜的存储介质上;最后,当数据过时或一段时期不再访问时,应考虑将其删除或者迁移,如果是法律要求或政府规定要保留多年的数据,应将其迁移到近线磁盘或者离线磁带上进行归档,既安全又节省费用。


  同时,信息量的急剧增长,也使存储管理复杂性增加,数据的分级存储也是简化存储管理的需要。通过设定优化的数据迁移规则,能使重要数据和常用数据在最短的时间内访问到,使极少使用的数据备份在廉价的海量存储器中供以后使用。


  概念


  分级存储是根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,通过分级存储管理实现数据客体在存储设备之间的自动迁移。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的性价比。这样,一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。


  在分级数据存储结构中,存储设备一般有磁带库、磁盘或磁盘阵列等,而磁盘又可以根据其性能分为FC磁盘、SCSI磁盘、SATA磁盘等多种,而闪存存储介质(非易失随机访问存储器)(NVRAM)也因为较高的性能可以作为分级数据存储结构中较高的一级。一般,磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息,而磁带库等成本较低的存储资源用来存放访问频率较低的信息。


  信息生命周期管理(InformationLifecycleManagement,ILM)是StorageTek公司针对不断变化的存储环境推出的先进存储管理理念,ILM试图实现根据数据在整个生命周期过程中不断变化的数据访问需求而进行数据的动态分布。分级存储和ILM在存储体系结构上基本相同,目标也都是使不同级别的数据在给定时间和不同级别的存储资源能够更好的匹配。二者本质差别是数据分级的标准不同:前者标准为数据近期被访问的概率;后者标准为数据近期对企业的价值。


  存储方式


  传统的数据存储一般分为在线(On-line)存储和离线(Off-line)存储两级存储方式。


  而在分级存储系统中,一般分为在线(On-line)存储、近线(Near-line)存储和离线(Off-line)存储三级存储方式。


  在线存储是指将数据存放在高速的磁盘系统(如闪存存储介质、FC磁盘或SCSI磁盘阵列)等存储设备上,适合存储那些需要经常和快速访问的程序和文件,其存取速度快,性能好,存储价格相对昂贵。在线存储是工作级的存储,其最大特征是存储设备和所存储的数据时刻保持“在线”状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。


  近线存储是指将数据存放在低速的磁盘系统上,一般是一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备。近线存储外延相对比较广泛,主要定位于客户在线存储和离线存储之间的应用。就是指将那些并不是经常用到(例如一些长期保存的不常用的文件归档),或者说访问量并不大的数据存放在性能较低的存储设备上。但对这些设备的要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但又要求相对较好的访问性能。同时多数情况下由于不常用的数据要占总数据量的较大比重,这也就要求近线存储设备在需要容量上相对较大。近线存储设备主要有SATA磁盘阵列、DVD-RAM光盘塔和光盘库等设备。


  离线存储则指将数据备份到磁带或磁带库上。大多数情况下主要用于对在线存储或近线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级存储。离线存储通常采用磁带作为存储介质,其访问速度低,但价格低廉的海量存储。


  分级存储设备是根据具体应用可以变化的,这种存储级别的划分是相对的,可以分为多种级别。如可以采取FC磁盘-SCSI磁盘-SATA磁盘这种三级存储结构,也可以采取SSD盘-FC磁盘-SCSI磁盘-SATA磁盘-磁带这种五级存储结构,具体采用哪些存储级别需要根据具体应用而定。


  管理的关键技术


  分级存储管理(HierarchicalStorageManagement,HSM)起源于1978年,首先使用于大型机系统。存储实现分级以后,在线存储、近线存储和离线存储存放的数据价值不同,在同一级别存储内部(比如在线存储和离线存储),存放的数据也应该不同,实现每一级别内的“分级存储”。如何将各个级别存储中数据统一管理起来便成了最为关键的问题。


  分级存储管理是将离线存储、近线存储和在线存储融为一体的技术。在分级存储系统中涉及许多技术,如数据增量扫描技术、基于多指标的数据分级策略、在线迁移中的一致性保证技术、数据自动迁移存储技术、存储虚拟化技术、分级存储管理技术等等。这里主要就几个关键技术进行讨论。


  增量扫描技术


  在一个文件数为10亿级的大规模文件系统中,选择分级存储管理操作的候选对象可能是非常耗费资源的,一般须扫描整个文件系统的名字空间。而每秒大约能扫描5000个文件,扫描10亿个文件大约需要27小时。现有的分级存储管理工具一种是集成到文件系统之中,一种是存在于文件系统之外。无论是哪一种,能够获得文件访问情况并利用这一特性,大幅度减少文件扫描规模,减少维护文件访问信息的开销是非常重要的。


  如于一个20万个文件的文件系统,每天只有不到1%的文件被访问。随着文件系统规模增加,访问百分比期内所有被访问文件的访问统计(包括访问次数和文件大小)、总访问热度等信息,通过增量扫描技术,元数据服务器不必扫描整个文件系统,而通过定期获取近期访问过的文件信息,这样就可大大减少维护文件访问信息的开销。


  基于多指标的数据分级策略


  分级存储采用的存储方式与选择的存储设备的依据是数据的重要性、访问频次等多个指标。多指标的数据信息分级策略,是指根据基于数据的生命周期、上次访问时间、大小、数据信息的关联性等多个参数对数据的价值进行分级;如果数据一创建就能预测其访问特性进而给出相应级别,将能够减少不必要的迁移颠簸。因为数据分级变化意味着数据要在不同级别的存储设备间迁移,以保证合适的数据在合适的时间存放在合适的存储级别上。


  在实际应用中,如能充分挖掘数据的静态特征和访问的动态特征为基础的分级将能获得更好的效果。如以文件分级为例,第一,文件系统的静态特征,如大小文件的分布;第二,文件系统的宏观访问规律,如大小文件的访问次数分布;第三,文件个体的访问模式,如是否具有访问局部性;第四,文件之间的访问关联特征,如同一作业中的一个文件被访问,另一个文件何时被访问。根据这些文件特征和存储设备的分级情况,确定文件分级标准及文件分级变化的触发条件,从而可以在合适的时间把合适的文件存放在合适的存储级别上。


  在线迁移中的一致性保证技术


  在分级存储系统中,不可避免地要在不同存储设备上进行数据迁移,数据迁移可分为升级迁移和降级迁移。升级迁移是指数据由慢速存储设备和低一级存储设备往快速存储设备或高一级的存储设备迁移,降级迁移正好相反。但由于迁移目的不同,这两种迁移有不同的特征。对于降级迁移来说,很可能在迁移的过程中并不会有I/O请求发生;但对于升级迁移来说,迁移几乎是发生在I/O最密集的时候,如何保证在迁移过程中,尽可能减小迁移进程对前台I/O的影响,这是分级存储系统需要解决的问题之一。


  目前可以采用读写锁来保证数据一致性,以数据块为调度粒度来减小对前台I/O性能的影响。迁移进程为当前数据块申请读写锁,以保证迁移进程与写操作进程之间的数据一致性。


  数据自动迁移存储技术


  分级存储中数据需要在线迁移,这就需要考虑数据移动对前台I/O负载的性能影响。数据自动迁移技术是指最大限度的降低数据迁移动作本身对计算结点的I/O性能影响,且对前端透明,它根据前台I/O负载的变化,来调整数据迁移速率,使得数据迁移动作本身对存储系统的QoS的影响非常小,同时使得数据迁移任务能够尽快完成。数据自动迁移存储涉及的主要技术有:数据迁移的速率控制与调度、数据迁移对应用的延迟隐藏、文件访问块位置序列预测等等。


  在实际应用中,当数据信息达到迁移触发条件时,数据迁移结点自动迁移数据,从而实现数据信息的降级或升级存储,如数据升级迁移对用户的延迟隐藏技术使得应用程序感受不到数据升级迁移的延迟,并使整个存储系统的性能与最高性能级别的存储设备相当。


  目前,分级存储管理更多从降低成本、不影响数据应用效果、提高效率的角度解决数据的存储问题。随着单盘成本的下降,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量备中,为分级存储的发展起到关键的推动作用。