探索中国CIO人才现状 | 第四季调研报告
分级存储与管理及数据自动迁移
2014-03-14  作者:互联网 

  事实上,数据也是具有生命周期的,不同时期有其存在的不同意义。数据刚生成时,访问频率最高,数据的价值也最高;随着时间的推移,访问频率降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量。如果全部用高性能存储设备来存储所有数据,费用非常高,管理也复杂,也没有必要。


  一般对企业来说,数据从产生到存储、利用、归档,最后超过存储期限被删除,数据被读取的频率逐渐下降,数据存储的位置也应该随之变化,以提高存储设备的使用率,降低存储成本。因此有必要进行分级存储,企业在存储其关键业务数据时,采用昂贵的存储设备、存储技术和存储方式。


  存储设备包括高性能的磁盘或磁盘阵列,存储技术如RAID磁盘、复制、定时拷贝、多级备份等。当数据已经不再为企业带来效益时,将这类数据迁移到较便宜的存储介质上;最后,当数据过时或一段时期不再访问时,应考虑将其删除或者迁移,如果是法律要求或政府规定要保留多年的数据,应将其迁移到近线磁盘或者离线磁带上进行归档,既安全又节省费用。


  同时,信息量的急剧增长,也使存储管理复杂性增加,数据的分级存储也是简化存储管理的需要。通过设定优化的数据迁移规则,能使重要数据和常用数据在最短的时间内访问到,使极少使用的数据备份在廉价的海量存储器中供以后使用。


  概念


  分级存储是根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,通过分级存储管理实现数据客体在存储设备之间的自动迁移。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的性价比。这样,一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。


  在分级数据存储结构中,存储设备一般有磁带库、磁盘或磁盘阵列等,而磁盘又可以根据其性能分为FC磁盘、SCSI磁盘、SATA磁盘等多种,而闪存存储介质(非易失随机访问存储器)(NVRAM)也因为较高的性能可以作为分级数据存储结构中较高的一级。一般,磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息,而磁带库等成本较低的存储资源用来存放访问频率较低的信息。


  信息生命周期管理(InformationLifecycleManagement,ILM)是StorageTek公司针对不断变化的存储环境推出的先进存储管理理念,ILM试图实现根据数据在整个生命周期过程中不断变化的数据访问需求而进行数据的动态分布。分级存储和ILM在存储体系结构上基本相同,目标也都是使不同级别的数据在给定时间和不同级别的存储资源能够更好的匹配。二者本质差别是数据分级的标准不同:前者标准为数据近期被访问的概率;后者标准为数据近期对企业的价值。


  存储方式


  传统的数据存储一般分为在线(On-line)存储和离线(Off-line)存储两级存储方式。


  而在分级存储系统中,一般分为在线(On-line)存储、近线(Near-line)存储和离线(Off-line)存储三级存储方式。


  在线存储是指将数据存放在高速的磁盘系统(如闪存存储介质、FC磁盘或SCSI磁盘阵列)等存储设备上,适合存储那些需要经常和快速访问的程序和文件,其存取速度快,性能好,存储价格相对昂贵。在线存储是工作级的存储,其最大特征是存储设备和所存储的数据时刻保持“在线”状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。


  近线存储是指将数据存放在低速的磁盘系统上,一般是一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备。近线存储外延相对比较广泛,主要定位于客户在线存储和离线存储之间的应用。就是指将那些并不是经常用到(例如一些长期保存的不常用的文件归档),或者说访问量并不大的数据存放在性能较低的存储设备上。但对这些设备的要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但又要求相对较好的访问性能。同时多数情况下由于不常用的数据要占总数据量的较大比重,这也就要求近线存储设备在需要容量上相对较大。近线存储设备主要有SATA磁盘阵列、DVD-RAM光盘塔和光盘库等设备。


  离线存储则指将数据备份到磁带或磁带库上。大多数情况下主要用于对在线存储或近线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级存储。离线存储通常采用磁带作为存储介质,其访问速度低,但价格低廉的海量存储。


  分级存储设备是根据具体应用可以变化的,这种存储级别的划分是相对的,可以分为多种级别。如可以采取FC磁盘-SCSI磁盘-SATA磁盘这种三级存储结构,也可以采取SSD盘-FC磁盘-SCSI磁盘-SATA磁盘-磁带这种五级存储结构,具体采用哪些存储级别需要根据具体应用而定。


  管理的关键技术


  分级存储管理(HierarchicalStorageManagement,HSM)起源于1978年,首先使用于大型机系统。存储实现分级以后,在线存储、近线存储和离线存储存放的数据价值不同,在同一级别存储内部(比如在线存储和离线存储),存放的数据也应该不同,实现每一级别内的“分级存储”。如何将各个级别存储中数据统一管理起来便成了最为关键的问题。


  分级存储管理是将离线存储、近线存储和在线存储融为一体的技术。在分级存储系统中涉及许多技术,如数据增量扫描技术、基于多指标的数据分级策略、在线迁移中的一致性保证技术、数据自动迁移存储技术、存储虚拟化技术、分级存储管理技术等等。这里主要就几个关键技术进行讨论。


  增量扫描技术


  在一个文件数为10亿级的大规模文件系统中,选择分级存储管理操作的候选对象可能是非常耗费资源的,一般须扫描整个文件系统的名字空间。而每秒大约能扫描5000个文件,扫描10亿个文件大约需要27小时。现有的分级存储管理工具一种是集成到文件系统之中,一种是存在于文件系统之外。无论是哪一种,能够获得文件访问情况并利用这一特性,大幅度减少文件扫描规模,减少维护文件访问信息的开销是非常重要的。


  如于一个20万个文件的文件系统,每天只有不到1%的文件被访问。随着文件系统规模增加,访问百分比期内所有被访问文件的访问统计(包括访问次数和文件大小)、总访问热度等信息,通过增量扫描技术,元数据服务器不必扫描整个文件系统,而通过定期获取近期访问过的文件信息,这样就可大大减少维护文件访问信息的开销。