周一至周五 | 9:00—22:00

还我数据

作者: 本刊编辑部

  数字化vs 纸质
  
  英国广播公司(BBC)1986年为了纪念原版《末日审判书》出版900周年,花费了250万英镑,开展了“末日审判项目(Domesday Project)”――一个现代版的《末日审判书》。900年前的《末日审判书》是1086年威廉一世下令对英国土地使用情况进行大规模调查的结果汇编。900年后,为了“末日审判项目”,超过100万英国人贡献了文本、照片和视频资料。考虑到这些资料应当永久保存下去,于是它们被存储在两张定制的光盘上,并使用BBC的特殊计算机阅读显示,以便后人能了解20世纪人们的生活情况。
  但仅仅15年后,当有人试图使用同样的计算机来阅读光盘上的资料时,却没有成功。与此同时,那本抄写在羊皮纸上的原版《末日审判书》却还依然保存在英国档案馆里,900多年后的今天,凡是懂得拉丁文的人都可以翻阅。
  同样,那些十几年前把数据存储在5.25英寸软盘上或使用WordStar格式文本的人现在都面临着与BBC“末日审判项目”相似的问题,除非我们采取有效的保护措施,否则,大批已经生成的数字信息极有可能在我们有生之年就无法读出和使用了。
  这种情况不能完全归咎于计算机行业越来越快的更新换代,实际上,数字存储技术天生就存在缺陷。2004年11月,美国国家档案记录局电子档案处的处长曾公开承认,将电子资料保存10年以上(更不用说永远保存),“仍然是全球性的难题。各国政府、大公司以至个人,都还解决不了。”
  
  数据劫难
  
  美国加州圣何塞的数据存储顾问Tom Coughlin说,如果把硬盘从电脑上拆下来后放在办公室的架子上,它最终可能将无法使用。他解释说,因为每天的温度有变化,热能跑到存储介质里面去,会慢慢引起存储信息的磁性颗粒出现自发逆转,直到原始数据丢失。不过,一般前10年不会出现数据丢失的问题,但10年后,谁也说不准数据何时就会变得无法使用。
  Tom Coughlin说,磁带也面临同样的问题,但一般几十年后才会因热擦除而丢失数据,那是由于磁带的比特密度低于硬盘。但是,磁带也有自己的问题:脱层。当磁性介质与磁带脱离,或者受到霉菌侵蚀时,就会出现脱层。有时候,磁带介质不得不重新经过烘焙工艺,以便能最后一次读取数据,并将其内容迁移到另外的介质上。
  USB闪存盘也会受到热擦除的影响,并且还面临着更大的风险,因为它们用的是最廉价的控制器。Tom Coughlin说:“我不会将USB闪存盘用于归档。”如果使用USB闪存盘归档,那就要祈求USB端口在几十年后仍能使用,而谁也不知道笔记本电脑在20年后将会是啥样,更不用说50年后了。
  至于DVD和CD,美国国会图书馆的项目经理Bill LeFurgy说,他所在的单位曾用烤箱对DVD和CD做了加速老化试验,结果发现,其盘片之间存在着很大的差异,就连同一品牌的盘片之间也有很大差异。他说:“有些寿命可以达到10年,而另外一些的寿命却短得多。5年后,我就要担心可靠性了。”
  其他存储专业人士也抱怨,DVD的传输速度太慢,不适合于归档。DVD的传输速度通常不到磁带的1/4;另外,每存储数GB内容,就要更换DVD盘片。
  与其他存储介质一样,CD和DVD同样存在其阅读器在几十年后是否还在的问题。
  
  在线存储的生命力
  
  那么在线存储如何呢?在线存储时,当硬件设备启动后,可立即访问。其中的数据不断受到检测,以确保其完整性,并易于复制。但美国斯坦福大学图书馆负责“大量拷贝确保数据安全(LOCKSS)”项目的首席科学家David S.H.Rosenthal却抱怨,在线存储也可能很快遭到损坏,眼下还看不到具有归档所必需的长期可靠性。
  Rosenthal调查了让1PB的在线存储数据在100年后仍可使用的可能性达到50%有何要求。他在分析了众多存储服务商发布的有关磁盘维护的数据后发现,要达到1PB数据在100年后仍可使用的目标,在线存储的可靠性必须提高10亿倍。
  他指出,就算我们真的有望把在线存储的可靠性提高10亿倍,也根本没有现实的方法来测试这样一种系统,总不能给它接通电源,然后等上100年吧?
  由于数字化数据的存活率如此之低,所生成的数字格式的信息又如此之多,“50年后我们可能会面临数字黑暗时代,将来的学者们将无法了解我们现在的文化。”美国电影艺术与科学学院(奥斯卡颁奖组织)的科学和技术委员会理事Andy Maltz说。
  
  数据保存标准
  
  由于日渐意识到这个问题,众多组织一直在致力于解决归档问题,着重研究如何减小格式过时带来的风险。
  防止格式过时通常需要编制元数据词典。元数据是指有关文件的信息,与文件一同存储。那样一来,将来的用户不会像科学家在1999年那样陷入困境:他们无法解读含有美国宇航局在1975年火星探测数据的磁带。最终是科学家找到了一些打印资料,才得以分析出大约1/3的数据。
  除了标准外,还有一个更棘手的管理问题。网络存储工业协会(SNIA)的发言人Donald Post,也是总部设在芝加哥的专门从事档案管理的Imerge咨询公司的合伙人,他说:“大多数组织都无法告诉你,某些电子内容要保留多久;只有5%到10%的组织在用足够详细的元数据对内容进行标记”,以便员工知道数据要保留多久。与此同时,在试图保留的数据中有80%是重复数据,但它们并没有花时间来丢弃这些重复数据。95%的组织认为,进行例行备份就是足够有效的保护了。
  Donald Post说,企业的IT经理们没有迫切要求用商业解决方案来解决这个问题,因此,厂商们也就不急于提供相应的解决方案。不过,他预计,随着厂商们认识到数字化归档产品的商业潜力,这种情况在今后3年内会有所改变。
  
  为数据注入活力
  
  当然,一些组织成功地应对了数字化归档这一挑战。
  美国国家档案馆负责电子档案归档项目的系统工程主管Dyung Le指出:“大多数国家都有数据保存问题。”归档磁带每10年就要重新拷贝,国家档案馆的每份档案至少有3份拷贝,并且至少1份拷贝保存在异地。他估计,档案馆管理的数据量超过400TB。
  由于谁也不知道几百年后会使用什么样的计算机应用程序,基于文本的材料通常转换成ASCII的XML格式。各种元数据保存在文件中,包括可用做搜索辅助手段的描述性数据。Dyung Le说,XML文件用保存元数据实施策略(PREMIS)标准的扩展机制来存储元数据,这项数字保存标准同样基于XML和ASCII,由联机计算机图书馆中心(Online Computer Library Center)制定。
  Dyung Le说,目前没有用于非文本数据的类似XML的过渡格式。因此,如果企业想归档资料,只能记下该资料采用的格式,并计划最终把它迁移到将来的一种主导性的应用程序格式,但必须在仍有转换原始格式的系统的时候这么做。换句话说,必须对将来会使用什么格式做出最准确的猜想,然后在还能转换的时候转换过去。
  他解释说,档案管理员还要能够核实保存的材料是有效拷贝。可以通过为每个文件创建散列键(Hash key)来做到这一点。散列键跟着文件移动。提供拷贝时,档案管理员还必须核实文件特征是否有变化;倘若文件特征发生了变化,资料的意义会随之变化。Dyung Le补充说,由于这个原因,有时候文本必须以原始格式来保存,因为大家认为格式对文本的含义来说必不可少。
  其他美国联邦政府机构、州档案馆和图书馆,有时甚至私人图书馆也面临着数字化保存问题。Bill LeFurgy说,按照美国国会的指示,国会图书馆为它们启动了国家数字信息基础设施和保存计划(NDIIPP)。NDIIPP的官员正与约170个利益相关者(包括行业组织和外国政府)合作,它们在DigitalPreservation.gov上发布了一整套工具和服务。
  美国国会图书馆本身保存了约167TB的数字内容,包括关于全国大选的网站和关于“卡特里娜”飓风等重大事件的信息。Bill LeFurgy说,与美国国家档案馆一样,国会图书馆也保留了多份拷贝,力求避免格式过时。
  美国地质勘探局地球资源观察和科学中心的档案管理员John Faundeen说,由于要存储平时的卫星勘测数据,地质勘探局每月要为其档案增加约50TB的数据量,现在管理着约4.5PB(包括拷贝)的数据量。
  该中心实行三份拷贝的存储策略:第一份拷贝是在线拷贝,第二份是近线拷贝,第三份是离线拷贝。这符合信息生命周期管理的存储策略,许多企业的IT部门都采用这种策略。地球资源观察和科学中心每过三、五年就要设法将数据转移到新的存储介质上。John Faundeen解释说,该中心还设法按日期跟踪所用的所有介质,以免出现它使用的某种介质不再得到厂商支持的情况。每隔一年,该中心就会调查离线介质行业,了解市面上的新介质。
  
  电影和图书馆
  遭遇困境
  
  数字化数据并非是永久性的这一显然的事实,使电影业大为震惊。据美国电影艺术与科学学院的Maltz称,好莱坞采用数字化技术之前,所依靠的是电影胶片,用这种介质归档的电影保留了一个世纪。该学院在2007年的一项调查发现,用胶片保存一部商业影片的原始版材料的长期成本为每年1059美元;若采用数字格式,成本要高出11倍,每年高达12514美元。
  Maltz说,若使用数字化技术,你得每过三、五年就要更换数据格式和存储介质,还要更换技术基础设施,不然你的数据可能恢复不了。
  该学院已启动了几个项目试图解决这个问题。比如说,着力开发适用于电影业的图像文件互换格式和元数据标准;还构建了一个实验性的数字保存系统。Maltz如此评述好莱坞的数字化计划:“我可以说,到最后它们比我们当初了解的要复杂得多。”
  美国斯坦福大学图书馆的LOCKSS项目负责人Vicky Reich说,数字材料的非永久性对图书馆来说也是个问题。不但资料可能一眨眼工夫就会丢失,捣乱分子也会随意涂改,而且不留下任何证据。她说:“纸质图书馆也经常会受到侵扰。”她介绍,图书馆面临的挑战包括有些人不赞同书籍或杂志文章中的某些观点,于是撕掉了事。但如果是印刷出版物,通常在某个地区的多家图书馆藏有好几份副本,所以有人想彻底清除某一部分材料,不太可能完全得逞。
  LOCKSS项目在数字领域采用了同样的分散方法。参与项目的各图书馆(目前有约200家,主要是大学图书馆)先配一台电脑,专门用于该归档项目。这台电脑必须连接互联网,至少有2TB存储空间,并安装开源LOCKSS软件。然后,每家图书馆从大约420家允许对其出版物进行归档的出版商那里选择资料,图书馆获准后也可以自行选择别的来源。然后,这些电脑搜索来源、拷贝材料。图书馆电脑充当原始网站的代理系统,当原始网站无法提供点击查阅服务时,它会提供该服务。
  从同一来源选择资料的LOCKSS电脑会对内容进行比较,必要时还能进行修复。Vicky Reich说,根本不用磁带备份,因为这些电脑已经彼此给对方备份了。
  
  不乐观的未来
  
  总而言之,那些负责监管数字化归档的人对于未来似乎都不甚乐观。
  Maltz说:“眼下没有办法解决核心技术问题,那就是我们的基础设施没有考虑到长期保存需求。”
  美国地质勘探局的John Faundeen说:“关键是保持警惕。归档方面的工作必须坚持不懈。你不能满足于以前的工作,而必须不断往前看。”
  美国国家档案馆的Dyung Le说:“这是个永无止境的过程,形势只会变得越来越严峻。”数据格式的数量在不断增加,国家档案馆保存的数据量随时会变得不堪重负。他说,不过,“我们处理的数据会得到妥善保存,对此我很有信心。”
  最后听听Tom Coughlin是怎么说的:“如果你想让数据保存永久,绝不能让它静静地待在那里。数据一定要活动起来。你必须维护数据,否则它可能终将丢失。”
  
  制订中的归档标准
  
  网络存储工业协会(SNIA)主席兼EMC公司的高级技术专家Wayne Adams说,该协会已经制订了下列三项标准来解决归档问题:
  XAM(可扩展访问方法):Wayne Adams说,这项标准把应用程序与数据分离开来,“以便你独立管理数据,不用担心以后应用程序的迁移。不然想使用15年以后的数据,就得把整个系统装入到时间胶囊(time capsule)中。”据SNIA声称,XAM含有元数据定义,帮助归档数据实现应用程序的互操作性,并让数据更容易搜索。SNIA的网站列出了13家组织提供的基于XAM的产品或服务。
  SIRF(自含式信息保存格式):这项标准有可能让将来的用户不必使用原始应用程序,就可以查询归档文件。SNIA的资料称它是“定义了适合长期存储数据信息的逻辑容器格式的一项规范。”
  CDMI(云数据管理接口):据 Wayne Adams声称,这项标准定义了元数据及其他存储参数,因而适用于归档。
  CommVault与Dell联合推出DL Appliance
  CommVault公司日前宣布与戴尔联合推出由CommVault Simpana 8软件驱动的Dell PowerVault DL Backup to Disk Appliance,进一步加强了两家公司稳固的OEM合作伙伴关系。作为Dell PowerVault产品系列的最新成员,该产品将数据管理与可扩展性、云服务支持、更高速的吞吐量、优化的重复数据删除功能整合在一起,同时拥有更小巧的机型,从而获得了更低的成本和更高的运营效率。新的DL Appliance具有独特的优势,非常适合于远程办公以及任何需要向(从)公共或私有存储云环境进行重复数据删除、备份、归档以及恢复数据的业务。它能够在2U的空间内提供高达24TB的内部存储容量,并可扩展至300TB以上,存储扩展功能非常强大。DL Appliance还提供了基于数据块的端到端重复数据删除功能,在执行备份操作时能够实现高达3TB/小时的重复数据删除吞吐率。CommVault针对DL Appliance的嵌入式重复数据删除功能进行了优化,从而可使所需存储空间减少高达95%。
  
  EMC创单节点NAS性能记录
  EMC公司日前发布新的NAS性能基准,展现了EMC Celerra存储系统具有卓越的性能及扩展性。此次公布的SPEC sfs2008测试数据用于测量网络文件系统的性能。SPEC sfs2008_nfs.v3的测试结果表明,作为业内首个采用64位Intel Xeon 5600先进处理器实现性能倍增的存储系统,配置单个活动刀片的EMC Celerra VG8 NAS网关,比其他公司配置两个活动NAS机头的最新系统性能更高,能够处理更大的工作负荷。EMC Celerra模块化结构让这一性能可以扩展到多达8个刀片,创造更高的性能与扩展性。
  
  UIT SV1000 M系列
  新品亮相
  UIT公司日前正式推出了面向中小企业、安防监控、网络存储、视频编辑等多种应用的存储新品UIT SV1000 M系列,这是继BX1200/1600、SV1200/1600系列产品后,UIT发布的第三代应用存储产品。SV1000 M系列采用了高性能的Intel Nehalem架构硬件平台,使系统稳定性显著提升,并可根据应用需求实现性能优化,是一款支持丰富的数据存储和管理功能的入门级IP SAN/NAS存储系统。SV1000 M系列优化了iSCSI、NAS服务,大大增强了稳定性,保证大压力环境下的业务连续性,同时,UIT自主研发的RAID技术,在性能调优和应用维护上相比传统RAID卡更方便,又解决了传统软RAID普遍存在的稳定性问题,并且可明显降低设备成本。由于不同的应用对存储性能有不同的要求,SV1000 M系列产品均可针对不同的应用进行性能调优。另外,SV1000 M还可以嵌入视频监控软件,能够通过流媒体协议从编码器下载录像,并具有编索引存储功能和检索取数据功能。
  
  Infortrend SAS新品提升50%性能
  Infortrend近日宣布,其EonStor DS系列新增6Gb/s SAS端到端存储系统,它较之之前的3Gb/s SAS系统,可为音频/视频DAS(直接连接存储)应用提供50%的性能提升。这一性能的增强为媒体公司,其中包括优化内容编辑和同步播放或不同HD(高清晰度)文件重放,都带来显著的业务优势。由于其在保持流畅的数据流的同时,支持在监测网络中添加更多的摄像头,监控公司将切实受益于该系统的卓越性能。新系统可提供高达2500MB/s的读取和1100MB/s的写入性能,从而为复杂的编辑操作提供所需的支持。EonStor DS 6Gb/s SAS存储系统的性能水平同样还支持媒体公司同时播放或重放不同的HD内容。另外,新的EonStor DS机型增强的性能,使监控公司在保持平稳的数据传输的同时,可以添加更多的摄像头到网络中。


常见问题解答