中文 | English
中经云动态

2024-05-05 2013-12-27 孙茂金总经理在智慧城市发表署名文章“关于未来智慧城市中大数据存储的思考”

\
文/ 孙茂金(中经云数据存储科技(北京)有限公司总经理)
提到智慧城市中的大数据,大多数人第一时间想到的是大数据分析。没错,这是当前在智慧城市领域最火的词汇之一。将杂乱无章的海量数据进行分析,抽取出对人们有用的知识,这种“from data to knowledge”的模式无疑最能体现智慧城市中“智慧”这一概念。然而,人们似乎忽略了大数据存储,这个横亘在数据生成与数据分析之间的领域。数据存储,不就是把数据扔进大型数据中心去,然后需要的时候很快找出来吗?听起来,存储肯定是个简单活,但事实真的是这样吗?当前的大数据存储技术真的可以满足所有重要的需求?我将为读者深入剖析这些问题,并告诉大家当前的存储技术距离我们想象中的“完美存储”还有多远。我们以“重灾区”档案类数据为侧重点,向大家介绍一些当前存储不力的例子,最新的国家战略,以及接下来几年需要重点关注的技术解决方案。
我们先从国内重要数据的存储现状开始谈起。下面几个部分概括了当前国家在安全地存储重要数据方面的困境。
第一,相当一部分有价值的数据没有得到留存。 “我国中央国家机关及直属企事业单位, 42.2%的电子公文没有以任何方式留存; 74.4%的机构没有采用任何措施存留数据库、电子邮件、多媒体文件、网页文件等类型的电子文件......1982 年第三次人口普查 99%的原始数据已经丢失。”——中国档案学会《电子文件管理机制研究》2007
第二,一部分数据表面存在,实质已经消亡。存储信息的载体可能完好无损,但是能读出它们的硬件系统或者软件系统已经在这个世界上消失了,记录在载体上的数据已经不可读取,如1990年北京亚运会的电子文件目前已经完全无法读取。
第三,能读取的数据缺乏完整性和可验证性。“73.6%的中央单位承认,因为相关法规制度不健全、电子文件数据不完整等原因,其自身生成的电子文件无法独立发挥文件的功效; 在接受抽样调查的35家省级、副省级城市国家综合档案馆中,86.2%的档案馆保存的电子文件不具有证据效力。”——中国档案学会《电子文件管理机制研究》2007
第四,一些重要数据只有部分被留存,更有价值的一部分已经踪迹全无。我国党政机关和其他社会组织对数据留存普遍实行了纸质备份制,在这种备份制度下,一部分信息被打印留存,另外一部分非常有价值的信息却因为无法打印而弃之不管甚至干脆丢失,实际上这部分数据不仅量大而且往往具有更高的价值。
看到这,恐怕我们不得不认同,在未来更大规模的数据向我们袭来时,如何将它们长期安全地保存下来是一个非常重要的问题,否则大数据分析,尤其是时间跨度大的数据分析,根本无从谈起。另根据美国大型咨询公司Gartner的报告分析,将来所有产生的数据中,将有约80%的数据是“冷数据”类型,也就是说在数据产生之后并不会马上被频繁访问,而是在未来需要时才会被不经常地用到;或者刚产生时访问量很大,但是随着时间推移变得无人问津。例如Facebook公司对图片访问率和图片创建时间之间的关系做了深入分析,他们发现越老的图片被访问的几率越小,并且在海量的图片库中,只有8%的图片是被经常访问的, 而剩下不被经常访问的92%图片却和这8%的图片共同存储在同样的设备中,占用了大部分并不需要的开销。这种“冷数据”趋势进一步将安全可靠的大数据存储需求推上了风口浪尖。
冷数据对响应时间的要求要低于传统的以web计算为基础的热数据,但对可靠性和保存成本有较高的要求。因此,目前的冷数据存储方案基本都是用响应时间为代价来换取低成本和高可靠性。对于冷数据的保存介质,目前广泛采用的是磁带(Tape)和磁盘(Hard Drive Disk)。虽然磁带的价格低廉,但它存在以下三个致命缺点:读取数据需要手工操作;数据经过常年保存后,非常容易损坏,而且不能复原;保存磁带的数据中心往往建在比较偏远的地方,因此取数据需要长时间的运输过程。
为了克服磁带存储的缺陷,当前正涌现出一系列以磁盘为介质的冷数据存储方案。为了降低成本,磁盘制造商除了销售传统的台式机磁盘外,还推出了企业级和云存储级别的磁盘,这类磁盘的不同之处是容量高,质保时间短, 因此成本也低(一般低50%到100%)。此类磁盘一般由氦气磁盘或者瓦状磁存储技术(Shingled Magnetic Recording)来实现。但是磁盘的寿命只有3—5年,每次年限到了就需要将旧磁盘中的数据转移到一个新的磁盘中去,这种方式在大数据时代导致的后果是,在每个大型数据中心中每天都有成千上万的磁盘需要被转移数据后再被人工处理掉,为数据中心的维护和长期运行造成了很大损失。
除了磁盘外,闪存技术将来也有可能被利用为冷数据存储。这主要和闪存的三大特性有关: 一是可写次数虽然少,但读取速度非常快;二从休眠或者关闭状态被唤醒的响应时间快;三是细粒度的电源管理(以单个芯片为单位)。但目前即使最低端的闪存成本都很高,除非将来成本大幅度下降,否则很难作为冷数据存储的介质。另外,DNA和石英玻璃板也被认为是未来可能的存储介质,但由于存储密度和造价的原因,目前还无法看到它们对其它介质地位的挑战。
跟上述几种存储介质相比,近几年最被看好的是光介质。光介质作为存储介质相比于磁盘的最大优点是: 存储数据的寿命长,平均50年,而一般的磁盘寿命在3—5年左右;存储的数据不易被电磁干扰,抗x-光,易于保存;维护成本低廉,绿色节能。由于光存储介质的容量有限,以及缺少对大规模光盘阵列数据存储系统的研究支持,目前还没有以光存储介质为基础的数据中心。但随着光存储的容量提升以及对可靠自动化的光存储数据中心的研究发展,未来将会是一个全新的方向。2012年10月27日,国家信息中心组织召开了“大容量光存储技术与非结构化数据库技术研讨会”,国家发展和改革委员会、工业和信息化部、人民解放军总参某部、数据中心产业联盟等政府部门,行业协会和企事业单位的110多位专家代表参加了大会,讨论将光存储作为下一步国家战略的可行性。
国家对大数据归档存储解决方案与大数据归档存储技术的研究、开发和推广极为重视,由国家信息中心副主任李凯牵头,成立了一家为政府机构及企事业单位提供专业的、一站式的大数据归档存储服务和数据保护咨询服务的公司——中经云数据存储有限公司,目前在国内这个领域占领了技术制高点。据总工程师邓吉介绍,该公司通过使用磁光电融合技术,同时发挥磁存储介质和光存储介质各自的优点,实现大规模、安全、高效、持久、低成本的海量数据归档系统。目前我们已经完成一整套系统解决方案与实际硬件系统的开发。合作伙伴包括国家信息中心北斗定位项目、总参某部、总后某部、国家档案馆、解放军档案馆,与港大深圳医院、横跨地理信息、军方应用、档案保存,医疗应用等多个关系到国计民生的方面。
此系统在硬件上主要包括逻辑计算集群、磁介质存储集群和大型光盘阵列。一方面,使用光盘阵列长期保存冷数据一方面发挥了光介质节能、寿命长、不易受外界干扰等优点。但另一方面,光存储介质也存在着读写速度慢、寻址时间长等问题。为了解决这两个问题,中经云海量数据归档系统中特别设计加入了基于磁存储介质的读写缓存系统。对于非结构化数据,该缓存系统与逻辑计算集群相配合,可以高效、可靠地将数据分散,有冗余地存储在多个缓存服务器上。对于结构化数据,该缓存系统支持基于SQL语句的操作。基于磁介质的缓存系统可大幅度提高整个系统瞬时的数据吞吐量,基于光介质的冷数据存储可以在很大程度上降低数据长期存储的开销。中经云海量数据归档系统通过对两种介质的融合,取长补短,实现了优秀的数据存储方案。
在数据安全方面,中经云系统在数据存储的不同阶段采取了不同的安全措施来保证存储数据的可靠性。在数据传输阶段,中经云系统采用加密协议来降低数据在传输过程中被窃听干扰的危险。在用户权限验证阶段,它使用多重安全信息来加强用户访问权限验证。在数据写入光盘阵列阶段,则采用了可恢复性检验来有效的检测数据写入的完整正确性。为防止光盘丢失导致的数据丢失,系统使用动态加密的方式对数据进行加密。此外,中经云系统还对数据进行了多次备份,用于灾难恢复,并即时检测光盘的使用寿命以保证系统的可持续性存储功能。
随着科技的不断发展,我们可以预见到未来光盘的容量将会大幅度的增加,而磁光电的融合技术可以有效地克服光介质读写速度与寻址速度慢的缺点,同时尽可能地发挥光介质长期安全存储的优点。这种以光介质为核心,磁电介质为辅助的数据存储解决方案,将成为未来智慧城市中大数据产生后长期安全存储的避风港。同时,由于目前整个世界对冷数据光存储还在研究阶段,这也给了中国一个走在世界前列的良好机遇。显然国家也意识到了这一点,在11月召开的两院院士会议上,多名院士联名上书,要求将这一方向定为国务院明年发展的国家重大扶持专项。希望这一次,中国可以在此领域成为整个世界的高科技领导者!