关于我们

支付宝和携程"出事"!让你想了解容灾容灾

摊上事了”曾是一句网络流行语,而近两天互联网有两个企业真的“出事”,5月27日下午5点开始的支付宝故障,是因为光缆被挖掘机挖断造成手机和电脑支付宝无法登陆、余额错误等问题。仅仅一天时间,携程网和App在28日完全登陆不上去,网上传出携程全线酒店数据库物理删除的消息,携程官方也发布声明称,遭到不明攻击,网站和App陷入瘫痪无法正常使用。而两件事一前一后的发生,引发整个行业的关注,背后更多是对数据安全和保护的讨论。 5月27日下午17时左右,许多网友反映支付宝故障,在登陆手机支付宝钱包时,页面显示请求超时“请稍后在试”、余额宝等其他多款产品均无法使用。   5月27日18时,支付宝通过微博发布消息,承认支付宝使用出现故障,原因是杭州市萧山区某地光缆被挖断,支付宝官方说明不会对用户的资金安全有任何影响。 到晚上19时20分,支付宝宣布用户服务已经恢复正常,全程历时2个多小时。虽然事件逐渐平息,但支付宝又一次被推到风口浪尖,一根光纤就导致如此大面积的“崩溃”,可见支付宝的容灾备份和恢复机制还有待提升。 相比支付宝,携程旅行网官方网站28日突然陷入瘫痪,打开主页后显示“Service Unavailable”,而携程官方页面也显示404错误。对于此次官网瘫痪的原因。携程官方回应称,“5月28日上午11:09,因携程部分服务器遭到不明攻击,导致官方网站及APP暂时无法正常使用,目前正在紧急恢复,对用户造成的不便,深表歉意。” 事件的背后据了解,支付宝在系统上采用了“异地双活”架构,即杭州和外地两处机房同时为用户提供服务,系统会自动将全国所有用户的需求分流到两处机房。而在光纤被挖断的意外发生后,支付宝立即将用户发往杭州机房的需求引流至异地的机房,所以在受损光纤并未接通的情况下,支付宝服务已经可以恢复正常。但业内人士强调,针对金融业务来说,2小时的恢复时间可以算是一次重大事故。 究其原因,笔者并不想过多的谈论观点,或是列举网友一些所谓的“玩笑”,从事件本身展开,更多是让其他的用户和企业去不断完善相关IT建设和数据安全保障重要性,由此展开针对数据中心容灾备份的一些注意和经验的提供。 对于数据中心而言,当数据遭到破坏时是一场灾难。也许很多企业很幸运,从来没有经历过数据丢失。但是,正是由于这种事情极少发生以及保持数据的完整性是非常重要的,正如支付宝和携程事件,告诫企业通过跳过备份来“节省”时间和资源似乎是没有问题的。   这样来说,会有人问何为“容灾”?其实简单的说就是尽量减少和避免灾难发生所造成的数据损失。备份和恢复是这个“容灾”中最重要的部分,提供数据的恢复和保管能力。另外,还要有提高数据可用性的能力,以及预防自然灾难所造成的对系统存储数据的影响和损失。 提到容灾,首先想到数据备份,到底数据备份和容灾是怎样的关系?对于企业来说,这种关系体现在什么方面才是最关心的。企业关键数据的丢失会很大程度上影响业务发展,同时造成严重经济损失。但是很多企业至今都没有理解容灾,认为简单的建立备份系统之后就认为高枕无忧,其实容灾系统也是不可缺少的一环,其相互关系可以说明容灾系统的重要性。   有业内人士说,数据中心进行备份是非常重要的,这个理由是非常明显的。但数据备份最佳做法的列表是没有穷尽的。有些最佳做法在某些情况下是好用的,而有些规则总是合理的。不管怎样,备份都是非常重要的和不可忽视的。因此,企业通过试验各种方法并且看哪一种方法最适合你,要尽可能提前进行学习以便避开一些陷阱。   笔者认为,数据备份可以说是企业数据可用性的最后一道防线,其目的为了在系统崩溃时能够快速的恢复数据。尽管这也是体现容灾的一种形式,但是能力有限。因为如今传统的备份还是采用数据内外磁带机进行冷备份,备份机制也统一在机房中管理,一旦机房陷入灾难,备份磁带上的数据也将毁坏,起不到有效保护数据安全作用。   另外,数据备份还是最基础的形式,没有数据备份任何容灾都没有现实意义。但光有备份是不够,真正的数据容灾就是能够弥补传统备份不足,在灾难发生时可以及时恢复整个系统。所以,容灾对于IT而言就是提供一个能够防止各种灾难的计算机信息系统。 实时进行备份。最新的备份总是有用的。例如,在银行、在线交易等方面,只有实时的备份才是有用的。实时的备份不需要更多的资源。但是,如果你的数据是时间敏感性的,那么,实时备份只是一种选择。即使你的数据不是时间敏感性的,它对于实时备份也没有影响。为了增加额外的保护,你可以备份已经备份的数据。对于重要的数据来说,对已经备份的数据进行备份不是浪费时间。   定期备份需要时间和取决于你在使用的具体备份程序。备份可能会影响到你的数据中心的正常工作。 对于一个企业来说,数据进行备份仅仅是整个容灾工作的开始,备份目的就是为了能在系统故障的时候进行有效恢复。但对于很多企业来讲,特别是中小企业,数据备份只是一项简单的工作,对于容灾计划方面没有弄清楚真正的意义,根本没有把数据容灾放在首要位置,所以会导致在容灾恢复上出现问题。 首先,不清楚容灾意义。企业对于容灾没有进行效果方面的评估,认为花费巨大的精力和财力在数据备份方面,最终在问题出现时候就是简单的覆盖恢复,没有真正的感受到效果方面的实际意义。甚至缺乏完全的文档化恢复计划和措施。   其次,容灾计划可行性许多企业在弄清楚容灾意义,并不是有效的进行计划,导致很多容灾计划只是在想当然的情况下进行的编写,没有进行过任何的模拟演练,缺乏真正的可行性。最终一旦灾难发生,根本就起不到足够的容灾作用,数据根本没有办法有效恢复。   第三,容灾没有可用配置文档。对于大型企业而言,在容灾备份方面有着专业的IT人才,并不缺乏相关的经验和手段。但是,对于一些企业,特别是中小企业没有对于当前系统配置和相关文件的必要存档。在进行容灾恢复时,找不到相应的原始系统配置文档,导致给灾难恢复带来不必要的困难。   此外,对于容灾备份,许多企业仅仅对于一些需要长期保存的数据进行简单的季度备份、年度备份,特别是一些文档资料。企业这个时候没有对这类文档进行有效的多份备用策略,致使一旦出现类似问题数据造成丢失。所以,对于这类需要长期保存的关键备份,可以采用不同地方保存至少2个以上的备份应用。 可见,随着企业IT建设的高速发展,企业存储的数据量也呈现爆炸式的增长。很多企业的数据中心,随着业务的发展,产生了不同时间建设的多个IT子系统,随着业务持续性要求的提升,数据中心的容灾建设迫在眉睫。

分享