腾讯云故障致客户数据丢失 被索赔千万 专家告诉你汲取哪些教训?
- +1 你赞过了
近日,自媒体“前沿数控”称“使用腾讯云服务器8个月后,数据全部丢失,腾讯云所谓的三备份数据也全部离奇丢失”。
据该自媒体介绍:它们是一家从微信公众号起家的创业公司,2014年注册了微信公众号“前沿数控技术”,精准定位于数控、模具、机械行业,随后我们的垂直行业精准粉丝突破了40万人。在2016年获得知名公司的投资从而加速了“前沿数控技术”的发展,公司业务也从微信公众号转型为打造行业的一站式平台,开发了包括网站、H5、小程序产品。
为了应对迅速增加的流量趋势以及安全可靠的需求,“前沿数控技术”选用了腾讯云服务器。7月20日,发生灾难,该公司近千万级的平台数据全部丢失,包括经过长期推广导流积累起来的精准注册用户以及内容数据。
8月6日,腾讯云回复:腾讯云用户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘,因受所在物理硬盘固件版本bug导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。
腾讯云表示,虽经多方努力,最终仍有部分数据完整性校验失败。经过分析,该硬盘静默错误是在极小概率下被触发。
并且,腾讯云提出了如下的“赔偿+补偿”方案:
1. 赔偿部分:“前沿数控”在平台上(自2017年12月份开户至今)产生的实际消耗共计3569元,依据腾讯云相关服务协议、规则和行业惯例,腾讯云将按照赔偿条款中的上限以现金形式全额返还这笔费用;
2. 补偿部分:本着帮助用户迅速恢复业务的目的,腾讯云承诺为“前沿数控”提供132900元现金或云资源的额外补偿。
不过,双方仍未达成协议,主要在于赔偿数额的大小不同。据腾讯云称,“前沿数控”基于自身评估就此次故障对腾讯云提出了高达11016000元的索赔要求,而腾讯云提出了136469元的赔偿金额。
在知乎上,一名饶丹的网友评论说,“腾讯云的安全性值得重新审视,是不是真的做好了用户数据的保护,是不是真的做到了宣传中提到的数据保护机制。”
另外,他也建议:创业公司,不重视数据的备份,把最重要的资产交给不可控的第三方。数据丢失后,几年的积累付之东流,再怎么赔偿也无法挽回实际损失。
针对此次事件,雷竞技须安全稳定 记者向全球数据备份和恢复领域的知名厂商Commvault进行了咨询,其亚太区企业解决方案架构师李可给予了回复。
一、如何看待这次事件的发生?从技术角度,如何理解?为什么备份数据也会丢失?
Commvault技术专家:
腾讯云所谓的“三副本”应该不是三个备份副本,而是云存储的三副本保护机制,通常来讲云存储的“多副本”技术都是用来规避物理故障的,而不能规避逻辑故障。也就是说不管写入的数据是对还是错,所有的副本最终都会完全同步,所谓“一荣俱荣、一损俱损”。另外有些多副本技术依赖于同一份元数据,元数据一旦被破坏,所有副本都不可用。
从腾讯云这次事故披露的信息来看,有可能是“静默硬件错误”逐渐引发逻辑错误,使得多副本保护失效;当然也有可能腾讯云的“三副本”就只是同一个存储集群下的三副本,那么元数据故障直接就会导致全部数据丢失。
照理说腾讯云应该还给客户数据提供了快照机制以规避逻辑错误(所谓的云平台备份机制),但是该功能未必默认启用;即便启用,快照数据是否依存于原始数据,能否规避这次的问题,快照下来的数据是否能保证一致可恢复,都是个疑问。
Commvault亚太区企业解决方案架构师李可:
所谓的三副本备份数据其实不能算严格意义上的备份数据,因为目前大多数平台使用的基于复制的多副本方案是基于源卷的数据块修改而触发的复制,它不会识别产生的变化是应用程序或操作系统写入的正常修改还是如这次事件中的元数据损坏而产生的变化,事实上错误的元数据很快被复制到其他副本上导致了三副本数据都不损坏而不可读,这种方式只对硬件本身的损坏而非数据本身逻辑错误有用。
Commvault技术专家:
此次事件的发生再次针对公有云的数据安全敲响警钟。国内大部分公有云的租户过度依赖云服务商N个9的服务可用性保证,主要包括本地多副本或快照等基础保护方案,但却容易忽略“鸡蛋不能放在一个篮子里”的浅显道理。本次事件中,客户表示: 自身没有任何可用的本地备份用来恢复系统也是造成最终数据大面积丢失的主要原因。
数据备份技术很重要的一个理念是要做到数据离线和异地存储。云中再多的副本也无法完全避免数据中心灾难或人为等逻辑错误。此外,事件发生的根本原因还是源自于客户自身缺乏数据有效性管理的意识和整体策略,这样也可能导致即使有了历史数据副本也无法完全恢复的风险。
二、对创业公司来说,如何来存储和备份自己的数据?Commvault有何建议?
Commvault技术专家:
初创公司考虑到IT建设的敏捷性和运维便利性,通常会优先选择租用公有云的计算资源和云存储承载企业核心业务,但数据管理风险也随之而来。Commvault建议企业至少从以下几个角度考虑云中的数据管理。
1. 对自己的数据进行分类,识别那些重要的数据加以重点保护
2. IaaS云平台通常不会对用户的数据逻辑丢失负责,创业公司需要制定自己的数据备份策略,不能仅仅依赖于云平台的数据保护机制
3. 企业要加强数据保护意识,通盘考虑企业的数据安全,尤其是云中数据的离线备份。
4. 云服务提供商提供的多副本或快照等基础保护技术通常无法规避所有数据丢失风险,企业需要根据自身数据特点建立安全可靠的数据灾备保障体系。
5. 建立有效的数据验证机制,重要系统实现定期的自动化数据验证,确保数据可恢复性和业务有效性。
6. 不要把鸡蛋放在同一个篮子里,采用多云部署、多云备份来规避云服务商风险,此时一个与云平台无关的第三方软件是个比较好的选择
三、对企业来说,如何去选择一个适合自己的数据存储、备份方案?
1. 对数据进行分级,选择相应的数据保护策略
2. 高可用、灾备、备份,一个不能少
3. 创建同一份数据的多份独立拷贝以规避风险
4. 选择一个中立的第三方方案,避免依赖于某一个硬件品牌或云服务商
5. 建立完整的数据备份及恢复验证机制与流程,保证数据可恢复。
最后,Commvault技术专家还表示:企业应该时刻牢记:“资源是人家的,数据是自己的 ”。 企业需要将核心价值的数据牢牢掌握在自己手里。建议要根据自身业务特点和保护需求规划统一的数据灾备策略,包括本地数据和云中应用数据。且要遵循数据离线、异地、异质存储的基本原则。同时,企业应采取有效手段加强对备份数据的定期自动化验证和监管,以保证数据的高可靠性,并有效防止数据丢失。
此外,此次事件对云服务商的服务水平也提出了更高的要求。云服务商应该考虑适时推出敏捷、灵活、完整的云中数据灾备服务,以快速应对云租户的数据离线保护和灾备需求。同时也可作为云服务供应商的增值业务和特色服务。
最新资讯
热门视频
新品评测