说说腾讯云硬盘故障,导致创业公司数据完全丢失一事
如果你记忆力够好的话,可能还会想起六七年前国内云计算刚起步时,各家大厂都追这股热潮,纷纷上云,技术行不行都硬往上凑。
结果第一个出事的是盛大云,同样是硬盘损坏,客户数据丢失,号称的多重备份完全失效,知情者曝出那根本就不算云,而是简单的单块硬盘虚拟机,出这种事只是时间问题而已。
后来盛大云当场挂掉,其他各家草台班子的小云计算公司也纷纷凉了,大家才明白云这玩意门槛其实挺高的。
国内慢慢形成了阿里云一家独大,其余几家后面追赶的市场格局。腾讯云虽然一直号称自己第二,但这个第二跟国际市场aws第一、azure第二的地位可完全不同,差远了。
这件事对腾讯云来说,赔10万还是1000万尚在其次,主要是对它自身信誉的损害远不止1000万。毕竟全国互联网公司都知道它家号称99.999999%可靠的云硬盘也会出现永久损坏不可恢复的情况了。
我自己倒也有类似的经历。
前公司用的是阿里云,一共三十几台服务器吧,分成开发和生产两个子网。某天早上开始工作时忽然发现一台测试服务器无法连接,请求无反应,ssh超时,连阿里云控制台控制开关机都没反应。
当时连忙提了紧急工单,同时从这台服务器前一天夜里的快照中创建了一台临时服务器,修改内网路由和应用配置使得其他功能暂时调用这台临时服务器。
等开发人员能正常工作后,开始和阿里云的技术人员沟通寻找问题所在,折腾了几个小时,终于确认是硬盘损坏,原始服务器已经无法启动。
又过了两个多小时,由他们在同一子网下重建了服务器,数据也恢复了。于是等下班之后我再从白天的临时服务器切换回重建的这台,至此全部复原。
坦白说我对阿里云也很不满意,毕竟为一个你们的磁盘错误折腾了自己半天时间,最后赔付的也只有 一些代金券而已。
但其一这事发生在测试服务器上,并没有什么数据损失,只是耽误工作;其二则是毕竟人家的数据是可恢复的,并没有完全丢失。
由此可见腾讯云这次的性质之严重,恐怕所有公司在考虑把核心业务放在它家云上时都要好好斟酌一下了。这一斟酌,可能丢失的就是几千万上亿的市场。
顺便多说一句,这家创业公司的运维失职也是造成悲剧的重要原因之一。
无论是用云还是传统托管主机还是自建idc,把重要业务数据仍在单独服务器上而缺少足够的安全措施,出事也是迟早的,只不过恰好这次赶上了小概率的无法恢复的硬盘损坏事件。
否则,外部攻击、软件错误、运维操作失误、普通的磁盘逻辑损坏,都随时能把这家公司自称价值千万的数据一锅端。
根据腾讯云的声明,这公司大半年在服务器上花了3500多块钱,大概也就是1~2台普通2核4g服务器的价格,而且数据库也应该是自己安装的而不是购买的云数据库服务,肯定没有多机热备、读写分离等配置(没那么多服务器),甚至可能连自动备份快照都没做(否则至少能恢复短期数据)。
而如此不上心的运维要么是老板图省钱,要么是运维人员自己都没有起码的安全知识……
据我了解,这种档次的运维水准在国内初创甚至有一定规模的软件企业中比比皆是。
想想也难怪,很多老板连多花点钱雇个靠谱的程序员都肉痛,何况从表面看不出任何成果的运维呢?