TECH2IPO/创见

「 新生活 新科技 新零售」

投稿
京ICP备14046667号

云灾备:不让企业灾备变成「灾难」

到 2020 年,90% 的容灾操作会发生在云端。

「灾备系统曾经一度是我的灾难。」连续创业者李海青对创见记者讲了两个他的故事。

灾难的故事 1

7年前,李海青辞去在国内兴起第一波移动互联网创业潮时辞去工作决定创业,租了一套民房做起当时很流行的所谓 O2O 项目,然而就在产品刚推出市场两个月后发生了意外,放置服务器的房间顶部的水管由于年久失修在半夜爆裂,等到第二天上班发现该房间已成水帘洞。由于服务器进水,芯片内部短路导致主板烧毁,其中四块硬盘浸水近十个小时,由于盘腔进水导致数据库全部丢失,几个月来的辛苦成功毁于一旦。

虽然硬盘及时送修,专业的数据修复公司成功恢复了 95% 以上的数据,但恢复数据和业务的时间过长,辛辛苦苦拉到的几万名用户因长时间无法使用产品而纷纷放弃,导致项目不得不宣告失败,团队士气严重受损。

李海青的遭遇只是千千万万企业事故中很小的一个,却也非常典型。但如果这种事情发生在大公司,极有可能演变成灭顶之灾。美国德克萨斯州大学奥斯丁分校较早的一次调查显示:「只有 6% 的公司可以在数据丢失后生存下来、43% 的公司会彻底关门、51% 的公司会在两年之内消失。」另一份针对这一课题的研究报告也显示:在灾难之后,如果无法在 14 天内恢复信息作业,75% 的公司业务会完全停顿,20% 的企业在两年之内被迫宣告破产。美国明尼苏达大学的研究也表明,在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过 60% 在两到三年后退出市场。而随着企业对数据处理依赖程度的递增,该比例还有逐渐上升的趋势。

不久后,李海青和他的伙伴开始了第二次创业,痛定思痛,他决定建立自己的灾备系统,然而他却此也为此差点付出巨大的代价。

众所周知,灾备是挽救企业发生数据危机时的最有效机制。但是,造价昂贵还是企业最大的痛点,很多中小企业没有更多的资金和人员投入到灾备中心的建设与运维。所以,长久以来,灾备一直是大型企业的专有名词。公司 CTO 也劝告他一个初创公司从刚开始就建立灾备系统很罕见,等业务做大到需要建立灾备的时候也不迟,现在做对于公司财政是不小的负担。

灾难的故事 2

公司 CFO 也加入到说服放弃的行列,他给李海青算了一笔账,如果选择自建或者和电信公司、IDC 合作建立灾备机房,需要购买备份服务器,备份存储,专业备份软件,以一台备份服务器 5 万,备份存储 5 万,备份软件 4 万来计算就需要一次性投入 14 万元。 如果硬件和软件授权过保,那么花费的金额就更可怕了。

光买软硬件还不够,还需要配备专业的灾备运维人员,路由器、交换机、负载均衡、小型机/X86服务器、SAN/NAS等存储设备的运维人员,光专业运维人员的成本一年可能就需要 20 万元以上。

但想起之前的经历再加上此次创业项目的数据敏感性,李海青还是咬牙做了灾备。李海清认为,公司做灾备就像是人买保险,花费虽然贵但保的是一时平安。公司在初创时就做灾备就好像年轻人买健康意外险,看起来要花一大笔钱还没什么用,但谁又能保证年轻人真的不出事呢。

「很多公司的领导层都明白数据的重要性,但仅停留在口头上。当面对数据安全的巨大花费,却会往往想着说『应该没什么问题吧』,『我不会那么倒霉吧』,『我花了这么多钱在技术上怎么会出问题呢』,然后就随便糊弄一下,仿佛灾备这件事情就像把手机照片备份在云盘那么简单方便。往往是出事之后才深刻体会到了平时『保险』的重要性。」李海青说。

但随着公司业务逐渐做大,数据量已经是指数级增长,IT 系统成本剧增,灾备规模也相应增加。由于公司还没有盈利,天使资金已经捉襟见肘,李海青感受到了很大的压力,为了让公司活下去他不得不准备放弃灾备系统。还好及时到来的 A 轮融资让他们渡过了最难熬的时间,也保住了灾备系统。

「现在回想起来,对初创期的中小企业来说,传统的灾备方案真的一点都不友好,而提供灾备解决方案的公司也大多青睐于利润更高的大企业。大家都明白数据的重要性和灾备的必要性,但无奈成本太高。要不是时来运转,这险些要了我的命。」李海青对创见记者说。

阿里云技术战略总监陈绪总结了传统灾备方案,概括来说就是「两高一低」:高成本,高浪费,低利用率。当用户机房有数据,备份机房有数据的时候,其实只用了 20%,在用户机房这部分有余量是可以理解的,因为数据会增加。但是备份机房大部分时间是用不上的,只要数据量在涨,备份也必须涨。

另外,主机房和容灾机房,如果主机房的业务涨了,双活机房也要涨,双活机房和主机房花的钱也是一样的,其实企业用不上,所有的企业都不想出问题。但如果不出问题,领导说这钱不是白花了,百分之百花了,还浪费了一倍的钱。从 CFO 的角度来讲,我花了这么多钱就是为了买一个保险,但需要花百分之百的钱吗?

云计算解救灾备灾难

云灾备的出现则让 CEO、CFO 和 CTO/CIO 在灾备话题上的争论终止。

所谓云灾备就是将本地数据备份到云计算云存储平台。云灾备指的不仅仅是传统的数据存储和定时复制,而是包括了数据实时传输,迁移,应用切换,保证灾备端应急接管业务应用等范畴。随着云计算的日渐成熟,高额的灾备实施成本和复杂的业务管理两个制约灾备发展的门槛迅速降低,云计算带来了 IT 资源投入的下降,利用云计算强大的计算能力和按需付费的使用等特征,企业灾备所需的费用也迅速下降。

据统计,现在云上灾备成本相对传统线下节省 50%,完全省去灾备机房的建设规划,大幅节约建设成本与软硬件运维成本。

有预测显示,目前全球数据量以每两年翻一番的速度增长,到 2020 年全世界需要管理的数据将达到 40ZB(1ZB 约为 1000 亿 TB)。云存储的发展将进一步刺激云灾备的发展。Gartner 预计,到 2020 年,90% 的容灾操作会发生在云端。

实际上在李海青为灾备烦恼的 14-15 年就已经有云灾备的概念了,但由于传统厂商技术高,方案全,产品多时至今日依旧占据这主导地位,不少云计算厂商也对此投入不多。虽然有专攻于云灾备的创业公司,但因受制于能力,不仅在市场教育方面进度缓慢,也无法得到客户完全的信赖。直到 2017 年阿里云在国内率先推出混合云灾备解决方案,这个市场才有了转折的迹象。

陈续认为云灾备的方案更加像一个保险,能够以极低的价钱达到百分之百达到传统灾备和数据保存的效果,云灾备甚至还有很多传统灾备方案做不了的事情。

恢复不再是灾难

然而对于「数据千万条,安全第一条」的企业来说,做灾备系统的成本虽然重要但并不是核心,不管是采用哪种灾备方式,关键是在发生灾难的时候如何把损失降到最小,本地和云端切换后数据的完整性、有效性和是否可以平滑切换等问题,要确保灾备切换有效性和业务连续性的最基本保障。

保证业务的连续性和数据的完整性是评价灾备方案是否优秀的主要指标,也就是 RTO 和 PRO,前者代表了需要多长时间才能把恢复,后者则代表了数据恢复的完整程度。另外还有一个是容灾的级别,最好的容灾是不会让终端用户感受到有灾难发生。

以 5 月 29 日阿里云在北京发布了新一代企业级云灾备解决方案为例,该方案为制造、金融、医疗等企业提供一键容灾能力,例如业务恢复、数据保护和网络自愈,最大程度保护本地和云上业务稳定运行。

在传统的灾备方案下,数据的恢复是以「天级」和「小时级」来计算的。而阿里云的企业级灾备方案有快速恢复的能力,如果购买的保险的级别足够高(如 C款 50 个保护节点,64TB 数据存储,存量 20TB),那么就可以实现对整个业务对数据全面的秒级恢复,就是让客户感受不到出现问题。

运维也不再是灾难

也有客户曾担忧公共云的灾备体系不够完整,在混合云和专有云的情况下会出现本地和云端存在不兼容的情况,本地的容灾系统部署成功后无法做到对公有云的监控和运维。另外还存在着云和端响应速度的不协调,一般云厂商对遵循产品和服务的快速发布和迭代能力,而传统厂商至今无法做到,这也让很多客户失去了在第一时间升级并享受新功能的机会。当然也存在着云和云之间,系统和系统之间无法兼容和协调的问题。

现在阿里云的容灾体系已经能够给用户提供完备的容灾方案,该方案采用了国内首个磁盘级数据持续复制技术,同时支持混合云和跨云的多平台融合架构,从而解决客户本地数据到云的混合云灾备场景和云与云之间的跨云灾备(多云灾备)场景所遇到的问题。另外阿里云对目前市场上主流的数据库都能够进行完全高效的灾备备份,并实现多种数据源与标准IDC数据库的互通。

其次,云灾备还有传统灾备所做不到的是在灾难发生后数据机房内的自动热迁移,它是一个无缝、平滑的,不停机的,以及智能的迁移,它不会出现在灾难发生后,运维人员还堵在路上无法操作的情况。甚至可以自动检测可能会出现的问题,最大程度地避免人为灾难的发生。用陈续博士的话讲就是「自动驾驶」。

例如,在部署容灾方案时,企业 IDC 和阿里云之间可以智能接入网关 (SAG) 以专线或者互联网方式互通;通过数据传输服务 (DTS) 在云上构建 IDC 数据库的灾备实例,实现业务的热迁移,最终对不同类型的业务实现快速业务切换和数据恢复。

云灾备可以做到为企业提供在线升级的能力,在付费后能够享受到服务内容和品质的提升。同时由于云厂商的技术演进带来的成本降低为企业享受技术普惠带来的好处。而不会出现传统灾备带来的「CEO/CFO/CIO 经典矛盾」:运维做好没成就,领导觉得务必要,不出问题就浪费,出了问题得背锅。

运维的自动化不仅可以让企业节省成本,也可以把运维人员真正解放出来放在最关键的地方。

据悉阿里云还推出「先行者计划」,免费提供 10 万台智能接入网关设备,让更多企业像使用互联网一样,便捷、低成本、安全地使用灾备服务,保证业务永续。

最后,云灾备有着传统灾备无法具备的弹性。本地灾备体系投入巨大但缺乏弹性,而云灾备是最细颗粒度灾备,负载是最低的。在业务运营中,云灾备上不是满负荷,而是最小负荷,一旦出了问题,云的弹性就会显现出来,负载会冲到客户和客户需要的同样档次的计算和网络。该用的时候用,不该用的时候不用,灾备的时候是不影响业务,客户也感知不到出了灾难事故。

为什么阿里云可以做到

阿里云的企业级灾备解决方案为企业提供五大能力:用户数据中心和公共云的相互容灾;业务不停机,完成容灾演练;首个云原生支持弹性容灾,只需部署最低负载;一键容灾快速恢复,RTO、RPO可达秒级;完善的数据加密体系,保证数据的极致安全。

该方案在国内的云灾备产品中是独一无二的,阿里云之所以能做到也离不开阿里巴巴 20 年来的技术积累经验。从最开始从文件的备份,U 盘备份,机器之间到机器之间的备份,机房的备份,一直到现在云灾备的概念。

陈续博士认为,阿里云是最佳实践的云,也就是说解决方案在阿里内部使用并逐渐成熟后才会对外发布。

第一,阿里巴巴扎实的机房建设能力。阿里巴巴在北京地区有两个大的数据机房,一个在北京,一个在张北为为冬奥云准备的冬奥云。冬奥云是阿里巴巴第一次自主研发的绿色数据机房,这个数据机房采用多种容灾灾备的模式,它的供电模式也非常先进,能源消耗的节省模式也非常先进,POE 值达到了1.07,极致是 1,是一个绿色的机房。该机房实现的是高标准的基础设施不断电、不断网,历史运营的可行性以是 5 个 A,第一是不断电,第二是骨干网络高可用性,第三是 3+N 的介入 BGP,保证客户在数据传输的过程中不至于被网络困扰。

数据机房有着超强容灾能力,是云服务器本身的能力。在一个物理的区域里面,数据还可以百分之百的恢复,业务能够在秒级重新启动。

第二、阿里巴巴飞天系统的盘古存储引擎。阿里巴巴和清华大学在存储技术上做了一些基础研究,让盘古的存储引擎做得更加的稳固。数据保护本身,一个是高可用性,一个是 IDC 的基础设施。

同时支持多赋能,数据本身要得到极致的保护,就是多灾备几份,可靠性越多越好,但是同时要考虑性价比的问题,阿里云采用先进的算法,不需要花十倍的钱,就能达到十倍的冗余效果。再加上三个可用区灾备的概念,加到三个可用区的时候,数据可用性能得到保障。

第三、IDC 的基础设施,阿里巴巴拥有自己设计、规划、建设绿色、节能 IDC 机房的能力。两地三中心的部署和数据的保护,都能够得到完全的保障。

最后,阿里云企业级云灾备是完全符合「四个不」极限的原则。第一个,不在同一个火山地震带。第二,不在同一水系,把出现水灾。第三,不在从一电网,在自然灾害面前,有时候电网有时候也会断。不在同一个运营商的网络出口。

*出于采访对象对隐私保护的强烈要求,「李海青」为化名





评论于站点 回复 评论 删除 隐藏

评论于站点 回复 删除 隐藏