为什么饿了么、滴滴、找钢网同时选择了这家云计算公司?
ZStack案例分享
都是互联网公司,实力都很强,尽管在很多人看来互联网公司爱尝试,对新技术敏感,但真正到选择的时候,它们比谁都要求严格。毕竟IT技术尤其是基础平台技术于互联网公司的重要性远超过其它行业,再加上互联网公司业务发展极快,这使得它们对稳定性、扩展性、维护性等方面的要求都极高。
那问题来了,一家创业公司为什么能赢得如此多大互联网公司的信任,它有哪些过人之处?在采访了饿了么、滴滴、找钢网的相关负责人后,我找到了答案,大致可以总结为四个原因。
一、互联网公司的核心在于业务,而不是基础平台,这意味着其并不希望投入太多资源在IaaS平台的构建、维护上,而是愿意将更多精力聚焦业务,以及与业务紧密相关的PaaS层。
何以见得?
以美国Netflix为例,在线影片租赁商,大型互联网公司,云计算鼻祖级用户,其从2008年开始就没有再新增任何自己的数据中心容量,并逐步将所有业务迁移至AWS公有云之上,自己的精力重点放在构建PaaS层上。
反观国内大型互联网公司,虽然出于成本、可控性、安全性等方面的考虑,其中大多数还选择自建IaaS,但由于IaaS并非核心业务,也不愿投太多人力到IaaS的建设和运维中。这也是饿了么、滴滴、找钢网选择ZStack的第一个重要原因,简单、易用。
饿了么CTO张雪峰在接受采访时表示:“当初选型时,我们比较了市面上大部分解决方案,发现有的功能缺失,有的方案极其复杂、整体ROI不高,ZStack则不同,我们只投入了一个人的研发力量,就把这套系统成功建了起来。”
滴滴基础平台架构部负责人沈金缇也表示,他们有多个数据中心,随着规模的扩张,如何高效的管理基础设施变得越来越复杂,在比较了OpenStack和ZStack后,选择了ZStack,因为后者设计更加精巧,稳定性和扩展性都不错,上手比较容易。
找钢网技术保障中心总监彭海平更是认为,OpenStack太重,技术复杂,完全掌控的成本过高,很难在短时间内实现从非生产到生产环境的全面推广。他还特别指出,对于他们这样的产业互联网公司,最大的痛点并不是资源的快速弹性伸缩,而是简单方便的构建、使用云平台,在此基础上再谈资源利用率的提升、应用环境的快速交付,以及和自动化运维平台的对接等。
其实,确实如几位受访者所言,OpenStack过于复杂。无独有偶,笔者日前在采访一位使用OpenStack平台的金融客户时,也谈到了这一问题,他表示最大的难点在于复杂性,比如升级问题就很困扰他们,至今用的还是最初安装的OpenStack版本。这意味着他们必须直面已知的安全漏洞和问题,而且时间越长,面临的风险越大,后期升级的成本和复杂性也越高。
二、互联网公司都是7x24小时业务运行,这要求平台必须足够稳定,不能出任何问题。
关于系统稳定性、可靠性对于互联网公司业务的影响想必不用多言了,前些天微信的一次偶发故障,让很多朋友之间无法正常沟通,同时由于支付、钱包功能故障,很多生意无法正常进行。这样的例子不胜枚举,我们今天的生活与互联网已经密不可分。
为了尽可能提高平台可靠性,ZStack在产品设计之初就将管控面和数据面完全分开,这样即便在ZStack本身控制节点宕机的情况下,也不会影响用户业务,虚拟机、网络、存储都能照常使用。而且由于采用无状态服务设计,计算节点、存储节点、网络节点都不保存任何状态,只要管理节点的数据库存在,任何节点状态配置损坏后,ZStack都能快速从数据库重新计算它的状态并推送恢复。这也是饿了么、滴滴等选择ZStack的第二个重要因素:稳定、可靠。
2016年上海GITC大会期间,饿了么相关负责人就谈到:“ZStack管理平台和生产环境完全解耦式的设计,就算ZStack平台都挂了,线上的服务也不会受任何影响(新部署虚拟机除外),而且只要数据库在,几分钟就能恢复并重新搭一套系统。”其实这还不是最值得骄傲的,据饿了么高级运维总监徐巍介绍,ZStack生产系统上线一年半,至今未发生过任何事故。
对此,彭海平也表示:“ZStack有很好的风险控制,可实现虚拟化平台和ZStack服务完全解耦。在数据修复方面方便快捷,就算其发生灾难性故障,也不会影响到宿主机服务器的正常工作。”
三、互联网公司业务发展快,平台扩张也快,这要求IaaS平台必须要有管理超大规模数据中心的能力。
无疑,互联网公司极其看重这一点,即使其初始只有几十台服务器,但很可能用不了几年就会扩展到数千、甚至数万台。想当初有谁会想到饿了么、滴滴短短几年会发展到如此规模,举个例子,饿了么的硬件设备规模从2015年到现在,三年时间翻了10倍。这是他们选择ZStack的第三个原因,扩展能力强。
ZStack官网宣传其单管理节点可以管理1万台物理机规模,多个管理节点构建的集群可以做到使用一个数据库、一套消息总线管理10万台物理机、数百万个虚拟机节点、并发处理数万个API。
据悉,作为目前最大规模的ZStack客户,饿了么单个集群就管理超过1800台物理机,而且该集群每个月还在不断的扩容。整个饿了么超过6000节点使用ZStack进行管理。
找钢网虽未透露具体物理机规模,但彭海平表示,目前ZStack在找钢网管理了超过5000台虚拟机,到年底这个规模会超过10000台虚拟机。
滴滴由于今年才开始测试上线ZStack,规模相对较小,目前在500台左右,但沈金提表示:“滴滴只选择了ZStack一个平台做IaaS管控系统,未来的集群规模有可能超过一万台物理机。”
四、互联网公司追求效率,能自动完成的绝对不要手动,因此底层平台对业务的API支持就显得格外重要了。
ZStack从诞生的第一天起就提倡零手工配置,全API交付。从实际情况来看,ZStack拥有完整的API,即便是添加物理资源(例如添加物理机、存储节点、网络节点)都可以通过API完成。
而目前市面上,大多数云平台只有管理虚拟资源的API,添加物理资源往往需要手动操作或者写脚本配置。这是饿了么等选择ZStack的第四个重要原因,全自动化API交付,效率高。
对此,徐巍和彭海平都谈到了ZStack平台与自身自动化运维系统的对接,通过API,很容易就能实现。
滴滴则讲述了ZStack平台与其SDN网络对接的故事。沈金缇表示,ZStack在设计方面突出了资源抽象,代码结构非常合理,扩展开发十分方便。比如他们在SDN系统整合时只用了3周时间就上线了,这在过去是不能想象的。
至此,我们能明白为什么饿了么、滴滴、找钢网都不约而同的选择了ZStack。云计算的到来本来是一个做减法的时代,但现在的很多产品却是在做加法,越来越重、越来越复杂,与用户需求背道而驰,未来堪忧。而ZStack之所以在短短两年就取得今天的成就是因为其更能理解客户的需求。
凭借对市场的洞察,坚持产品化思路,以及不断进行技术创新,ZStack正在赢得越来越多先进互联网用户的信赖。比如互联网领域做金融风控的同盾科技也是ZStack的客户,其生产环境当前已经有数百台物理机稳定运行超过一年多时间。
ZStack官网解释其名称的含义:”我们之所以叫ZStack,因为我们希望就像Z是26个字母中的最后一个,ZStack也能成为这个行业为了构建一个易用,稳定,灵活的IaaS软件的最后一次努力。”这个愿景似乎正在快速实现。