少数派万国数据:数据中心的「有限规则」与「无限游戏」

2021-07-21 13:59:00 来源:钛媒体APP

“世上至少有两种游戏,一种可称为有限游戏,另一种称为无限游戏,有限游戏以取胜为目的,而无限游戏以延续游戏为目的。”——《有限与无限的游戏》

2019年万国数据关于数据中心运营的讨论会上,这样的表述第一次和数据中心业务产生交集。

彼时疫情还未发生,万国数据也未在港交所二次上市,数据中心还没得到新基建概念的加持,在数据中心这一略显偏门的领域,能把运营讲透的人少之又少。

微信图片_20210721133217

万国数据高级副总裁梁艳

万国数据高级副总裁梁艳一定是其中之一,她负责万国数据中心设计与运营管理,搭建数据中心运营系统和管理平台,截至2021年第一季度末,万国数据在京津冀地区、长三角地区、粤港澳大湾区及西南等地区部署了70座自建数据中心,运营中的总机房面积近33.3万平方米。

“运营为什么难——设计其实是有限规则,0与1都是固定的,但是运营是无限规则,万国数据运营团队有一个人今天上班心情不好,跟老婆吵架了,晚上打盹了,他一失手做的事情都可以让万国数据面临灾难,所以运营它是无限规则。”

深刻且直白,梁艳的话到今天依然适用。不同的是,相比于她刚接手设计团队时,理论悬而未落,本次钛媒体App再次来到万国上海六号数据中心,见到了理论具现化之后的产品与体系,万国数据将其命名为“GOCC全球运营指挥中心”。

主业与副业

“美国第三方IDC(Internet Data Center,互联网数据中心)已经有20年的积累,而中国才起步6-7年,现在中国每年的增量大概是美国的3倍,有望在未来10年内赶超美国的体量。”,梁艳感慨道。相对应地,中国数据中心运营体系的建设时间表也被大大压缩。

万国数据超过700家的客户中,包括大型国有银行及商业银行、国内外顶尖的金融服务机构、大型知名跨国公司、地方政府、电信与 IT 服务商,以及国内互联网与云计算及各垂直行业的领军企业,关乎国计民生,任何一点疏漏都可能成为热搜新闻。

“可能很多人认为,干运维的就是在公司里价值比较低,不出事,大家都不知道我们的重要性,出了事,老板才意识到我们的重要性,但是在万国数据不是这样”,梁艳说道。

运营岗位对其他数据中心来说是副业,是为了保障主营业务的稳定运行,而对于万国数据来说,运营就是主业,出发点不同导致了万国数据运营体系全盘皆不同。

高可用、高安全、高效率、高满意度是万国数据运营的四个基本目标,在梁艳看来,做运营是一次长跑,不是一次性工程,飞机飞上天还能下来休息一会儿,万国数据只要数据中心一旦上电,就始终处于空中航行状态,所有的应急指挥、维修、调度等等全部都要在空中完成。

“看不到,听不到,靠电话,靠老师傅”,是数据中心运营长久存在的弊端,当故障无法定位时,只能一点一点的凭经验去试,大部分数据中心还停留在传统阶段。

“这个行业没有那么多老师傅,那个时候我们就坚定要研发系统,做到辅助决策”,梁艳表示。“管理即系统,系统即管理,没有系统的管理很难做到不走偏,GOCC创始团队一代一代的迭代,研发系统跟着管理系统一直升级,才有了今天GOCC的雏形”。

今天的万国数据已经进入到“造飞机”的领域,因为行业里已有产品不能百分百满足万国数据运营的场景需求,运营反向推动设计和研发,或者只有在万国数据才能发生,“不合理”逻辑的背后存在着必然。

GOCC的诞生

据了解,万国数据历经近十年研发GOCC,对标百年历史民航体系,能够应对环境灾难、疫情等在内的外部突发类事件,保障环境安全、人员安全,算算时间,GOCC的诞生就是万国数据新运营体系的起点。

微信图片_20210721135527

万国数据GOCC核心区

2020年疫情突如其来,为万国数据带来了现实的考验,也进一步完善了万国数据运营体系。此外,考虑到未来数据中心规模的持续增大,万国数据将数据中心整体架构进行了立体化的分化,构建起全球运营指挥中心(GOCC)、区域运营指挥中心(ROCC) 和单座数据中心(DCU)的三道防线。

● GOCC(Global Operation Command Center) :强风控、全球支持——离岸集中监控、风险预判和危机管控、跨国资源协调;

● ROCC(Regional Operation Command Center) :强监护、强调度——集中监护和技术支持、应急指挥和资源调度、资格认证和授权中枢;

● DCU(Data Center Unit) :强操作、强应急——快速恢复、快速维护、现场服务。

“我们公司是业界少有的团队结构——一家做数据中心IDC的运营团队可以养研发团队。”梁艳表示。“我们这支研发团队一直独立存在,这也是我们的坚持,其他都可以拿走,研发团队不能走,因为研发承载的是未来智能化、数字化、平台化所有的梦想。”

数据中心的运营是一套软硬一体的建设方法论,数字化工具需要传感器、控制器等作为触角,继而形成标准化的流程平台,向上承载,向下打穿,完成信息的流转,实现数据中心未来的自动驾驶。

钛媒体App了解到,在万国数据全国数据中心内的600多万个有效监控测点内,每月实时处理并存储3000+亿条监测数据。万国数据还会对这些数据进行大数据规则运算以输出实时指令和业务预警,其中部分数据会直接用于人工智能监督学习以及自动控制和故障预测。

通过定义并建立不同的功能模型,将人的经验和大数据分析结果融入到系统中,万国数据横向实现了设计、建设、接维、运营、服务全生命周期业务的数据联通,真正利用软件来驱动人员、运营和业务,并以此方式连接整个产业链,形成更加高效、优质的数据中心交付及服务生态。 

运营在规则,更在于人

比起万国数据建立的运营体系,其如何构建起对标航空行业的“机长制”,是一个更值得行业关注的话题。

在万国数据内部,产品、设计、建设、采购、运营、服务各部门关注的焦点都不一样,万国数据董事长兼首席执行官黄伟下定决心做了一个颇为大胆的决定,把设计跟运营合并,因为这两个部门与技术强相关,合并以后,运营部门和设计部门人员互相轮岗。正如让“开飞机”的人亲自去“造飞机”一样,轮岗后“造飞机”的人能够把每个场景融入到飞机设计中。

“原来设计与运营不能充分沟通理解,运营觉得设计方案不便维护,可扩展性差等等,但当运营人员到设计部门轮岗一年,回来完全变了样,为了提高一点空间效率,运营人员宁愿麻烦。”梁艳十分满意组织打通之后的效果。

反之,设计部门比运营部门还紧张运维,从设计角度不只考虑一层故障,甚至要确保两重三重故障后,数据中心还能稳定运营。

自2016年开始,万国数据就将人才招聘不止局限在数据中心行业,核电、油田、银行、航空、运营商、BAT等等不同背景都是万国数据的目标,万国数据有意将人才背景分散化,如此做的理由是什么?

梁艳介绍,当时万国数据明显感觉到,因为数据中心规模、体量的扩大,整个团队的技术能力跟管理能力,包括系统的承载能力已经不能达到万国数据诉求。

数据中心规则触碰到天花板,万国数据关心的是怎么样把数据中心方法论建制突破到更高的标准。靠万国数据或者数据中心行业的背景,即便是巨头也有行业局限性。

“我们一定要海纳百川,比如核电是怎么管安全的,自动化程度比数据中心高得多,航空公司飞机起飞前是如何检查配件的……所有他们的规则,都是万国数据和数据中心行业最需要的养分,去构建我们真正庞大的系统。”梁艳道出其中奥秘。

决策者(机长)、指挥官(塔台或TACC)、观察员(机务或安全员),这些航空岗位已经成为万国数据的内部岗位。“我们把运营的标准对标航空公司,这就是我们对于运营的理念和信仰。”梁艳自信地表示。

在幢幢数据中心内服务器的轰鸣声中,万国数据谙熟“运营在规则、更在于人”的道理。

(本文首发钛媒体App 作者 | 张帅)