中国互联网巨头阿里巴巴,遇到了“小”麻烦。18时左右,杭州、北京、上海、武汉等地用户反映支付宝无法正常使用,消息迅速传遍网络。而支付宝公司对故障的回应,更是引爆网络:杭州萧山某地光纤被挖断,导致故障。
网友们的“吐槽”,充满了网络的特点:“事实证明,在这个世界里,再牛的互联网公司,都干不过蓝翔技校的挖掘机……”“什么互联网+,什么4.0,什么大数据,都顶不住传统行业一铲子”……
5月27日下午, 支付宝 全国范围瘫痪达2.5小时,这件事引发了人们对相关灾备系统的大讨论。业内人士普遍认为,系统故障对数据机构而言实属正常,但这次支付宝故障时间偏长,一定程度反映出第三方支付机构在灾备工作的不善。
支付宝是全球最大的第三方支付机构,2013年实名用户即超过3亿人。阿里巴巴招股书透露,2014财年(截至3月31日),支付宝的总支付金额达到38720亿元,日均支付量已超过百亿,占到中国的第三方支付市场份额70%以上。
瘫痪2.5小时
从5月27日下午5点左右,支付宝出现全国范围的系统瘫痪。淘宝购物、第三方网站付款、支付宝钱包各项功能全部无法使用。用户还纷纷表示客服电话打不通。记者在北京打开支付宝钱包app,弹出提示“网络繁忙,请稍后再试”。
支付宝钱包官微下午6点表示,“由于杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝,运营商蜀黍正在抢修,支付宝攻城狮正在紧急将用户请求引流至其他机房,受影响的用户正在逐步恢复。”
记者询问了广东、西安、上海、四川等全国多地的多名支付宝用户,全部表示无法使用。从记者掌握的情况而言,支付宝故障比其官方描述的“少部分用户无法使用”更严重。
晚上7:30,支付宝钱包再次发布官微表示,之前由于杭州萧山某地光纤被挖断导致部分支付宝用户无法正常使用,目前已经恢复正常服务,欢迎继续使用,如果出现交易信息不同步的情况,会逐步恢复。
从5点到7:30,整个瘫痪过程长达2.5小时,所幸用户资金全都安全。事后有业内人士表示,这种技术障碍是不会危及用户资金安全的,相当于大楼突然断水断电,不等于水电被挪用、消失了。
接近监管部门的有关人士表示,国家有关部门对商业银行规定:中断服务时间超过30分钟,必须报告。中断时间不超过120分钟,为一般安全事件。中断时间不超过240分钟,为重大安全事件。中断时间超过240分钟,为特大安全事件。“以上规定不论原因,支付宝今天中断超过120分钟,为重大安全事件。”有关人士表示,虽然未明确第三方支付机构的相关规定,但对大型支付机构,如支付宝、财富通和银联商务,应视同商业银行管理。
据财新记者了解,在支付宝瘫痪期间,监管机构也相当紧张,密切关注事项发展。
敲响灾备警钟
事发之后,业内人士也有表示理解的。有观点认为,美联储支付系统、股票交易所交易系统、国有商业银行的支付系统也都曾有宕机现象。只要数据不乱、尽快恢复,应没大问题。
国际支付机构人士表示,只要是大型数据机构,或多或少都中过招、宕过机。支付宝的科技系统是很先进的,不能因为这件事就说支付宝系统不稳定。
但业内人士也表示,这件事对整个行业而言,是灾备工作的警钟。“运营维护无小事。”一家商业银行银行网络银行部门人士向财新记者表示,“支付宝这次糗了”。
接近监管机关的人士表示,电缆属于物理基础,即使是阿里云也要靠物理基础,基础出故障,只能说对安全重视程度不够。安全管理的应有之义就是应急处置,各机构应深知安全生产事件(包括自然灾害、“别人”挖断光纤等外部因素)的突发性、严重性,在提及技术体系的先进性时应小心谨慎,谨防出现黑天鹅事件。这次支付宝电缆事故后引流时间这么长,说明安全管理值得加倍重视。
那么,支付机构的灾备系统通常有哪些?国际支付机构人士表示主要有三个方式,即异地容灾、活备份、多运营商网络通道。
其中,“异地容灾”是指服务器集群分散放置在多个中心机房、多个城市、甚至多个大洲。
“活备份”也称“热备份”,就是实时备份、实时切换启用备份的服务器集群。热备份主要是相对于温备份和冷备份,温备份通常不是实时切换至备份服务器。冷备份通常需要人工干预。备份可用于多个不同的层面,从底层的运营商网络通信、安全防护、数据中心内部的网络通信、安全防护、服务器集群、存储到应用层等等各个方面均会有不同程度的备份。
“备份越分布式、越充分、越实时则容灾能力越强,但其采购及运营管理成本也是以数量级上升的。不容易,同业估计都真心不会看笑话、说风凉话。”国际支付机构人士表示。
“多运营商网络通道”是指通过多家运营商数据网络连接。某大行电子银行部人士对财新记者表示,数据传输通常分为两块,一块是机房连接到公用网络再连接到客户的,一块是内部通讯的。目前外界无法判断支付宝的电缆断掉是哪一段。通常而言,这两种数据传输都有线路备份,即通过多家数据运营商连接,无论其中一段中断,可以立刻切换到其他运营商的线路上,所以通常不会因为一条线路断掉而影响对外服务。
除此以外,银行为防止系统瘫痪,还会采取“多数据中心”的灾备模式。以工行为例,工行有两处数据中心,上海是主中心,北京是备份中心,一两分钟就可以从上海切换到北京,所以不会长时间对外暂停服务;中国银联在京沪两地有三个数据中心,随时自动切换。银联对切换速度要求是2分钟;国际卡组织Visa在全球有四个数据中心,切换速度可以快达零秒。
事故原因疑云
尽管对系统故障表示理解,但业内人士普遍认为2.5小时的故障“不应该这么久”。
按照支付宝5月27日傍晚发布的解释,5月27日傍晚因市政施工导致杭州市某地光缆被挖断,导致了支付宝一个主要机房被影响,随后全国部分用户无法使用支付宝。事情发生后第一时间,支付宝工程师紧急将用户请求切换至国内其他机房。但按照常理,一个机房故障,应当立即切到其他机房。原本应当是瞬间完成的工作,却花费2.5小时,这让业内纷纷揣测:支付宝究竟有没有多机房备份?如果有,为什么切换花费这么久?支付宝此次故障是否另有原因?
在此之前,支付宝一直得益于自己的“异地多活”系统。所谓“异地多活”,是指在不同的地方设置多个数据中心,活备份数据。“异地多活,实际可行性没那么强。涉及到数据存储,基本上出了这种事情没人敢切到异地,因为担心异地数据不一致,只有等网络恢复。”业内人士分析道。
“以支付宝的能力,不应该线路中断影响这么久。从目前了解到的信息猜测,支付宝容灾备份方案肯定未做到最充分,但网络通信侧运营商肯定也难辞其咎。经此一役,估计支付宝会进一步加强异地容灾及多运营商网络通道备份。”另一位业内人士表示。
关于这次事故的原因,有商业银行专业人士认为电缆挖断是假,机房故障是真。“5年前,支付宝就实现了同城但机房故障不影响业务,所以这次光纤故障可能只是借口,运营网络背了黑锅。”也有业内人士认为,因为支付宝会有不同运营商随时切换,不可能挖断一条电缆就系统瘫痪。很有可能是因为系统被攻击或宕机。“归根结底是支付宝过于自信,没有建立快速恢复的应急处置机制,应该采取技术人员现场排查、现场研究、现场决策的方式。”
5月27日晚23点,支付宝对切换速度缓慢给出了官方解释。支付宝表示,“我们作为一个金融系统,对切换中数据与资金安全性的要求极高,因此切换速度上没有做到更快。后面我们会不断提升切换速度。但是,这并不代表我们对这次恢复时间是满意的。”展望未来,支付宝表示,光缆被挖断可能并不能完全杜绝,但对于支付宝而言,会继续推进技术的升级改造,继续完善异地多活的系统架构。“未来,即使再次出现光缆被挖断等意外情况,我们进行异地切换时,也尽量做到让用户最小感知甚至无感知。”支付宝表示。
支付宝是全球最大的第三方支付机构,2013年实名用户即超过3亿人。阿里巴巴招股书透露,2014财年(截至3月31日),支付宝的总支付金额达到38720亿元,日均支付量已超过百亿,占到中国的第三方支付市场份额70%以上。