Salesforce数据库故障丢失5小时数据,仅仅是个案?

前言:前两天,Salesforce.com遭遇电力故障导致宕机,恢复时丢失4小时数据这则新闻的报道不知道你有没有注意:16岁的Salesforce.com刚刚(2016年5月12日)犯了一个不小的错误,太平洋标准时间 (PST)周二早上6:30到周三下午14:30,遭遇了一次由于停电导致的大范围宕机,此次宕机影响了北美的14个站点,影响了湾区的大量用户——湾区历来被称为Salesforce.com的后院,同时,部分北美的用户也受到影响。

那么,它仅仅是一个个案吗?

先来看看Salesforce是个什么公司,云计算企业中的大佬,中国区的网页是这样介绍的:

Salesforce数据库

您的所有销售、服务和营销数据尽在指尖,但是有将近5小时的数据蒸发了,不好意思哈!

Salesforce从1999年到现在,目前Salesforce的数据中心在美国东西海岸,日本,新加坡,都柏林。Salesforce 连续多年在IDC GATNER的评比上成为最具创新企业的第一名。据Celnet雨花石(Salesforce中国区合作伙伴)创始人裘思博(Fledman)介绍,“多租户架构是Salesforce的基础。Cloud database用的是Oracle的数据库以及相关技术。在往上分为3个部分,force.com 平台、heroku、wave。”

整个云数据库用的是Oracle,这个Oracle云数据库是怎么丢的数据呢?

我们来看看国外媒体对salesforce的报道。Eweek.com 5月11日的文章说:

A Salesforce.com database is back up butnot at full capacity. The more than day-long issue left customers frustratedand 5 hours of data permanently lost.

面对众多客户的大量抱怨,CEO Benioff在twitter上道歉:

I am sorry for our service disruption onNA14; please email me ceo@salesforce.com so we can call you.

Salesforce丢失近5个小时客户数据之后并没有更明确的赔偿或补偿,只是留了一个邮箱而已。

据说这次Salesforce发生客户数据丢失主要因数据中心停电造成,在一个大型数据中心的一次大停电之后,Salesforce客户有近5个小时的数据再也找不回来了:

"We have determined that data writtento the NA14 instance between 9:53 UTC and 14:53 UTC on May 10, 2016 could notbe restored."

对于2015年全财年收入53.7亿美元、日事务过13亿的Salesforce来说,数据丢失的影响无疑是巨大的,客户的数据啊。

据了解,造成数据丢失的原因是,宕机后工作人员希望将数据库恢复到5小时以前的状态,但不幸的是,这一操作导致了故障的发生,进而导致了数据丢失。但是,Salesforce.com的用户们没有签署SLA,这也就意味着这样的故障发生,salesforce将不会给予赔偿。当然,这个不是要讨论的重点。

对于使用Oracle数据库的云服务提供商来说,居然没有容灾,而是考虑用备份来恢复,而且还失败,把数据都丢了,这是令我最为惊讶的地方。咱不用谈Oracle公司提供的先进的Exadata、Oracle cloud machine、Zero data loss machine…..,就是传统的解决方案也很多。

Salesforce数据库

方案一:用Oracle GoldenGate(或者同类产品)

Salesforce数据库

我们在全国许多银行、交通、电信运营商已经成功实施、稳定运行5年以上了,最大的库每日单库日志增量1T左右。做好的秘诀是做好变更管控,每个月做切换演练。我知道很多企业做了之后,维护不好,然后数据不一致,最终成为摆设的。

方案二:用Oracle Active Data Guard(11g以后的版本适用)

Salesforce数据库

适用ADG的好处是,不太需要关心源端的变更,而且是物理级别的复制,而且可以适用延迟恢复。事实上,如果条件允许,我们建议最好的容灾方案是ADG+OGG。

这些技术,对于现在的DBA或者说服务公司来说,都是小儿科了。重点的重点是流程,要投入资源保证灾备的可用、可靠:

Salesforce数据库

Salesforce数据库

Salesforce的遭遇显然不是个案,只因为她是云服务商中亭亭玉立(17岁)的一位,知名度大,所以为众人所知。君不见,微信群里经常会出现某某公司又在做非常规恢复了的消息。

文/杨志洪
文章来自/DBAplus社群微信公众号

转载请注明:运维派 » Salesforce数据库故障丢失5小时数据,仅仅是个案?

3
3.7k
0