加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

【2018亚太数据中心峰会】杨志国:应急管理在银行业数据中心的策略与实践

发布时间:2018-05-18 06:14:09 所属栏目:百科 来源:站长网
导读:副标题#e# 在过去的2017年,亚太地区的数据中心市场增速接近15%,领先于全球其他主要地区,与整体经济增长水平保持同步。区域内多元化的经济体发展特征使各国数据中心市场形成了鲜明的差异,以香港、新加坡为代表的成熟市场保持稳定增长,而以印度、印度尼
副标题[/!--empirenews.page--]

在过去的2017年,亚太地区的数据中心市场增速接近15%,领先于全球其他主要地区,与整体经济增长水平保持同步。区域内多元化的经济体发展特征使各国数据中心市场形成了鲜明的差异,以香港、新加坡为代表的成熟市场保持稳定增长,而以印度、印度尼西亚、为代表的新兴市场则呈现出强劲的增长动力。

2018年5月15日-17日,由中国IDC年度大典组委会主办,中国IDC圈、CloudBest承办的"2018亚太数据中心峰会"在深圳盛大召开。

5月17日,"2018亚太数据中心峰会"正式召开,中国银行数据中心副总经理 杨志国在现场进行《应急管理在银行业数据中心的策略与实践》精彩分享。

283516075719232663

中国银行数据中心副总经理 杨志国

以下为演讲实录:

杨志国:在座的各位朋友们好。今天正好有这么一个和大家交流的机会。在座的可能都是IT界的领导或者专家,我今天正好给大家分享一个经验,银行数据中心怎么运维,刚才讲了很多智能化和人工智能最前沿的技术理论和大家有些分享。我们有两条路要走:一是传统银行怎么运维,我们要赶上智能化、数字化运维。做智能运维没有错,但是不能落地,不能落地就飘在空间。现在做了很多数据中心,但是怎么运维确实是摆在我们面前的一个难题。现在IDC发展很快,但是我们也有血的教训,现在一些IDC投入运营以后,很多IDC会宕机、火灾,包括运行过程中动作不规范、方法不对头,造成整个数据中心的宕机。比如2015年有一家IDC在零件进行更换的时候,造成所有系统宕机。这带来很大的调整。数据中心怎么运维是我们要考虑的问题。

现在数据中心的特点有这么多(见PPT),据我统计,数据中心现在有43万个,小到10平米的数据中心,大到10万平米的数据中心都有了。数据中心怎么运维?它的规模很大,大家都知道,一般我们衡量数据中心多大不是看面积有多大,面积不能算,而是看交易量有多少。现在我们国家的超大数据中心很大,以前每天的交易量是3亿笔,现在已经到6亿笔,中国已经成为第二大经济体,大,就说明业务发展快,业务的量也大。现在一般的银行,工农中建这样的银行的交易量都达到6亿笔左右,大家算一下每秒有多少笔。这样的银行就是超大数据中心。比如德意志银行,我和他们交流过,他们的交易量是2-3亿笔,中国的工商银行、建设银行、农业银行、中国银行的交易量都超过6亿笔,高的时候达到10亿笔以上。你要保证它每天、每秒的交易不中断,对我们银行是一个挑战。

银行业的数据中心面临很大的趋势,特别是新兴业务的发展,必须要去做一些改变。有传统银行,我们也有新兴银行,互联网业务发展很快,给银行的数据中心运维带来很大的挑战。我们一直强调数据中心,首先是当CIO或者CEO,你要考虑你的数据中心是活的,不能是死的。如何活着?如何活得更好?下面有些解释。左边要活着,右边要活得更好。应急管理,我们的策略在左边。我在书里面,可能今天结束以后有一个奖励,会奖励一本书,是我刚刚出的书,是《应急管理在银行数据中心的策略与实践》,前年也有出一本书,里面有很多难点的问题。为什么体现效率和效益?银行也有一个运维总成本,我们叫TOC,也讲究效率,没有效率的运维是不行的。你作为银行要安全、稳定、可靠,这是你的基本条件,你怎么做到安全、怎么做到稳定可靠?比如你是2+N模式。快速、有序、有效,怎么做到?银行交易达到6亿笔,你停1秒,损失多少交易量?来了故障或者事件,怎么做到有序、有效解决问题,这是我们合作的基本条件。你作为数据中心的老大,这点都做不到,那就没有办法做到老大。这么多数据中心,怎么做好运维?数据中心不光是花钱,现在绿色数据中心,自动化运维,就是体现效率和效益。这个方针是我数据中心35年的心得。

我们还有一个心得,作为数据中心,我们要建立制度,他们说制度要不要?肯定要,制度管人,制度是死的,人是活的,制度不执行,同时要流程分责,流程中分责,各个流通打通,包括配置管理,这些流程必须在每个环节都有分责任,分完责任有角色定位,角色定位好了以后有标准做事,所有数据中心都有标准,有事件监控的标准,按照标准做事,加上自动化的工具,这是数据中心管理的体系。今天我讲的应急管理也是其中一个方面。

数据的基本概要、管理、要求。结合这样的情况,我们怎么做应急管理?这本如果有运气的,前面50本可以拿到,没有的就去网上购买。应急管理的重要性,这不是数据中心的实例(见PPT)。今天的市场瞬息万变,911事件之后,有一家银行做了很好的应急,有些银行没有做应急,就破产了。应急管理是速度快、范围泛、影响大,应对要求高等特点。这是数据中心的应急管理。

为什么讲这本书?这是我运营35年的经营,把精华提出来,给大家方法论的帮助。对象是银行数据中心的管理者、管理人员、技术人员,包括进行研究的人员。我们怎么去提升大家管理的意识,日常管理的工具和方法,这是很重要的东西。书分了11章,最重要的有几章,特别是第七章,主动性维护,还有应急场景与预案,还有处置及启动,这些章节都是很重要的,大家可以看一下。

数据中心应急管什么?基础设施、系统、外部、其他操作和网络攻击,这是我们要管的东西。我们怎么管?我们是以目标为导向,去创新构建管理体系,推进落地咨询。这是我们的管理策略。它管理的目标是哪些?总共6个字,快速、有序、有效,这是做应急管理的精髓,怎么做到快速、有序、有效?有效是说预设应急预案的有效性,我在银行做了1800多个预案,涉及到基础环境、设备、网络、系统、应用等方面有1800多个预案,这些预案必须做到有效,我们做预案的条件是说,比如UPS坏了,坏了之后有预案,这个预案要有效,不能摸脑袋。现在运行过程中我们往往是摸脑袋,不能没有预案,没有把预案做梳理。网络现在的带宽是99.9受到堵塞,不能对外进行系统交易,怎么办?你一步、二步、三步清洗。我们做的预案是有效的。然后有序,现在岗位是制度化的,内部协作是流程化的。发生事件以后,发生30分钟的连接故障要上报,我们都要在30分钟内,RPO在30分钟内恢复交易,所以你要做分析、判断以后要快速、有序、有效。

应急管理框架,怎么做应急管理,应急管理的框架,包括前面的预案到应急演练到应急响应、应急处置到分析根据和人员等,制度规范、标准等方面全部都是应急管理的精髓。管理框架,管理思路是什么东西?事前、事中、事后,必须强调事前、事中、事后的控制措施。第七章主动性运维很关键,主动性运维是把所有的事件通过全面的分析,故障还没有发生,要把故障消灭在之前。重启动作是我们消灭很多故障的手段,要进行大数据日志的分析,判断部件是否失效是很关键的。最高理论是主动性遵循运维的理论,说实在的我提了多少年,作为数据运维必须要主动运维做这个东西,那就是说在事前要做,事中要快速有效,事后得出经验,不断的优化应急预案。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读