加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

【2018亚太数据中心峰会】杨志国:应急管理在银行业数据中心的策略与实践

发布时间:2018-05-18 06:14:09 所属栏目:百科 来源:站长网
导读:副标题#e# 在过去的2017年,亚太地区的数据中心市场增速接近15%,领先于全球其他主要地区,与整体经济增长水平保持同步。区域内多元化的经济体发展特征使各国数据中心市场形成了鲜明的差异,以香港、新加坡为代表的成熟市场保持稳定增长,而以印度、印度尼

组织架构,我们有指挥层、执行层、保障层、应急支持小组,这都是重要的关键步骤。外部的支持,有很多产品不是数据中心所运维的,比如买IBM的主机等,这些外线支持很重要,他们也要建立一套整理的支持体系。应急过程中,我们怎么处置是很关键的,我们提出了三大纪律、八项原则,一切行动听指挥,发现问题要马上报,处置问题不推诿。数据中心运维以后要有总的指挥老总,就是说这些大事都要由他完成。八项原则,首查监控、关联变更、回顾历史、以我为因、联动后线、并行处置、恢复优先、信息共享。恢复优先是我非常有心得的,数据中心出现问题,要能解决,解决有什么手段?应急恢复三板斧,很管用。第一条就是重启,很多交易堵塞,重启后释放出来一些资源。当磁盘空间不够,马上找人。还有隔离,因为咱们的主机都是引入方式,把它隔离好系统就会恢复。这样的问题按照我的经验,基本上85%的问题都在三板斧可以解决。

这本书是我自己的,我自己好好看了,这本书我第一次拿到出版物,我自己看的时候觉得确实有道理。

我们要建立基本管理模式,当值经理专职化、事件经理双岗加固、重要敏感日保障、运维培训,搞过数据运维就知道这些点有多重要。

基本管理,建立服务请求关联升级,智能筛选,大量自动运维和智能运维在里面,这些都是采取人和智能分析,这些东西是否要和我们的应急管理匹配,还有沟通机制。我们要建立很多的管理规范,大家知道数据中心有五步走,给大家一个经验,今天的数据中心估计还远远不够,数据中心开发了5个阶段,第一阶段是标准阶段,标准化是一个阶段。标准化完了以后要建立数据中心的流程化,流程化管理,流程之间打通。后面要建立平台化,平台化是数据中心的比较好的飞跃,必须做平台化,所有运维做起来,流动平台、智能化监控平台,配置管理平台等等都是平台化。四是自动化,数据中心大量停留在平台化上面,自动化做得不是非常好。以后我们再实现数据中心的智能化和注册化运维是我们的目标。我们要管理规范、秩序标准等等都告诉大家怎么做运维。

7×24小时制度怎么做的,这些标准怎么定下来的,怎么组织处理的,这些都是很关键的。

还要分级来完善,哪级多长时间,按照级别管理。

应急场所,包括显示和自动化的IP电话、虚拟云桌面都是我们做应急管理的主要场所。

基础设施,监控的场所,应急指挥所,都是我们做应急最主要的场所。

还有测试演练场所、技术分析场所等,这都是必备的。数据中心没有技术分析场所、没有测试演练场所,没有判断应急管理、应急的东西是有效还是无效。

主动性运维、应急预案是相辅相成的方面,它是围绕信息安全程序去进行实施的,萌芽阶段,我们做组织运维,把所有的故障消灭在事件爆发时,通过主动运维以后应该把数据中心的高等级事件和故障挡掉75%到85%,到应急预案以后就已经来不及了。所以说应急预案和主动运维里面有一个CCR的理论,那就是说怎么做大数据的分析,主动运维以后,把问题消灭在部件没有坏。这套理论出来以后,我们认为技术框架比较适合我们数据中心运维的工作。

应急预案,这么多组件都要做应急预案,我们做了1800多个应急预案,应急预案有效,达到95%以上有效。

同时做好应急预案以后,光有流程管理制度方法论还不行,我的观点是把所有应急预案都要平台化,有应急预案平台、有应急协作平台,还有流程平台,流程平台是把所有的事件全都打通了,所有的电子信息,不会进纸制信息。所有的流程都是通过APP到手机上,通过你的办公电脑流程化,把所有的流程打通,不管是事件到服务流程到应急管理的一套流程全部打通,这样快速有序有效去处理所有应急管理问题。工具建设,就是工具化智能化建设不能隔离开来,只有把所有应急管理建立在平台化上,采取自动的手段和智能的手段,才能把应急手段做到最快。以前我们做应急管理是这样的,应急管理的理论执行以后,解决问题平均时间超过50分钟,通过这套理论建立起来以后,我们的时长降低到25分钟之内,降了100%.你的应急管理体系是有效的,大家千万别忘了有效性。应急管理是为了保证数据中心快速有序有效解决它所有问题,这才是我们的关键理论。

5月8-10日在成都召开了一个会议,我在上面讲了银行数据中心数字智能运维转型的问题,也是为了转型,为了应急管理,还是为了快速、有序、有效的解决问题。所以应急管理工作是数据中心最关键的一环,你要活着、要活得更好,必须把这些问题解决好。

把常态应急管理和非常态应急管理结合起来,使事件尽量不转化为突发事件或小事变大事,最大限度化解不和谐因素。应急管理是要持之以恒,不断改进。现在讲了很多智能运维,智能运维的可靠性就是要建立在这些应急管理的基础上,没有这些数据的采集,做应急管理没有效。智能运维就像一个士兵说,大炮只能解决面上问题,解决战斗还是要步兵。真正的精准化运维还是要靠我们的经验和应急管理,没有经验的运维肯定不行。

时间有限,下面还有活动,我在这里不太精讲。那本书里说得很好,好好看一下,对大家会有帮助。谢谢大家!

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读