首页 理论教育规范运维秘笈:揭示六脉神剑的实效

规范运维秘笈:揭示六脉神剑的实效

【摘要】:经过多年的金融行业数据库运维服务经验,我们总结了六个步骤,帮助规范化运维有序有效落地,简称“六脉神剑”。第二“剑”,变更管理。据统计,70%的IT故障是人为引起的,而人为故障基本上都是变更导致的故障。“堵”是通过应用上线前的压力测试阶段将不符合规则要求的物理模型和SQL语句识别并由开发优化调整完毕才可以上线;“疏”则是通过对生产在线环境的物理表、索引和SQL语句进行定期探测,并进行优化改造。

作为一个初创金融企业或者一个运维主管新到一个金融企业,应该怎样做好规范化运维呢?经过多年的金融行业数据库运维服务经验,我们总结了六个步骤,帮助规范化运维有序有效落地,简称“六脉神剑”。

第一“剑”,监控管理。监控和告警可以说是数据库运维的第一课,做好监控管理,可以做到问题及时发现、及时处理,做得更好的,还可以做到故障预警。但监控管理不好做,绝大多数企业的监控指标不是做得太少,而是做得太多。做好监控管理有三个要点:准确、全面、及时。所谓准确就是做一个就有效一个,决不能类似的告警搞很多个,看起来花里胡哨,但告警发出来,却不能引起数据库管理员的注意;所谓全面是要细挖可能需要补增的监控点,点与点之间做到互斥性;再谈到及时是针对告警平台而言,随着互联网技术的发展,企业IT架构越来越复杂,每天产生海量监控数据,监控平台能够秒级将监控告警信息及时发出才能真正起到作用。

第二“剑”,变更管理。据统计,70%的IT故障是人为引起的,而人为故障基本上都是变更导致的故障。落实变更管理,变更操作方案化,变更步骤原子化,降低人为影响,不仅能提高工作效率,提升运维质量,还能提高运维人员的满意度。做好变更管理有四个要点:

(1)做好环境管控。不允许绕开4A登录,不允许不经过堡垒机跳转登录,隔离生产环境和开发测试环境。

(2)变更授权审计。所有变更必须通过审批,定期审计变更日志。

(3)变更自动化。变更原子化,能自动完成的变更加入例行作业排除人为干预。

(4)变更窗口管控。确定可变更窗口,非窗口期严禁执行常规变更,变更要按计划执行,提前或延后需提交审批。(www.chuimin.cn)

第三“剑”,故障管理。故障是一定会发生的,但故障是有方法进行管理的。故障管理包含六个环节:故障预防、快速定位、快速处理、原因分析、监控预警、应急预案。故障预防主要依靠主动预防式检查和趋势分析预测;快速定位需要依赖于常见问题标准分析流程、常见问题自动定位脚本、关联告警分析;快速处理首先要本着先恢复业务再修复根本问题的原则,形成各种故障快速处理准则;原因分析是要彻查每次故障发生根源,不让相同的故障多次产生相同的影响,需要提前部署收集主机、网络、存储、数据库、中间件等各方运行数据及日志,跨专业整体协调进行分析;监控预警是根据故障根源分析,对同类系统进行预查或打补丁,并将先发现的原子监控指标加入监控管理列表;应急预案是根据故障彻查分析情况,形成故障方案并进行故障处理模拟和演练,以防类似故障再次发生时,减少或规避对生产业务造成影响。

第四“剑”,备份管理。在大谈业务连续性管理的今天,其实很多金融企业还没有做好高可用管理,甚至是最基本的数据库备份管理。备份是数据库管理员的最后命脉,备份管理的核心是定期的数据库恢复演练,确保数据在需要的时候能够按时、按要求恢复出来为业务提供服务。做好备份管理之后,可以继续做容灾管理或应急管理,以及更高级别的业务连续性管理。这几类管理一脉相承的逻辑,是定期的“真实”演练,有计划的、频繁的演练才能保证业务连续性方案在需要的时候真正起作用。

第五“剑”,健康管理。数据库基线是健康管理的基础,从对象基线、安全基线、配置基线、性能基线、容量入手,定期分析数据库健康状况,并对异常情况专题分析,避免系统病入膏肓再切入处理。

第六“剑”,性能管理。越是重要越是繁忙的系统才越会被关注到性能问题。从以往的经验表明,数据库性能问题80%以上跟数据架构相关,其中包括物理模型和SQL语句。数据库性能管理一方面是堵,一方面是疏。“堵”是通过应用上线前的压力测试阶段将不符合规则要求的物理模型和SQL语句识别并由开发优化调整完毕才可以上线;“疏”则是通过对生产在线环境的物理表、索引和SQL语句进行定期探测,并进行优化改造。

通过对数据库的监控管理、变更管理、备份管理、故障管理、健康管理和性能管理,可以确保机房故障、人为故障发生时,数据库快速切换转移,继续对外提供服务。