021-53098865

18018650584


《Google SRE 运维解密》第七章Google的自动化系统的演进 Q&A

Q1:Zabbix用的越来越少了,Promitheus会替代吗?告警用什么最合适?
这个要根据你用的系统和应用而言,这个是一些开源软件监控、告警、时间序列的组合,有自身的优点也有一定的缺点。会不会被替代是要看历史和大家应用的情况。告警用什么最合适也是根据系统和应用,没有最佳的一个方案。使用有商用的或是开源的,是根据自身的状况选择。

Q2:产品开发作为过程有没有必要使用apm产品?
Apm主要是应用监控,应用监控我们要在开发过程中考虑到,比方说上线变更之前,系统在生产运行的过程中可能会出现哪些问题,出现问题如何应急进行一些相应的操作。那如何发现这些问题,那一部分我们可以用apm来实现,这个可以和我们测试的时候进行结合,比如说我们目前企业已有的amp产品和新开发的应用能不能有效的结合起来。只要能有效的结合起来帮助业务,那我们在开发和测试的过程中还是有必要纳入进来的。

Q3:对类borg的k8s怎么看?
各有千秋,有那么多的产品能够生存下来肯定是有各自的一些优点。在用到不同的系统发生的事件或者处理情况都是不一样的。

Q4:私有云没有精力自己做监控,有什么开源可以直接上?
其实这个要看公司的资源,如果有人力和财务上的支持这块应该就能做起来。私有云看你怎么建了,像你把它的硬件环境作为我们的IDC或者说我们从云那边租一块它的环境,我们把操作系统、数据库、应用自己搭建。开源工具一般不会直接上,需要做一些相应的配置,定时、监控的方式,针对操作系统、网络、数据库这块相对容易有些公共的,但是应用部分肯定要结合开发的人员做配置,应用在运行的过程中会有哪些问题,如何用开源的工具监控它。用开源的工具去监控应用还是有些缺陷的,它只能把常规的一些问题发现,自己应用里面特有的状态是无法发现的,这就需要开发人员写一个应用状态的解测工具,这样才能实现私有云方面的监控,开源的只能保证通用的这些。