乐竞体育APP

乐竞体育:产品大神教你如何搭建统一监控平台

  • 产品详情

  ◇ 还有些企业把所有数据比如性能数据、日志数据、事件数据接入大数据的平台,企图应用大数据平台的计算能力来完成统一监控。

  因此,我们邀请到嘉为蓝鲸产品总监苏文老师,为我们讲解建设基于数据的统一平台思路,希望能给有想建设统一监控平台的企业带来一些启发。

  统一监控平台,说到底本质上也是一个监控系统,监控的基本能力是必不可少的,回归到监控的本质,先梳理下整个监控体系。

  而数据采集、数据检测和告警处理是监控的最小闭环,但如果想要真正把监控系统做好,那故障管理闭环、视图管理、监控管理的模块也缺一不可。

  ◇ 跟踪型的系统是通过trace ID请求的过程来进行监控,即APM(应用性能监控)类型的监控,例如Dynatrace、Skywalking等。

  由于三种数据互不兼容,导致数据存储分散,不利于集中分析,而近两年兴起的OpenTelemetry,将三种数据格式的输入和消费实现了统一,但并没有解决存储和分析的问题。

  目前主流解决方案还是将三类数据存储到不同的库中,再封装一层统一的查询层,屏蔽数据存储层的差异,实现集中的分析查询。

  越来越多的客户开始对秒级有一种执念,觉得越快越好,认为越快就能更快发现问题。但是秒级的采集频率的增加,这对目标机器性能的影响也会增加,若因为数据采集导致业务性能本身出现问题,这就本末倒置了。

  而且,随着数据量加倍,存储成倍增加,计算量级指数型增长,带来的成本损耗可能远超秒级监控带来的好处。在真实的应用场景中,大家需要思考使用秒级频率是否值得。这提前十几秒的告警发现,运维人员是否能够在这十几秒的时间内把问题解决掉,如果解决不掉,那秒级监控并没有太大的意义。比如腾讯游戏的业务是以秒来赚钱,所以需要针对关键指标需要做到秒级监控,配合自动伸缩替换故障节点,可以实现秒级恢复。这种情况下的秒级监控必不可少。

  秒级监控是监控系统的一种必备的能力,但并不是所有的指标数据都需要秒级监控,需要挖掘真正的场景需求来判断是否需要这个秒级监控,而不是为了秒级而秒级,白白浪费资源,徒增维护成本。

  其中,Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy实现数据分流。

  数据清洗比如日志数据的清洗,因为日志数据是非结构化的数据,信息密度较低,因此需要从中提取有用的数据。

  很多原始数据不能直接用来判断数据是否产生异常。比如采集的数据是磁盘总量和磁盘使用量,如果要检测磁盘使用率,就需要对现有指标进行一个简单的四则运算,才能得到磁盘使用率。

  无论是固定规则还是机器学习,都会有相应的判断规则,即常见的 =和and/or的组合判断等。

  告警丰富一般是通过规则,联动CMDB、知识库、作业历史记录等数据源,实现告警字段、关联信息的丰富。

  即抑制同样的问题,避免重复告警。常见的抑制方案有防抖抑制、依赖抑制、时间抑制、组合条件抑制、高可用抑制等。

  比如业务访问量升高,其他性能也飙升,这样把这些性能都聚合到一块,那承载业务的主机的CPU、内存、磁盘IO、网络IO等各项性能都会飙升,这样把这些性能指标都聚合到一块,更加便于告警的分析处理。

  一般通过API推送给第三方系统,便于进行后续的事件处理。另外还需要支持自定义渠道扩展(比如企业里有自己的IM系统,可以自行接入)

  通过提取一些特定告警的固化处理流程,实现特定场景的故障自愈,比如磁盘空间告警时把一些无用日志清掉。

  视图管理也属于增值性功能,主要是满足人的心理述求,做到心中有底,面向的角色很多(领导、管理员、值班员等)。

  前5个模块都是监控系统对外提供的服务功能,而监控管理才是面向监控系统自身的管理和控制,关注真正落地的过程的功能呈现。主要有以下几个方面:

  一般来说,企业监控建设的现状主要分成四个阶段:监控工具建设阶段、统一监控建设阶段、智能分析建设阶段、主动防御建设阶段,目前大部分企业都处在第一和第二阶段之间挣扎。

  ◇ 第二个阶段的核心重点在于管理,需要有统一的指标体系和统一的事件管理流程,同时也是为第三个阶段做数据的准备。

  ◇ 第三阶段重点关注的是效率提升,之前要配很多阈值的算法,有了智能检测算法就不需要再每个每个指标配置阈值了。而关联影响分析能够利用机器学习帮助机械能问题定位分析,减少人工定位分析的时间消耗。

  ◇ 第四阶段的核心是预防,提前预测来采取一些措施,去预防相关问题的发生。比如根据磁盘损耗的速率变化趋势,预测1个月后磁盘可能会坏掉,这样提前更换磁盘,将事故消灭在萌芽中。

  由于大部分传统监控系统在建设之初并没有考虑到统一监控,定位都是做一个监控的工具,在建设统一系统时,会面临以下困难和挑战:

  除了需要有灵活的扩展能力,能够广泛适配各种对象的监控数据接入外,还得有统一采集、统一检测、统一告警、统一展示四个基本能力。

  主要考虑各种数据的接入,除了本身Agent和插件的采集接入,还需要支持第三方监控源的数据接入,才能算一个完整的统一监控平台。

  主要考虑监控的基础通用能力,包含数据采集模块、数据存储模块、数据加工模块、数据检测模块、AI分析模块。

  另外,考虑到数据的关联关系,为未来的数据分析打下基础,监控和CMDB也需要紧密联动,所有的监控对象都应该用CMDB进行管理。

  还可以配置驱动监控为指导理念,实现监控的自动上下线,告警通知自动识别负责人等场景,简化监控的维护管理。

  联动CMDB,把CMBD的对象纳入到统一监控平台,并对监控对象的指标进行统一管理。至于如何去梳理构建整个监控指标体系,是接下来第4部分要讲解的内容。

  从企业业务应用的视角出发,一般将企业监控的对象分为6层:基础设施层、硬件设备层、操作系统层、组件服务层、应用性能层、业务运营层。也可以根据企业自己的情况进行调整。

  可以根据实际的业务场景去考虑。通过不同指标的分级、权重,可以建设模型,衡量整个业务的健康情况。

  本次直播主要讲述了四个部分,第一部分讲解了监控体系(采集-检测-告警-故障-视图-管理),第二部分讲解了现状和挑战,第三部分介绍了统一监控平台的产品设计(产品能力和产品架构两个角度),第四部分梳理了指标体系的建设管理(核心是以CMDB为骨架、以监控指标为经脉),保障统一监控平台的顺利落地。

  问:统一监控初期建设的时候,需要对接很多已有监控平台,比如Zabbix、Prometheus、听云、网管neteagle等,这个阶段应该如何对现有监控的纳管呢?

  1、建设CMDB,将所有的监控系统的监控对象和CMDB的对象对齐,为统一监控建设打下基础2、将所有的监控系统的告警事件进行统一管理,联动CMDB进行告警的收敛和影响分析,提升告警处理效率,节省告警处理的时间,释放人力进行后期建设

  3、梳理企业内部的指标管理体系,建立监控的管理规范和流程,将所有的监控系统的性能数据按指标体系接入统一监控平台,注意联动CMDB,实现统一管理和视图

  答:监控系统和告警系统是分开开发的,但是产品设计是统一设计的,两套系统可以直接联动,监控系统的告警事件可以直接推送到告警系统中,并且可以关闭监控系统中原有的告警通知功能,让两边的联动更加友好。且监控系统中和CMDB建立的关联关系,推送到告警系统中之后,CMDB关联关系依旧会保存下来,不必要重复建设关联关系。



上一篇:南大通用GBase DMP实现多类型数据库统一管理 助力企业数字化转型

下一篇:动环监控系统十大品牌(动环监控系统厂家排名)