-
业务部署模式极其灵活:公有云、私有云、混合云
-
业务节点分布极其广泛:很难到为业务提供支撑的XaaS实例的位置
-
调用承载关系极其复杂:微服务间的调用依赖数量相较从前呈指数级爆发
-
生产问题发现不及时:由于系统间服务调用关系不透明,以及传统“总量监控”的模式,造成交易链路中“问题服务”的影响无法快速进行预警与通知,运营监控存在一定滞后性。
-
排查问题工作量大:由于监控手段的限制,以及各系统运行数据标准不统一,生产问题的解决需调用大量“开发”与“运维”资源,且沟通成本较高。
-
解决问题效率低:由于各系统间运行数据没有统一的串联标识,以及记录标准不同,导致无法快速定位“问题服务”。
可观测性
-
指标(Metrics):一种聚合态的数据形式,日常中经常会接触到的 QPS、TP99、TP999 等等都属于Metrics 的范畴,一般是基于统计学原理来进行设计实现的;
-
日志(Logging):广义上的日志由业务请求或者事件触发,记录应用程序的状态信息快照。针对日志数据的统一收集、存储以及解析受诸多因素影响,比如结构化与非结构化的日志处理,往往需要一个高性能的解析器与缓存;
-
调用链(Tracing):起源于SOA技术时代,服务化带来的长调用链,仅仅依靠日志是很难去定位问题的,需要一些措施来进行复杂性补偿。因此它的表现形式比 Metrics 更复杂。
-
在云原生的场景下,虚拟化更加彻底、环境动态性更强。充分利用可观测性实现全链路追踪,以达到业务高可用、满足SLA等要求。
-
通过可视化的方式追踪交易全链路,实现快速发现问题、定位问题、辅助解决问题;以更直观、科学的方式产生并使用对观测数据进行实时监控分析。
-
引入AI的技术来进行自动化的异常发现、定位与修复。
问题与挑战
全链路追踪整体解决方案
适用场景
没有任何监控工具
有少量监控工具
有比较全的工具
运维数据统一管理和智能化
解决方案
-
故障防御阶段:全链路追踪指标规划和观测,指标同时转换为告警阈值,如果故障发生提前预测和告警,可以第一时间处理运维问题;
-
故障发现阶段:告警快速通知到运维团队,
-
分析与解决阶段:基于全链路业务追踪快速故障分析和处理,通过链路追踪和可视化快速分析定位运维问题,做到可度量可观测。
-
复盘和总结阶段:历史数据分析,全链路优化与补充,根因定位分析,业务系统优化建议。
总结
观测数据使用难的问题
-
通过AI算法能力与专家经验结合,实现复杂IT环境下故障快速检测、根因定位、性能优化;
-
识别业务场景关键调用链的全局性能,辅助业务优化;
-
提供可追溯的性能数据,量化运维部门业务价值
观测数据建链难的问题
-
基于运维数据中台的处理能力,将丰富的观测数据进行实时汇聚/处理/存储/分析,构建融合观测数据体系;
-
通过多维拓扑进行全程展示和上下游影响分析。
观测数据接入难的问题
-
多源头:前后端、跨云部署、三方工具等;多数据类型:日志、指标、调用链、网络流量、三方拓扑等;
-
多语言:Java 、Go等;
-
多协议:OpenTracing、OpenTelemetry等;
开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
点击下方地址链接,欢迎大家给 FlyFish 点赞送 Star。参与组件开发,更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址:https://gitee.com/CloudWise/fly-fish
万元现金活动: http://bbs.aiops.cloudwise.com/t/Activity
微信扫描识别下方二维码,备注【飞鱼】加入 AIOps 社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~
Tags: