融云「北极星」数据监控平台:数据可视通晓全局,精准分析定位问题
近期,融云“北极星”数据系统完成功能迭代,新模块“数据监控平台”正式“履新上任”。关注【融云全球互联网通信云】了解更多
此前,“北极星”系统主要为客户提供 IM 和 RTC 业务问题排查服务,当应用出现用户连接中断或延迟、会话状态异常、消息丢失等问题时,开发者可自行通过“北极星”问题排查工具快速定位问题、解决问题。
本次上新完成后,“北极星”成为兼具问题排查和全局监控能力的业务助手。“数据监控平台”将通过 IM 数据监控、API 监控等能力,协助客户全面掌握业务表现,提前发现业务问题,降低业务运行风险。
目前,“数据监控平台”已对融云专有云客户免费开放,后续将不断迭代并覆盖更多客户业务。
产品生命周期管理 主要挑战
在融云等专业通信云服务商的支持下,开发一款具备 IM 和 RTC 通信能力的应用,或者让应用拥有社交能力已十分便捷。
特别是,随着融云对社交泛娱乐业务场景的深入研究,各类封装完整业务逻辑和核心能力的场景化 SDK 逐渐上线,开发者简单接入即可实现相应业务。
但一款应用上线,一切才刚刚开始。
根据融云《社交泛娱乐出海作战地图》,产品全生命周期至少包括 MVP、PMF、快速成长期、成熟期等几大阶段,而每个阶段都有必须解决和优化的核心问题,需要付出相当的精力和资金。
在这个周期中,开发者需要边思考、边变通、边优化,而数据就是最直观感受业务表现的工具。
IM 相关数据量级巨大,如何更好地统计、分析、利用这些数据,协助开发者进行运营策略决策、业务系统优化是一个重要课题。
另一个让开发者头疼的问题是,在后期的持续运营中如何保证产品的稳定性和良好体验。
这涉及两方面因素,一是通信服务的稳定性,在这方面融云近些年不断迭代全球通信服务,目前已经上线了全球通信网的 V4 版本,SDK 适配全球 3000+ 款机型,设备崩溃率低于 0.01%。
二则关乎运行故障发生后的迅速排查、定位和解决。尤其在高并发、大集群的状态下,快速定位问题是提高 SDK 使用效率和体验的关键。
开发者若自行构建相关监控平台,不仅耗费人力和管理成本,还需要付出不低的存储及算力成本。
融云“北极星”则可以一并为开发者解决以上问题。
北极星数据监控平台 核心功能
使用融云“北极星”,可以方便地获取多维度数据,通过数据曲线观察业务变化,与运营策略等相结合,指引产品优化和运营策略调整,有效提高开发者问题排查和业务分析的效率和体验。
全局消息数据
可查看近 7 天的单聊、群聊、聊天室、超级群的消息相关数据,包含:
☑ 总消息量:上行总消息量、分发总消息量、下行总消息量
☑ 消息峰值:上行消息峰值、分发消息峰值、下行消息峰值
☑ 消息量变化趋势:数据统计为 5 分钟粒度,可查看上行、分发、消息量趋势;每 5 分钟的消息量为该 5 分钟产生的消息总量
消息数据为实时统计,数据延迟 5 分钟左右。
用户同时在线数据
可查看近 7 天的用户同时在线峰值趋势,用户同时在线为实时统计,数据延迟 5 分钟左右。
数据统计为 1 分钟粒度,每 5 分钟一个点,图表展示该 5 分钟的 1 分钟粒度峰值。
通过这些业务数据监控,开发者可感知到各会话类型、各时段的消息量,可查看每日用户同时在线分布趋势,从而为运营策略调整提供指引。
API 实时统计
API 实时统计页面可查看近 7 天内实际调用 API 的 QPS 情况,协助研发及运维进行服务优化并感知业务当前并发情况。
如下图示,左侧展示该 Appkey 在当前检索的时间段内有实际调用的所有 Server API 及该接口的请求成功率。
点击某个对应 API,展示该接口在当前查询时段的 QPS 及错误码分布。
图表中会标注接口当前在融云开发者后台设定的频率值,当 QPS 有频繁超过设定频率的情况时,开发者可以在开发者后台调整对应接口的调用频率。
错误码统计
可查看过去 7 天的 Server API 的错误码占比情况,包含 HTTP 错误码占比及业务状态错误码占比统计。
错误码统计数据非实时统计,每日统计一次,无法查询当天的 API 错误码分布。
点击饼图中某个错误码,可查看产生该错误码的具体 Server API。
点击某个 Server API ,可下钻分析该 API 产生对应错误码的时间分布情况。
请求量统计
可查看过去 7 天,有实际调用的 Server API 的每日请求量统计数据。
请求量统计数据非实时统计,每日统计一次,无法查询当天的 API 请求量统计数据。
全局可视、全面监控,融云“北极星”为开发者的业务发展和调整提供数据支撑,助力开发者优化产品表现,保持竞争力,提升用户体验。