调度和客户团队盲目飞行,直到夜间批次着陆。我们将运输和异常事件连接到流管道和操作仪表板,以便团队可以在货物仍在移动时采取行动。
我们是如何解决这个问题的
流拓扑
Kafka 主题按规模进行分区,并针对连接、窗口和迟到事件进行流处理。
SLA 驱动的监控
与 SLO 相关的新鲜度和滞后警报;记录了随叫随到的 DLQ 处理和重放路径。
运营型商业智能
针对枢纽和线路的角色特定视图,无需离开运营工具即可深入了解有问题的线路。
我们交付了什么
- 基于 Kafka 的运输事件流处理摄取
- 具有与新鲜度 SLO 相关的警报的运营 BI
- 用于滞后、积压和 DLQ 的可观察性仪表板
- 用于重播和部分失败的事件操作手册
结果
对于关键车道,几分钟即可获得洞察,而不是第二天批量
调度、CS 和工程之间共享词汇
同一事件结构上的 ETA 和异常模型的基础
代表栈
KafkaFlinkClickHouseGrafanaKubernetes
