毛文安
阿里云操作系统高级技术专家
龙蜥社区系统运维 SIG 和 eBPF 技术探索 SIG 的负责人,具有多年 Linux 操作系统开发及性能调优经验,深耕 Linux 内核社区,专注 eBPF 技术的研究和探索,主要负责领域为阿里云操作系统稳定性和 Linux 网络、I/O等新特性的研究,作为架构师主导完成阿里云操作系统智能运维平台 SysOM 及eBPF的开发平台Coolbpf的设计与实现,为解决疑难的应用和系统抖动、性能劣化等问题打开一片天地。
演讲主题
基于Coolbpf的AI基础设施观测
Continues Profiling作为可观测四大支柱之一,对分析CPU性能瓶颈等问题具有非常大的帮助作用;在AI基础设施观测层面,如果能把CPU和GPU的热点等进行融合分析,将会在一张火焰图上对模型训练和推理过程中的延迟抖动问题进行定界和定位。Coolbpf项目结合开源的多语言profiling技术,探索以lib库的方式提供开源的可观测能力,满足不同场景下对profiling技术的需求,方便集成和二次开发。 大纲: 1. CPU和GPU问题背景分析 2. Coolbpf 多语言profiling技术能力介绍 3. 如何进行AI基础设施可观测