刘强
腾讯大数据软硬件协同技术专家
CCF分布式计算与系统专业会员。在大数据和软硬件协同领域超过15年相关经验,在存储、计算加速器和性能评估等领域拥有多项授权专利。曾就职于亚马逊、华为、Marvell、Freescale等知名公司。作为公司异构硬件引入相关方,参与内外部NPU/DPU芯片的性能评估、业务定制化需求、规模化落地等工作。通过统一的异构硬件接入抽象层,将不同NPU厂商的运行时接口、计算和存储资源抽象,统一到天穹大数据硬件底座,对上层业务/算法等做到硬件差异无感知,缩短了异构硬件上线周期、降低了开发难度。
演讲主题
NPU性能优化、评估和实践
在NPU规格定义和架构探索阶段,通过深度学习框架(Pytorch/TensorFlow)中成熟的Trace和Metrics等采样信息构建基于timeline的CPU、GPU和分布式通信的执行路径,结合厂商仿真出的不同算子的workload的执行时间预测NPU的端到端训练性能,弥补互联网企业在早期评估NPU性能出现的偏差和评测手段不足的问题。 通过对NPU计算和存储资源的抽象,屏蔽了不同NPU厂商微架构的实现差异,并探索了基于编译方式实现的硬件抽象的路径。 大纲: NPU厂商发展的现状 性能评估对互联网厂商的重要性 我们在NPU性能评估中采用的方法论 基于NPU微架构的性能评估模型的构建 异构化算力落地的难点 我们在异构计算卡适配过程中的实践 实际效果总结