免费领取大会全套PPT    

点击领取

我要参会

姜慧强

微软亚洲研究院研发工程师

姜慧强,微软亚洲研究院系统组(上海)研发工程师,毕业于北京大学。他的研究主要集中在软件系统结合的高效推理和训练方法上,包括动态稀疏注意力(MInference, RetrievalAttention)、提示压缩(LLMLingua)、KV缓存压缩、推测性解码、模型压缩、稀疏推理(PIT)、神经架构搜索和高效调优,特别是在大型语言模型上。他在NeruIPS,ACL,EMNLP,  ICCV 等顶会上发表过数十篇论文,并作为审稿人和AC服务于社区。

演讲主题

如何在高度并行化的设备上利用大模型的稀疏性进行优化

漫长的训练与推理过程及其带来的高昂算力成本是当前大语言模型推广所面临的主要挑战之一。大量研究显示,大语言模型的计算负荷呈现出高度稀疏化的特点,这为降低算力成本提供了一定契机。然而,以 GPU 为代表的并行计算基础设施在执行稀疏计算时存在明显的效率问题,如何在并行计算设备上实现高效的稀疏计算是一个普遍存在的难题,稀疏计算的需求对传统的算子编程范式和模型编译系统也提出了新的挑战。我们将探讨在高度并行化设备上进行高效稀疏计算的理论模型,并提供一些通过算法与系统的联合设计,利用大语言模型稀疏性进行高效计算的成功案例。 大纲: a)从人工神经网络的稀疏计算负荷到大语言模型时代的稀疏计算需求 b)为张量单元添加稀疏属性以构建端到端的静态稀疏计算框架 - SparTA c)利用等价重排在密集计算单元上实现高效的动态稀疏计算 - PIT d)高效的稀疏计算需要算法与系统的联合设计:以长文本推理的预填充阶段为例 - MInference e)大语言模型稀疏计算的展望:训练、解码和分布式