章程瑞东
微软亚洲研究院研发工程师
章程瑞东,微软亚洲研究院系统组(上海)研发工程师,硕士毕业于纽约大学。他主要关注人工智能系统领域,目前的研究方向是大语言模型的稀疏计算和长文本推理,通过系统与算法的联合设计优化大模型的训练、预填充与解码过程。曾参与微软Phi-3系列模型研发,近期工作有长文本推理加速器MInference、上下文窗口拓展算法LongRoPE、分布式LLM服务系统ParrotServe、动态稀疏算子编译器PIT等。
演讲主题
如何在高度并行化的设备上利用大模型的稀疏性进行优化
漫长的训练与推理过程及其带来的高昂算力成本是当前大语言模型推广所面临的主要挑战之一。大量研究显示,大语言模型的计算负荷呈现出高度稀疏化的特点,这为降低算力成本提供了一定契机。然而,以 GPU 为代表的并行计算基础设施在执行稀疏计算时存在明显的效率问题,如何在并行计算设备上实现高效的稀疏计算是一个普遍存在的难题,稀疏计算的需求对传统的算子编程范式和模型编译系统也提出了新的挑战。我们将探讨在高度并行化设备上进行高效稀疏计算的理论模型,并提供一些通过算法与系统的联合设计,利用大语言模型稀疏性进行高效计算的成功案例。 大纲: a)从人工神经网络的稀疏计算负荷到大语言模型时代的稀疏计算需求 b)为张量单元添加稀疏属性以构建端到端的静态稀疏计算框架 - SparTA c)利用等价重排在密集计算单元上实现高效的动态稀疏计算 - PIT d)高效的稀疏计算需要算法与系统的联合设计:以长文本推理的预填充阶段为例 - MInference e)大语言模型稀疏计算的展望:训练、解码和分布式