杨珂
Mooncake核心贡献者、趋境科技技术专家
杨珂是趋境科技技术专家,开源项目Mooncake核心贡献者,清华大学计算机系高性能所博士,本科毕业于北京邮电大学,曾入围2013年ACM-ICPC 世界总决赛,多次在SOSP、ASLPLOS等系统领域顶会发表一作论文,研究领域包括分布式系统、并行计算、AI Infra。
演讲主题
Mooncake:解耦式架构和以存换算,优化大模型推理
Mooncake是面向PD分离而设计、以KVCache为中心的分布式大模型推理架构,从“存更多、传更快、易集成”三重维度加速大模型推理。面对长上下文时代大幅增长的推理成本,Mooncake提出解耦式架构,通过零拷贝传输、多网卡池化与传输链路优化、弹性扩展与高效内存利用等技术,实现了KVCache的高效跨节点传输与共享,在真实业务场景中显著提升了大模型推理性能。这次分享将带大家理解长上下文时代KVCache为何成为大模型推理的核心挑战,以及Mooncake如何突破这一瓶颈,助力大模型推理高效落地。 大纲: 1. 背景介绍:长上下文时代大模型推理的挑战、PD分离架构、KVCache 2. 深入探讨Mooncake的核心技术与系统优化 3. Mooncake与开源大模型推理系统的集成