石新飞
阿里巴巴高级技术专家、RTP-LLM项目核心作者
2013年加入阿里,2023开始从事大模型推理研发工作,负责RTP-LLM的调度,分布式架构,推理过程,性能优化等。RTP-LLM是在阿里巴巴内部被广泛使用的推理引擎,支持了包括淘宝、天猫、闲鱼、菜鸟、高德、饿了么、AE、Lazada 等多个部门的大模型推理业务。
演讲主题
RTP-LLM:阿里大模型推理引擎
RTP-LLM是阿里自研的 LLM 推理引擎:高性能的 Kernel,调度,分布式KVCache,以及中央调度节点的优化决策,使它提供了更低的推理时延,和更高的吞吐,在众多LLM场景中得到实际应用与检验。