免费领取大会全套PPT    

点击领取

我要参会

叶帆

腾讯云异构AI研发负责人

叶帆博士一直以来专攻AI Infrastructure并深耕异构计算领域。于法国原子能署获得博士学位后赴硅谷英伟达负责CUDA研发,同时也是TensorRT的创始开创者之一。其后设计并从零开发了PAI-Blade,并广泛赋能众多行业,横跨电商、CV、NLP、ASR等多个领域。目前,叶帆在腾讯云带领异构计算研发团队打造了腾讯智算中的AI加速引擎TACO,包括TACO-Train、TACO-Infer、TACO-LLM等。团队的另一个杰作qGPU也凭借业内领先的GPU虚拟化技术帮助了众多集团内外客户拓展GPU算力,实现极致效益。

演讲主题

LLM关键性能设计及业务实战

TACO-LLM是腾讯云自研的大语言模型推理引擎。经过集团内外部包括微信、代码助手、智能客服、弹幕审核、文档摘要等多个业务场景的打磨,及研发团队极具创新性的独特加速技术的加持,TACO-LLM从并行解码、Prefill优化、量化、长序列等多个方向发力,已基本实现对LLM全应用场景的覆盖,相比社区SOTA性能普遍加速1.5x-3x不等,获得业务的高度认可。本专题将揭开TACO-LLM优秀性能背后的秘密,着重从高性能算子设计的角度来一窥TACO的自研技术。我们将介绍未经公开的Turbo Attention及量化场景下的低精度算子实践。 大纲: 1. LLM训练的挑战及机会 2. LLM推理的技术原理和性能瓶颈 3. LLM推理技术演进 4. TACO-LLM技术解密 5. TACO性能之旅:头部行业案例