免费领取大会全套PPT    

点此领取

立即报名

黄石柱

腾讯云智能资深专家与研发架构师

黄石柱,腾讯云智能资深专家与研发架构师,从AI应用到底层AI Infra都有着丰富的实战经验,孵化与建设腾讯多个大中型项目。主导TencentOS、语音助手、对话机器人技术研发,支持腾讯多个产品线落地AI技术;深度优化与加固企点客服、企点营销云、TI平台系统架构; 从0到1,孵化与建设腾讯云智能体平台并深度赋能行业伙伴,2024年曾在上海电机工程学会学术年会上进行AI技术的专场分享;深度支持腾讯云大模型多个技术方案的设计与优化,2025年在DeepSeek推理加速上取得处于行业第一梯队的实质性进展。

演讲主题

高性价比DeepSeek推理:性能优化的核心方法与实践

随着DeepSeek系列模型的爆火,其在为各类业务场景注入强大能力的同时,也因其庞大的参数量与创新结构,对推理性能与极致的成本控制提出了新的挑战。尤其在算力资源受限的芯片环境中,实现超高性价比的推理愈发困难。本次分享从Deepseek推理的全链路视角出发,在SLA约束下(首字延迟<2秒,单token延迟<50ms),从硬件算力分析、Timeline分析、系列算子优化、推理框架优化、并行策略选择与优化、分布式推理架构建设以及通信优化等几个方面展开介绍如何把Deepseek推理性能大幅提升,以满足业务对成本的苛刻要求。这套方法具有一定的复用性,能帮助其他大模型在不同芯片上尽快实现高性价比推理,目前已经在多个项目中运用。 大纲: 硬件算力分析 Timeline分析 核心算子优化 模型压缩 框架优化 并行策略 分布式推理 通信优化 方法总结与展望

© boolan.com 博览 版权所有

沪ICP备15014563号

沪公网安备31011502003949号