免费领取大会全套PPT    

点此领取

立即报名

黄石柱

腾讯云智能资深专家与研发架构师

黄石柱,腾讯云智能资深专家与研发架构师,从AI应用到底层AI Infra都有着丰富的实战经验,孵化与建设腾讯多个大中型项目。主导TencentOS、语音助手、对话机器人技术研发,支持腾讯多个产品线落地AI技术;深度优化与加固企点客服、企点营销云、TI平台系统架构; 从0到1,孵化与建设腾讯云智能体平台并深度赋能行业伙伴,2024年曾在上海电机工程学会学术年会上进行AI技术的专场分享;深度支持腾讯云大模型多个技术方案的设计与优化,2025年在DeepSeek推理加速上取得处于行业第一梯队的实质性进展。

演讲主题

高性价比DeepSeek推理:性能优化的核心方法与实践

本次分享从Deepseek推理的全链路视角出发,结合对Deepseek R1 模型核心架构的深入解析和“看清楚、避免浪费、提升利用率、节约资源”的指导思想,在严苛的SLA约束下(首字延迟<2秒,单token延迟<50ms),展开介绍如何通过精细化的性能分析、针对性的推理架构与框架优化、通信优化、算子优化、高效的资源管理方案,大幅提升Deepseek的推理性能,以满足业务对成本的苛刻要求。这套方法论已在多个项目中成功应用,具有极强的复用性和普适性,能帮助其他大模型在不同芯片上尽快实现高性价比推理。 大纲: (一)看清楚: 模型架构与推理流程 硬件资源与瓶颈分析 (二)避免浪费: CPU+GPU Overlap 算子融合 (三)提升资源利用率: PD分离 PD分离负载均衡 PD分离通信优化 DP并行 EP并行 MTP优化 (四)节约资源 量化 算子优化-稀疏注意力 KV Cache store (五)展望未来

© boolan.com 博览 版权所有

沪ICP备15014563号

沪公网安备31011502003949号