麻津铭
上海人工智能实验室青年研究员
麻津铭,哈尔滨工业大学学士、硕士,师从陈晓华教授与于奎教授。现为上海人工智能实验室青年研究员,深耕大语言模型(LLM)高性能推理服务与异构通信库技术。其主导研发的实验室异构通信库,已成功应用于千公里级跨域异构智能计算项目,解决了大规模分布式训练中的关键通信挑战。相关研究成果已在DAC、ICPP、IISWC等顶级国际会议上发表论文4篇,并申请发明专利4项。
演讲主题
兼顾灵活性和高效性的异构传输库的设计与实现
在 AI 异构计算场景中,跨架构设备互联的低效性、通信范式与多场景的适配难题,以及传统通信库在高并发、大带宽场景下的性能瓶颈,一直是制约训练与推理效率的核心痛点。上海人工智能实验室开源的 DeepLink DLSlime 通信库,以 “打破异构互联壁垒、释放极致传输性能” 为核心目标,通过统一底层引擎、融合多元通信链路与范式,构建了适配国产异构芯片、兼顾易用性与高性能的解决方案。 DLSlime 支持 RDMA、NVLink、NVShmem 等多类节点内 / 间高速链路,实现 CPU、AMD/NV GPU 及国产计算卡的异构互联,带宽利用率最高超 97%;在性能上,小消息通信时延接近 RDMA 理论下限,大 Batch 高并发场景吞吐量较 NCCL 提升 3 倍、较 NIXL 提升近 1 倍,且已在 LMDeploy 推理框架、千公里跨域训练等核心项目中验证成效。本次汇报将从技术架构、核心优势、性能优化与实践落地四方面,深入解析 DLSlime 如何解决异构训推的通信难题,为全球 C++ 及系统软件领域同行提供高效通信库的设计与优化思路。