一线大厂和资深学者,带你一起构建AI基础设施 | ADL168

本期ADL围绕大模型训练推理部署,介绍推理引擎、异构算力、编译优化、检索加速、智能体系统等关键技术,帮助学员理解AI基础设施前沿技术,开阔科研视野,增强实践能力。

CCF学科前沿讲习班
CCF Advanced Disciplines Lectures
CCFADL第168期
主题 AI基础设施
2026年5月22日-24日 北京
本期CCF学科前沿讲习班《AI基础设施》,对支撑大模型训练、推理与部署的AI基础设施最新研究进展及关键技术进行系统性介绍,帮助学员理解AI基础设施的基本概念、主要挑战和解决方法,并通过实际案例了解AI基础设施在大模型规模化落地与产业应用中的实践前景,开阔科研视野,增强实践能力。
本期ADL讲习班邀请到了本领域11位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对AI基础设施在支撑大模型全生命周期管理方面的最新进展进行深入浅出的讲解,为听众展示AI基础设施在算力、数据、平台等环节的研发实践案例,并介绍应对AI基础设施所面临的技术挑战和实践落地的宝贵经验。
学术主任:崔慧敏 中国科学院计算技术研究所/章明星 清华大学
主办单位:中国计算机学会
活动日程:

讲者简介
无问芯穹技术副总裁
简介:李秀红,无问芯穹技术副总裁,在无问芯穹负责大模型推理和MaaS相关技术研发,支撑日均千亿到万亿级别的MaaS业务。本科与博士毕业于北京大学,香港中文大学博士后,研究方向为深度学习系统,曾任职于北京大学、商汤科技,相关研发成果以第一作者或通信作者获得CCF A类会议ASPLOS 2024最佳论文,CCF A类会议PPoPP 2019最佳论文提名。
报告题目:支撑千亿到万亿级别Token流量的大模型推理技术
报告摘要:Agent 技术的应用落地对 MaaS 提出了更高的要求和挑战,其中上下文长度显著提升、工具调用对正确性的更高要求、部署并行模式复杂度高以及稳定性要求严格是工业级大模型推理服务要关注的重要部分。本次演讲我们将会从并行方式对模型部署性能的影响、KV Cache命中率和推理成本、负载均衡、Tool Call和enforcer以及模型快速上下线等维度详细介绍无问芯穹MaaS团队在大模型推理方面的实践和思考。
上海交通大学博士后研究员
简介:刘子汉,上海交通大学博士后研究员,主要从事编译与系统优化相关的研究。相关成果在ASPLOS、HPCA、MICRO、ISCA、TACO等国际顶级会议和期刊上发表论文十余篇。
报告题目:大模型时代检索技术的优化
报告摘要:随着数据规模与模型参数量的持续膨胀,检索技术在大模型应用中的重要性日益凸显。包括检索增强生成、基于检索的稀疏注意力等,其已成为关键基础设施。然而,相较于神经网络模型本身成熟的系统优化,检索技术在性能与关注度上仍明显滞后。本次分享聚焦检索技术在大模型中的典型应用场景,深入探讨在主流GPU平台上的系统性优化路径,涵盖冷热数据分离、光线追踪硬件加速等关键技术,旨在全面提升检索在大模型应用中的实际性能。
上海人工智能实验室青年科学家
简介:张行程,上海人工智能实验室,青年科学家。成果方向覆盖国产AI软硬件技术突破与基础设施建设渗透等,率先实现国产自研训练框架高效适配国产硬件平台、分钟级训练、千卡大规模训练,国产万卡异构混训等。打造DeepLink 人工智能开放计算体系,推动训练芯片的标准化建设,包括评测标准、适配标准等工作。拉通多家主流国产芯片厂商进行标准化适配。
报告题目:DeepLink Next:面向科学发现的下一代算力基础设施
报告摘要:大模型应用正从语言智能、多模态智能迈向科学智能。以智能体应用为代表的新型负载,催生了对算力形态的全新需求。一方面,智能体应用带来的长程推理与多轮对话需求,给硬件架构带来了新的挑战;另一方面,科学发现所依赖的仿真模拟算力,也需要与这些训推任务深度协同,才能更好地支撑科学发现。本次分享将探讨 DeepLink 面向科学智能的下一代算力基础设计,涵盖硬件架构的选型与权衡,以及如何利用大模型自动完成新架构下算子的开发与适配,并通过进化搜索与执行反馈的闭环,实现高性能算子的自动生成。
清程极智联合创始人
简介:唐适之,清程极智联合创始人,清华大学计算机专业博士,负责清程极智并行训练推理框架、算子优化等各类技术研发,代表工作为国产大模型推理引擎“赤兔”。唐适之的主要学术研究领域包括编程语言、异构计算等,代表工作为用于不规则张量程序的 FreeTensor 编程框架。
报告题目:面向异构国产算力的大模型推理引擎
报告摘要:中国的大模型基础设施正朝国产化快速发展,形成了国产算力与海外算力并存、不同国产算力并存的现状。不同算力的指令功能范围、各类计算能力的配比、互联方式等皆有不同,这一异构性意味着许多围绕海外 GPU 形成的软件优化方法不再是最优,围绕不同算力重新进行定制化设计成为必要之举。本次分享将以大模型推理引擎为例,介绍围绕多款国产算力的各自特点所进行的优化,并介绍在推理引擎中有机组合此类不同算力上的不同优化的软件实现。
北京大学副教授
简介:金鑫,北京大学计算机学院长聘副教授、博士生导师。研究领域为系统软件、计算机网络、云计算。获ACM SIGCOMM Rising Star Award、CCF青年科技奖、阿里巴巴达摩院青橙奖、蚂蚁InTech科技奖、USENIX FAST最佳论文奖、USENIX NSDI最佳论文奖等奖项。
报告题目:软件定义的大模型系统
报告摘要:随着大模型技术的快速进步,大模型在各个领域都展现出巨大潜力,成为学术界和工业界都关注的热点方向。大模型参数规模大,其训练和推理需要消耗大量计算、网络和存储资源,高效支持大模型的训练和推理是智算系统的重要问题。本次报告将介绍我们在面向大规模训练和推理的大模型系统方面的近期工作,包括分离式推理、分离式训练、资源池化等大模型系统设计和关键技术,并对大模型系统的未来发展进行展望。
清华大学副教授
简介:清华大学副教授,主要从事内存系统研究,开源项目 Mooncake 和 KTransforemers 发起人。相关成果在 OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议和期刊上发表论文四十余篇,包括 FAST 最佳论文,SIGSOFT 杰出论文,和国内高校首篇 OSDI。曾获得 ChinaSys 新星和优博奖,IEEE TCSC 优博,入选教育部中央高校青年教师科研创新能力支持项目(U40项目)、中国科协青年人才托举计划,科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。
报告题目:以存储为中心的异构大模型智能体推理系统
报告摘要:大模型应用正加速从单次问答向复杂的多轮智能体(Agent)推理演进,这在系统内部催生了一个庞大且动态的“状态生成—状态消费—状态更新”流转闭环。这一关键范式转变,使系统的第一性瓶颈由单纯的“算力”全面转向了“存储与 I/O 效率”,导致传统以 GPU 为中心、存算紧耦合的体系架构日益受困于严峻的“存储资源墙”。
为应对这一挑战,本次分享将提出“以存储为中心、状态特征驱动的存算解耦与多级池化”新架构。通过全局内存共享、多级异构分层以及环境快照池化等机制,系统性地缓解上下文状态(KV Cache),参数状态(Model Weights),以及运行时状态(Execution Environment)三类核心状态当前面临的瓶颈和解决思路。
上海交通大学长聘教轨副教授
简介:上海交通大学计算机学院副教授。入选国家高层次青年人才计划、上海市青年领军人才计划。主持了国家自然科学基金优秀青年基金(海外)、面上项目等。他的主要研究方向是并行计算、大数据系统、机器学习系统,目前专注于大模型高效部署、数据智能分析系统的研究。在数据库据系统与体系结构顶级会议和期刊发表论文三十余篇,担任VLDB、ICDE、EuroSys、SC等顶级会议程序委员会委员。研发的图数据库系统在 LDBC 图数据库基准性能测试中取得世界第一。
报告题目:大模型算子设计与优化:从量化推理到高效训练的系统实践
报告摘要:本报告聚焦大模型系统优化中的基础计算问题,围绕推理与训练两大核心场景,探讨算子级优化如何突破算力与带宽瓶颈。报告将以矩阵计算与注意力机制两类关键算子为切入点,介绍混合精度计算、并行调度与软硬件协同设计等前沿方法,分析体系结构特性与算法设计之间的深度耦合关系。进一步地,报告将讨论大模型时代算子优化的发展趋势,以及面向新型AI芯片与下一代模型架构的研究机遇,为构建高效、可扩展的大模型基础设施提供思考。
月之暗面工程师
简介:李一苇,月之暗面推理系统优化工程师,毕业于清华大学交叉信息研究院。目前在月之暗面负责自研大模型推理框架的核心研发工作,并深度参与核心模型的迭代优化与推理性能攻坚,专注于低延迟推理场景下的系统级性能优化与算力释放。
报告题目:面向低延迟推理场景的巨型内核设计与推理系统协同优化
报告摘要:大模型应用正从聊天机器人向智能体多轮交互加速演进,推理延迟已成为决定交互体验的关键指标,传统高并发推理系统面临严峻挑战。
本次分享将介绍月之暗面在低延迟场景推理的新实践:通过巨型内核(Megakernel)算子融合消除内核启动开销,并与推理系统深度协同设计,显著降低CPU侧调度与数据搬运延迟,从而压缩TPOT(Time-Per-Output-Token)。该方案已在月之暗面自研推理框架落地,实现了低延迟场景下推理速度与稳定性的双重跃升。
北京智源人工智能研究院高级工程师
简介:高级工程师,长期聚焦于智能算力调度平台、AI编译器及AI芯片等关键基础设施的研发与创新。已授权发明专利13篇。凭借在多家头部互联网公司担任技术主管及专家的丰富经历,不仅主导了多项从0到1的核心技术攻关,更成功推动了前沿AI技术在实际业务场景中的规模化落地。
报告题目:面向多语言多芯片的编译器设计—FlagTree
报告摘要:既Triton编程语言之后,2025年出现了包括Tilelang、Gluon、Helion、TLX等面向不同用户需求的多种算子编程语言。算子库随着语言多样性的出现,将产生各种“小、散、多”的新问题,阻碍了国产算力的可用性和易用性。
为解决上述问题,我们研发一套支持多语言多芯片的公共编译器FlagTree,其核心功能是化解多样化的硬件与复杂的算法之间的鸿沟,通过其分层接口和统一中间层,让一套算法代码无需重写,即可以运行高效运行到各种架构的AI芯片上。
中国科学院计算技术研究所高级工程师
简介:刘颖,博士,中国科学院计算技术研究所高级工程师。从事编译技术研究十余年,在编译系统研制方面具有丰富的技术积累和工程经验,主持研制或作为骨干参与研制了多款国产芯片的编译系统。两次入围高性能计算应用领域最高奖Gordon Bell奖,成果发表在ASLPOS、SC、TPDS、CGO、PACT等高水平国际期刊和会议上。
报告题目:编译技术在AI软件栈中的实践分享
报告摘要:充分的发挥芯片的性能是编译器长久以来的追求,并在AI时代显得更加重要。本报告将汇报一系列结合AI编译和传统编译的优化技术,探索如何利用跨越多个层次的编译优化技术构建高效的针对AI应用的基础设施。
清华大学/启元实验室 助理研究员
简介:王豪杰,清华大学计算机系/启元实验室智能计算系统研究中心助理研究员,主要研究方向包括人工智能系统、高性能计算等,相关成果发表于OSDI、ATC、PPoPP、SC、PLDI、TC、TPDS等领域内顶级国际会议和期刊。曾获清华大学优秀博士学位论文、北京市优秀毕业生、清华大学“水木学者”、清华大学优秀博士后、ACM SIGHPC China优博奖等荣誉,获国家自然科学基金青年科学基金等项目资助,入选北京市青年人才托举工程。
报告题目:面向国产异构算力的统一智能计算软件栈探索与实践
报告摘要:大当前国产异构算力快速发展,但基础软件仍面临生态碎片化、适配成本高、性能优化不足和系统协同能力弱等挑战,难以有效支撑模型运行与规模化应用需求。本报告围绕九源统一智能计算软件栈的发展思路,系统介绍面向异构算力的统一编程、统一优化与协同执行等关键技术,分析基础软件体系构建面临的核心问题,探讨通过统一适配与深度优化提升国产算力利用效率、推动跨平台迁移和生态协同发展的技术路径,并展望智能计算软件体系未来的发展趋势与研究前沿。
学术主任
中国科学院计算技术研究所研究员,博士生导师,中科加禾创始人,任中科院计算所编译与编程实验室主任。曾主持过多项自然科学基金、973项目、科技部重点研发计划等国家级科研项目与课题,是2030新一代人工智能某编程项目的首席科学家。发表包括ASLPOS、MICRO、PLDI、PPoPP、OSDI、SC、TOCS、TPDS、TACO、CGO等编译和系统领域的顶级国际会议和期刊论文60余篇。
清华大学副教授,主要从事内存系统研究,开源项目 Mooncake 和 KTransforemers 发起人。相关成果在 OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议和期刊上发表论文四十余篇,包括 FAST 最佳论文,SIGSOFT 杰出论文,和国内高校首篇 OSDI。曾获得 ChinaSys 新星和优博奖,IEEE TCSC 优博,入选教育部中央高校青年教师科研创新能力支持项目(U40项目)、中国科协青年人才托举计划,科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。
时间:2025年5月22-24日
地址:北京•中国科学院计算技术研究所四层报告厅
报名须知:
1、报名费:CCF学生会员2400元,CCF专业会员2800元,非会员学生3000元,非会员专业人员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到北京现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。)
2、报名截止日期:2026年5月20日。报名请预留不会拦截外部邮件的邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱adl@ccf.org.cn。
3、咨询邮箱 : adl@ccf.org.cn
缴费方式:
在报名系统中在线缴费或者通过银行转账:
银行转账(支持网银、支付宝):
开户行:招商银行股份有限公司北京海淀科技金融支行
户名:中国计算机学会
账号:110943026510701
报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。
报名方式:
请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:

2、复制以下链接到浏览器报名:
https://conf.ccf.org.cn/ADL168
推荐阅读




点击“阅读原文”,立即报名。













