开云kaiyun登录入口登录APP下载比如是否能在几毫秒内得到反应-开云kaiyun登录入口登录APP下载(中国)官方网站 IOS/Android通用版下载安装

2025 年开始,全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 告示 5000 亿好意思元的「星际之门」绸缪,Meta 在建界限超 130 万 GPU 的数据中心时,这个来自中国的团队冲破了大模子武备竞赛的既定逻辑:用 2048 张 H800 GPU,两个月谨慎出了一个忘形全球顶尖水平的模子。
这一突破不仅撼动了万亿市值,更激勉了统共这个词行业的反念念:在通往 AGI 的征途上,咱们是否过于盲信算力界限,而冷漠了一条愈加求实且充满创新可能的旅途?
与 2023 年「更大即更好」的马虎发展不雅不同,2025 年 AI 发展或将更像是一场审时度势的技能真金不怕火金:怎样用最少的资源最大化模子效力,如安在特定场景罢了极致效率。DeepSeek 依然展现出这种方式的威力——开发者老是倾向于遴选性价比更高的开源有议论,当数不胜数的应用都以 DeepSeek 为基座,由此构建的生态将怎样重塑 AI 产业花式?
本期《智者访谈》邀请到清华大学规划机系长聘教授、高性能规划筹备所长处翟季冬,深入探讨大模子期间的 AI 算力优化之说念。翟季冬教授指出,DeepSeek 罢了百倍性价比栽种的一个进军原因,是其在系统软件层面的深度创新。
「性能优化是一个无尽头的经过,」翟季冬教授默示,在中国濒临算力资源挑战的布景下,通过系统软件创新栽种算力效力,是产业解围的要道。这不仅需要在编程讲话、编译器、通讯库、编程框架等多个技能层面发力,更需要建立起齐备的基础软件体系。
当下,一个值得深念念的欢畅是:尽管 AI 算力需求捏续攀升,但国内繁多智算中心的国产算力资源却存在闲置。供需错配的背后,暴炫耀基础软件体系的短板。
但窘境也蕴含着进军机遇:怎样买通从应用到系统软件,再到自主芯片的齐备链路,探索出一条适应中国现实的发展旅途?这不仅是技能创新,更是政策抉择。
在算力主导 AI 竞争力的期间,怎样让每一份规划资源都能开释最大价值,这个问题自己,与谜底相通进军。
视频贯穿:https://mp.weixin.qq.com/s/Elby5usJVFjEHU45MNDYWA
时期戳
03:35
DeepSeek 与算力需求翌日趋势
06:41
算力效力评估新视角
10:26
中好意思硬件各别下的软件念念考
14:00
为何还没 Transformer 专用芯片
17:41
万卡集群谨慎难点
21:01
降本增效:推理优化的要道
24:41
Infra 怎样为下一代大模子作念好准备
27:19
大界限异构集群的算力管理
29:42
智算供需错配:系统软件怎样补位
访谈翰墨整理
机器之心:翟季冬教授好,迎接作客机器之心的《智者访谈》。最近在 AI 算力市集出现了好多新的趋势。着手,全球磋议相配多的,Scaling Law 是不是真撞墙了?其次,跟着 OpenAI o1/o3 模子的推出,通过加多推理规划时期也大略带来模子性能的显耀栽种,这也让咱们重新念念考,究竟要把算力用在那边。
不错看到,怎样栽种算力的运用效率,成为业界越来越关注的议题。相配舒畅能邀请到您,与咱们一同从系统软件的角度探讨算力优化之说念。
DeepSeek 的启发:性能优化永无尽头
翟季冬:谢谢主捏东说念主。相配庆幸来到机器之心作念交流。Dr. Ilya Sutskever 在一次论坛上默示,咱们所知的 Scaling Law 依然快走到终点。我以为这个问题分几方面来看。着手,面前互联网上高质地的文本数据简直是越来越少,但多模态数据(比如图片、视频)还有好多挖掘空间,它们对翌日模子谨慎会产生相配大的影响。
第二,以 OpenAI o1/o3 为代表的复杂推理系统,在后谨慎阶段使用了强化学习(RL)等技能,RL 会生成渊博新的数据,这也导致对算力的需求捏续增长。第三,如今谨慎一个基座模子,可能需要几周乃至一两个月的时期,如若有更多算力,几天就能预谨慎出一个好的模子,这也将极地面改变后期的坐褥效率。此外,关于结尾的用户来说,全球对性能,包括对精度的追求推行上是无尽头的。
机器之心:DeepSeek 公司最近在业界激勉庸俗磋议,他们以较低资本谨慎出了堪比海外顶尖水平的模子。从公开信息来看,您以为这里的栽种主要在那边?
翟季冬:着手是算法档次的创新。他们采纳了新的 MoE 架构,使用了分享群众和渊博细粒度路由群众的架构。通过将通用常识压缩到分享群众中,不错消弱路由群众的参数冗余,提高参数效率;在保捏参数总量不变的前提下,分手更多的细粒度路由群众,通过活泼地组合路由群众,有助于更准确和针对性的进行常识抒发。同期,通过负载平衡的算法遐想,有用地缓解了传统 MoE 模子因负载不平衡带来谨慎效率低下的问题。
其次在系统软件档次,DeepSeek 采纳了渊博紧密化的系统工程优化。举例,在并行策略方面,采纳双向活水的并行机制,通过紧密的排布,挖掘了规划和通讯的重迭,有用的缩小了活水并行带来的气泡影响;在规划方面,采纳 FP8 等混杂精度进行规划,缩小规划复杂度;在通讯方面,采纳低精度通讯策略以及 token 路由适度等机制有用缩小通讯支出。
上述算法和软件的创新与优化,极地面缩小了模子的谨慎资本。DeepSeek 给咱们的启示,更多在于如安在有限的算力情况下,通过算法和软件的协同创新,充分挖掘硬件的极致性能,对中国发展翌日东说念主工智能至关进军。
从 DeepSeek 的告捷不错看出,在大模子界限仍然存在好多不错更正的空间。他们的创新涵盖了从算法、软件到系统架构的多个层面,为国内大模子的发展提供了很好的启发。
我是作念高性能规划标的降生,咱们界限一直在追求应用体式的极致性能。之前我在清华率领学生参加国际超算比赛时,每当拿到题目,咱们就会收敛念念考:当你发现了负载的某些脾气后,怎样针对这些脾气进行有用优化,可能会带来几十、几百,以致上千倍的性能栽种。不错说,性能优化是一个永无尽头的经过。
在当前场所下,中国在算力资源方面濒临很大挑战。海外像微软、X 公司等,参加了 10 万卡以致更大的界限,在如斯浑厚的算力基础上,他们可能会将更多元气心灵放在遐想更好的模子上,极致的性能优化也许并不是他们当前的要点。但当咱们算力有限时,比如固定只须 1 万张加快卡,就需要念念考怎样更极致地运用好这些硬件,挖掘算法、系统,包括硬件等各方面协同创新的可能性。
机器之心:追求性能优化和模子创新两种发展道路是否相互冲突?它们能在团结个阶段共存吗?
翟季冬:从系统软件层面来看,它与算法发展是解耦的。换句话说,这些优化技能相通适用于算力更充足的场景,换到好意思国的筹备环境中也不错应用,并不会梗阻表层模子的发展。
机器之心:业界似乎还莫得一个客不雅评价算力运用效率的体系或设施。从您的角度看,咱们应该怎样科学、客不雅地评价算力的运用?
翟季冬:这是个很好的问题。面前一些科技报说念中常常提到「GPU 运用率」这么的目的,但要评价一个系统是否用得好,很难用单一目的来算计,就像评价一个东说念主不成只看单一维度一样。
具体来说,在大模子谨慎时,GPU 运用率只是其中一个方面。在大型集群中,还包括汇集开发、存储开发等。只是追求 GPU 运用率很高,而汇集运用效率或内存使用率很低,这并不是最优的状态。从系统软件优化的角度,咱们需要追求举座的平衡,可能通过提高汇集和内存的使用率来适当缩小 GPU 破钞。
评价设施也因场景而异。在谨慎场景中,咱们更关注统共这个词集群(包括加快卡、存储、汇集、通讯等)的举座运用效率。在推理场景中,结尾用户更关怀蔓延,比如是否能在几毫秒内得到反应,除了第一个 token 的生成蔓延,后续每个 token 之间的拒绝时期亦然进军的目的;算力提供方则更关注举座朦拢量,比如 1000 张加快卡每天能处理若干苦求,是每天能反应 100 万个苦求,如故 1000 万个苦求。
一个常常被冷漠但很进军的目的是资本,至极是每个 token 的处理资本。全球总说追求极致性能,但当咱们将资本治理也纳入研讨时,对系统朦拢量和处理蔓延的磋议会更有现实真谛。从永久来看,显耀缩小推理资本关于履行 AI 应用至关进军。
中好意思硬件各别下的算力解围
系统软件双向适配
机器之心:由于中好意思之间的硬件各别,全球很关注软件栈层面是否会出当代际分叉,以致发展出不同的科技树?
翟季冬:中国如确切系统软件方面濒临着不同的念念考标的。在好意思国和欧洲,AI 基础设檀越要以 NVIDIA GPU 为主,但在中国,很难取得起初进的 NVIDIA 算力。
NVIDIA GPU 之是以受迎接,很猛进度上归功于其老练的生态系统。我印象很深远的是,从我念书时期开动,NVIDIA 就与清华等高校张开调解,探索怎样更好地在他们的硬件上罢了加快。他们面前的软件栈亦然经过多年累积形成的。比较之下,中国的 AI 芯片公司大多始于最近几年,发展历程不到十年。
咱们还有很长的路要走,不论是在底层编译器优化芯片算力,如故在多卡互连的高效通讯协同方面。中国濒临双重挑战:一方面需要补都短板,栽种芯片易用性;另一方面由于获取不到起初进的芯片制程工艺,可能会落伍海外一到两代。这使得软件与硬件的协同优化在中国显得更为进军,咱们需要挖掘统共可能的优化空间。
机器之心:从您的角度看,咱们应该用什么样的念念路来应酬 NVIDIA 建立的软件生态壁垒?
翟季冬:当作自后者,咱们着手要学习他们在算子库、编程讲话和编译器方面的先进理念。在不违背常识产权的前提下,咱们不错模仿这些后果。但也不成透澈照搬,而是要有我方的念念考。举例,在工艺制程落伍的情况下,咱们不错在软件栈方面作念些什么?针对与 NVIDIA 不同的架构脾气,咱们是否不错有我方的创新?
如若大略把从应用侧到系统软件,再到自主研制芯片的整条旅途买通,我信服咱们能找到一条适应中国现实环境的可行发展道路。
从学术角度来说,咱们不错探索开发更好的界限特定编程讲话,让用户编写高层代码时能自动生成更高效的罢了。这里还有好多不错探索的空间,但要罢了生意落地需要时期。
机器之心:说到大模子算力优化,为什么还莫得芯片厂商推出 Transformer 专用芯片?您怎样看待这个趋势?
翟季冬:我以为面前莫得并不代表将来莫得,可能有些公司正在这个方朝上努力。从芯片遐想到流片再到封装,统共这个词经过资本相配高,必须要有充足大的市集空间才能救助这种特定架构。
如若大模子最终如实会以 Transformer 架构为主,那么咱们如实不错遐想一款透澈针对 Transformer 的专用芯片。但面前存在几个主要研讨:着手,AI 模子发展相配赶快,咱们无法详情 Transformer 架构是否会一直保捏主流地位,可能还会出现新的非 Transformer 架构。其次,Transformer 自己也在收敛演化,比如 MoE 这么的寥落激活模子,以及多模态 MoT(Mixture-of-Transformers)的寥落脾气,这些脾气很难在芯片层面平直描述。
总结最近这一波 AI 发展,梗概从 2012 年于今,当先以为主,一些芯片公司成心为卷积遐想了 ASIC 芯片。但到了 2017 年后,Transformer 架构逐渐兴起,与卷积有很大的不同,导致之前针对卷积优化的 ASIC 芯片难以适合新的架构。
值得一提的是,在此经过中 NVIDIA 天然也在其芯片架构中添加了各式新的硬件模块,但举座架构保捏相对庞大,通过系统软件来适合应用的变化,比如他们的 Tensor Core 针对矩阵乘法进行优化,而不是成心为 Transformer 的某个组件(如 Attention)遐想特定架构。
机器之心:NVIDIA 的作念法能给咱们带来什么启示?
翟季冬:从软件角度来说,最大的启示是以不变应万变。专用硬件的遐想念念路,实质上是把具体的算法用电路去罢了,但遐想的要道在于怎样把这个具体的算法拆解成合适的、通用的基本硬件单位,以便各式应用都能通过这些基本单位来罢了。举例,NVIDIA 的 Tensor Core 等于将各式操作都窜改成矩阵乘法,这种映射方式相对更活泼。
拆解的中枢在于粒度要恰到克己:粒渡过大,微型应用难以有用运用硬件资源,酿成耗损且性能着落;粒渡过小,则会加多数据搬运和调节支出,缩小举座效率,并加多硬件和软件的复杂度。这是一个需要量度的遐想遴选。
机器之心:面前好多公司一方面投资现存基础设施购买种种规划卡,一方面也在与高校调解并投资创业公司,以应酬非 Transformer 架构带来的挑战。从系统软件层面来看,这种布局能在多猛进度上应酬下一代技能的冲击?
翟季冬:系统软件的实质是将表层应用体式更好地映射到底层硬件。一方面要关注应用层面的变化,比如面前多模态模子越来越进军,咱们就需要念念考多模态带来的新模式和负载特征,同期要关注底层架构的演进,不论是 NVIDIA GPU 如祖国产加快卡,都可能会加多新的规划单位或访存单位,咱们需要念念考怎样更好地运用这些硬件脾气。
系统软件的中枢任务是密切关注上基层的变化,通过中间层的合理遐想将两头匹配起来,让硬件效率阐扬到极致。关于正在探索的新式模子,咱们需要分析它们的负载特征,筹备怎样更好地映射到底层芯片以充分运用硬件资源。
从提前布局的角度来说,系统软件要作念好新兴应用负载的分析。同期,当新的芯片架构出当前,系统软件也要实时作念出相应的更正和适配。这种双向的适配才气,是系统软件应酬技能变革的要道。
万卡集群期间的算力优化
机器之心:您参与了多个基座大模子的谨慎,在使用万卡级集群方面有第一手训导,能否分享一下在这种超大界限谨慎中际遇的主要技能挑战?
翟季冬:2021 年,咱们与北京智源筹备院等机构调解,使用新一代神威超算系统进行一个基座大模子的谨慎,不错把它观念为一个 10 万卡的集群。在这个经过中,我体会到大模子谨慎主要有几方面的挑战。
着手是并行策略的遴选。因为模子很大,用 10 万台机器去作念,就要把模子进行切分,就像把一块豆腐要切成好多块,不错切成方块,也不错切成细条,旨趣是一样的。要把一个大模子分到 10 万台机器上,也有好多切分方式。用术语来讲,比如说特殊据并行、模子并行、活水线并行、序列并行等等,每个并行策略都有我方的优缺点。在 10 万台机器上,怎样组合这些并行策略,自己等于很大的挑战。并且 10 万界限的集群,没办法像单卡那样反复测试各式策略,一定要把策略分析明晰了才去跑,因为一次的测试资本就很高,也不允许作念太屡次尝试。
第二个挑战是通讯问题。10万台机器需要通过高速汇集互连,但不同的机器组网方式不一样,汇集的拓扑是不一样的。大模子谨慎时有好多通讯函数,这些通讯函数怎样跟底层的汇集拓扑高效映射是一大挑战。咱们发现,不同的通讯策略可能导致 1-2 倍的性能各别。
第三个挑战是容错机制。当机器界限增大,统共这个词系统平均无故障时期就会相配小。基座模子谨慎平淡需要几周至一两个月。咱们必须遐想轻量级的容错机制,在硬件出现故障时大略快速替换出错的卡并不时谨慎,同期将这个支出降得越低越好。
终末,单卡性能也至关进军。在关注万卡、10 万卡这类举座系统的同期,也要把单卡效率打得至极高,比如通过编译优化等策略,确保每张卡都能阐扬出极致性能。
机器之心:在栽种算力运用率方面,咱们应该关注哪些点?
翟季冬:大模子的人命周期包含多个阶段,每个阶段对算力的需求都不沟通。咱们刚才谈了预谨慎,但在预谨慎模子完成后,还有一个很进军的阶段等于后谨慎(post training)。以 OpenAI o1/o3 为代表的后谨慎技能,为统共这个词谨慎经过带来了新的挑战。
后谨慎包括生成阶段、推理阶段和微调阶段,每个阶段的负载脾气都不同,最优的并行策略也会不同。需要注意的是,不成简便地追求每个阶段的局部最优,因为阶段之间的切换也会产生支出。咱们要从统共这个词 pipeline 的角度来研讨优化策略。后谨慎还濒临着负载不平衡的问题,需要探索怎样有用重迭不同阶段以提高资源运用率。
在微调阶段,客户常常会用我方的专特殊据对基座模子进行调节。由于硬件资源可能有限,这时需要研讨一些特殊的策略,比如 offloading,也即当 GPU 内存不实时,将部分参数存储在 CPU 端。微调自己当作一个谨慎经过,对并行策略也有很高条目。
推理阶段的优化濒临更多挑战:
KV Cache 管理:推理经过会产生渊博中间驱散(KV Cache)用于缩小规划量。怎样管理这些数据很要道,比如不错采纳页面式管理,但页面大小是固定如故凭据负载特征动态调节,都需要仔细遐想。多卡协同:当模子较大时需要多 GPU 配合,比如在 8 个 GPU 上进行大模子推理,怎样优化卡间并行亦然一大挑战。算法优化:还不错从量化等角度进行优化,充分阐扬底层算力性能。
总的来说,从预谨慎到后谨慎,再到微调理推理,每个阶段对算力的条目都不同,咱们需要针对这些脾气进行深入的优化。
机器之心:如若要树立百万卡集群,是遴选多家厂商的卡,如故只遴选少数厂商乃至单惟一家的卡更好?
翟季冬:从管理和使用效力的角度来说,遴选单一类型的加快卡无疑是最便捷的。但推行情况常常愈加复杂。比如说在好意思国,企业可能先购入 1000 张 A100,自后又添置 1000 张 H100。不同代际的加快卡存在性能各别,整合使用时就会带来系统优化的挑战,并且这个问题在谨慎和推理场景下的阐扬也不尽沟通。
从系统软件角度看,这推行上是芯片碎屑化的挑战。我面前正在讲求一个花式,面向异构芯片的统一编程和编译优化。核热诚念是,天然底层使用不同的 AI 芯片,但在编程模子和编译优化层面要尽可能统一。咱们但愿团结套体式能在不同加快卡上都阐扬出高效性能,同期缩小不同加快卡间的移植支出。
好多东说念主都说过,但愿算力像水电一样成为基础设施。用电时咱们并不需要关怀是风力发电如故煤炭发电。要罢了这个方针,推行上有很长的路要走,咱们需要作念好中间层的软件职责。此外,还要建立完善的算力度量设施,比如怎样规划算力使用量,怎样计价,这些都需要设施化。
在现阶段,咱们如故需要关注底层硬件的具体情况。但翌日的发展标的是,通过完善中间层的系统软件,为用户提供透明的接口。用户只需要调用简便的 API 就能便捷使用各式算力资源,无谓关怀底层细节。这可能是一个终极的发展标的。
机器之心:那咱们把时期拉近一些,翌日 1-3 年内,系统软件优化方面可能会看到哪些显耀趋势或变化?
翟季冬:面前我国各省市建立了许多智算中心,以国产算力为主。咱们不雅察到一个欢畅是,尽管应用开发者渊博枯竭算力资源,但许多国产算力中心却存在闲置欢畅。用户更倾向于使用 NVIDIA 这么开箱即用的责罚有议论。
这种状态其实带来了进军机遇:怎样将雄壮的算力需求与现存的国产算力有用对接?咱们的方针是让国产算力达到相通的易用性,使用户感受不到各别。这不仅能促进东说念主工智能在中国九行八业的发展,也能带动从芯片到软件再到应用的举座发展。
为此,咱们实验室孵化了一家公司「清程极智」,勤奋于为国产闲置算力提供更友好的接口,匡助行业用户便捷地整合种种国产算力资源。
从技能层面来说,这不单是是优化算子库那么简便。系统软件的齐备树立应该包括编程讲话、编译器、通讯库、并行规划、编程框架,这些标的都需要参加。就像木桶效应,任何一个短板都可能影响芯片的举座使用效果。要充分阐扬国产算力的性能,咱们需要在这些标的全面发力,才能真实把算力这个标的作念好。
嘉宾简介
翟季冬,清华大学规划机系长聘教授,博士生导师,高性能规划筹备所长处。青海大学规划机技能与应用学院院长。CCF高性能规划专委副主任、CCF凸起会员。清程极智首席科学家。
主要筹备界限包括并行规划、编程模子与编译优化。在并行规划与系统界限顶级会议和期刊发表论文 100 余篇,出书专著一部。筹备后果获 IEEE TPDS 2021 最好论文奖、IEEE CLUSTER 2021 最好论文奖、ACM ICS 2021 最勤学生论文奖等。担任清华大学学生超算团队教授,教唆的团队 15 次取得寰宇冠军。获熏陶部科技跳动一等奖、中国规划机学会天然科学一等奖、CCF-IEEE CS 后生科学家奖、高校规划机专科优秀教师奖励绸缪。国度凸起后生科学基金取得者。