新闻动态开yun体育网最近在 AI 算力阛阓出现了好多新的趋势-开云电竞(中国)官方网站 登录入口

新闻动态

你的位置:开云电竞(中国)官方网站 登录入口 > 新闻动态 > 开yun体育网最近在 AI 算力阛阓出现了好多新的趋势-开云电竞(中国)官方网站 登录入口

开yun体育网最近在 AI 算力阛阓出现了好多新的趋势-开云电竞(中国)官方网站 登录入口

发布日期:2026-04-02 13:19    点击次数:113

新闻动态

一线 AI 洞悉,智者深度念念考 深入产业变革,共创 AI 改日 2025 年滥觞,全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 秘书 5000 亿好意思元的「星际之门」权术,Meta 在建范畴超 130 万 GPU 的数据中心时,这个来自中国的团队冲破了大模子武备竞赛的既定逻辑:用 2048 张 H800 GPU,两个月检修出了一个忘形全球顶尖水平的模子。 这一突破不仅撼动了万亿市值,更激发了通盘行业的反念念:在通往 AGI 的征途上,咱们是否过于盲信算力范畴,而冷落了一条愈

详情

开yun体育网最近在 AI 算力阛阓出现了好多新的趋势-开云电竞(中国)官方网站 登录入口

一线 AI 洞悉,智者深度念念考

深入产业变革,共创 AI 改日

2025 年滥觞,全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 秘书 5000 亿好意思元的「星际之门」权术,Meta 在建范畴超 130 万 GPU 的数据中心时,这个来自中国的团队冲破了大模子武备竞赛的既定逻辑:用 2048 张 H800 GPU,两个月检修出了一个忘形全球顶尖水平的模子。

这一突破不仅撼动了万亿市值,更激发了通盘行业的反念念:在通往 AGI 的征途上,咱们是否过于盲信算力范畴,而冷落了一条愈加求实且充满创新可能的旅途?

与 2023 年「更大即更好」的轻佻发展不雅不同,2025 年 AI 发展或将更像是一场量入制出的技巧真金不怕火金:怎么用最少的资源最大化模子效用,如安在特定场景杀青极致效率。DeepSeek 照旧展现出这种样式的威力——开发者老是倾向于选拔性价比更高的开源有盘算,当斗量车载的应用都以 DeepSeek 为基座,由此构建的生态将怎么重塑 AI 产业形态?

本期《智者访谈》邀请到清华大学研究机系长聘训导、高性能研究接洽所长处翟季冬,深入探讨大模子期间的 AI 算力优化之谈。翟季冬训导指出,DeepSeek 杀青百倍性价比进步的一个热切原因,是其在系统软件层面的深度创新。

「性能优化是一个无尽头的经由,」翟季冬训导暗意,在中国面对算力资源挑战的布景下,通过系统软件创新进步算力效用,是产业解围的重要。这不仅需要在编程话语、编译器、通讯库、编程框架等多个技巧层面发力,更需要竖立起无缺的基础软件体系。

当下,一个值得深念念的粗豪是:尽管 AI 算力需求合手续攀升,但国内稠密智算中心的国产算力资源却存在闲置。供需错配的背后,暴透露基础软件体系的短板。

但窘境也蕴含着热切机遇:怎么买通从应用到系统软件,再到自主芯片的无缺链路,探索出一条相宜中国现实的发展旅途?这不仅是技巧创新,更是计策抉择。

在算力主导 AI 竞争力的期间,怎么让每一份研究资源都能开释最大价值,这个问题自己,与谜底一样热切。

视频陆续:https://mp.weixin.qq.com/s/Elby5usJVFjEHU45MNDYWA

时刻戳

03:35

DeepSeek 与算力需求改日趋势

06:41

算力效用评估新视角

10:26

中好意思硬件各别下的软件念念考

14:00

为何还没 Transformer 专用芯片

17:41

万卡集群检修难点

21:01

降本增效:推理优化的重要

24:41

Infra 怎么为下一代大模子作念好准备

27:19

大范畴异构集群的算力管制

29:42

智算供需错配:系统软件怎么补位

访谈笔墨整理

机器之心:翟季冬训导好,迎接作客机器之心的《智者访谈》。最近在 AI 算力阛阓出现了好多新的趋势。开拔点,全球接头至极多的,Scaling Law 是不是真撞墙了?其次,跟着 OpenAI o1/o3 模子的推出,通过加多推理研究时刻也大致带来模子性能的显赫进步,这也让咱们从头念念考,究竟要把算力用在那边。

不错看到,怎么进步算力的愚弄效率,成为业界越来越关注的议题。至极舒畅能邀请到您,与咱们一同从系统软件的角度探讨算力优化之谈。

DeepSeek 的启发:性能优化永无尽头

翟季冬:谢谢主合手东谈主。至极庆幸来到机器之心作念交流。Dr. Ilya Sutskever 在一次论坛上暗意,咱们所知的 Scaling Law 照旧快走到终点。我以为这个问题分几方面来看。开拔点,面前互联网上高质地的文本数据简直是越来越少,但多模态数据(比如图片、视频)还有好多挖掘空间,它们对改日模子检修会产生至极大的影响。

第二,以 OpenAI o1/o3 为代表的复杂推理系统,在后检修阶段使用了强化学习(RL)等技巧,RL 会生成多数新的数据,这也导致对算力的需求合手续增长。第三,如今检修一个基座模子,可能需要几周乃至一两个月的时刻,淌若有更多算力,几天就能预检修出一个好的模子,这也将极地面改造后期的坐褥效率。此外,关于末端的用户来说,全球对性能,包括对精度的追求试验上是无尽头的。

机器之心:DeepSeek 公司最近在业界激发庸碌接头,他们以较低本钱检修出了堪比国际顶尖水平的模子。从公开信息来看,您以为这里的进步主要在那边?

翟季冬:开拔点是算法档次的创新。他们接受了新的 MoE 架构,使用了分享群众和多数细粒度路由群众的架构。通过将通用学问压缩到分享群众中,不错消弱路由群众的参数冗余,提高参数效率;在保合手参数总量不变的前提下,鉴别更多的细粒度路由群众,通过生动地组合路由群众,有助于更准确和针对性的进行学问抒发。同期,通过负载平衡的算法联想,灵验地缓解了传统 MoE 模子因负载不平衡带来检修效率低下的问题。

其次在系统软件档次,DeepSeek 接受了多数风雅化的系统工程优化。举例,在并行策略方面,接受双向活水的并行机制,通过风雅的排布,挖掘了研究和通讯的重迭,灵验的缩短了活水并行带来的气泡影响;在研究方面,接受 FP8 等羼杂精度进行研究,缩短研究复杂度;在通讯方面,接受低精度通讯策略以及 token 路由放胆等机制灵验缩短通讯支拨。

上述算法和软件的创新与优化,极地面缩短了模子的检修本钱。DeepSeek 给咱们的启示,更多在于如安在有限的算力情况下,通过算法和软件的协同创新,充分挖掘硬件的极致性能,对中国发展改日东谈主工智能至关热切。

从 DeepSeek 的成功不错看出,在大模子界限仍然存在好多不错更正的空间。他们的创新涵盖了从算法、软件到系统架构的多个层面,为国内大模子的发展提供了很好的启发。

我是作念高性能研究标的诞生,咱们界限一直在追求应用要津的极致性能。之前我在清华指挥学生参加国际超算比赛时,每当拿到题目,咱们就会不休念念考:当你发现了负载的某些特色后,怎么针对这些特色进行灵验优化,可能会带来几十、几百,以至上千倍的性能进步。不错说,性能优化是一个永无尽头的经由。

在当前方位下,中国在算力资源方面面对很大挑战。国际像微软、X 公司等,进入了 10 万卡以至更大的范畴,在如斯浑厚的算力基础上,他们可能会将更多元气心灵放在联想更好的模子上,极致的性能优化也许并不是他们当前的要点。但当咱们算力有限时,比如固定只消 1 万张加快卡,就需要念念考怎么更极致地愚弄好这些硬件,挖掘算法、系统,包括硬件等各方面协同创新的可能性。

机器之心:追求性能优化和模子创新两种发展道路是否互相冲突?它们能在消亡个阶段共存吗?

翟季冬:从系统软件层面来看,它与算法发展是解耦的。换句话说,这些优化技巧一样适用于算力更充足的场景,换到好意思国的接洽环境中也不错应用,并不会阻塞表层模子的发展。

机器之心:业界似乎还莫得一个客不雅评价算力愚弄效率的体系或行为。从您的角度看,咱们应该怎么科学、客不雅地评价算力的愚弄?

翟季冬:这是个很好的问题。面前一些科技报谈中频繁提到「GPU 愚弄率」这么的目的,但要评价一个系统是否用得好,很难用单一目的来推测,就像评价一个东谈主弗成只看单一维度一样。

具体来说,在大模子检修时,GPU 愚弄率只是其中一个方面。在大型集群中,还包括收罗开采、存储开采等。只是追求 GPU 愚弄率很高,而收罗愚弄效率或内存使用率很低,这并不是最优的状态。从系统软件优化的角度,咱们需要追求举座的平衡,可能通过提高收罗和内存的使用率来适当缩短 GPU 耗尽。

评价行为也因场景而异。在检修场景中,咱们更关注通盘集群(包括加快卡、存储、收罗、通讯等)的举座愚弄效率。在推理场景中,末端用户更温暖延长,比如是否能在几毫秒内得到反映,除了第一个 token 的生成延长,后续每个 token 之间的休止时刻亦然热切的目的;算力提供方则更关注举座微辞量,比如 1000 张加快卡每天能处理若干苦求,是每天能反映 100 万个苦求,如故 1000 万个苦求。

一个频繁被冷落但很热切的目的是本钱,非常是每个 token 的处理本钱。全球总说追求极致性能,但当咱们将本钱拘谨也纳入辩论时,对系统微辞量和处理延长的接头会更有现实兴致。从长久来看,显赫缩短推理本钱关于践诺 AI 应用至关热切。

中好意思硬件各别下的算力解围

系统软件双向适配

机器之心:由于中好意思之间的硬件各别,全球很关注软件栈层面是否会出当代际分叉,以至发展出不同的科技树?

翟季冬:中国确乎在系统软件方面面对着不同的念念考标的。在好意思国和欧洲,AI 基础设檀越要以 NVIDIA GPU 为主,但在中国,很难取得起先进的 NVIDIA 算力。

NVIDIA GPU 之是以受迎接,很猛进程上归功于其训诲的生态系统。我印象很久了的是,从我念书时期启动,NVIDIA 就与清华等高校伸开妥洽,探索怎么更好地在他们的硬件上杀青加快。他们面前的软件栈亦然经过多年麇集形成的。比拟之下,中国的 AI 芯片公司大多始于最近几年,发展历程不到十年。

咱们还有很长的路要走,无论是在底层编译器优化芯片算力,如故在多卡互连的高效通讯协同方面。中国面对双重挑战:一方面需要补皆短板,进步芯片易用性;另一方面由于获取不到起先进的芯片制程工艺,可能会落伍国际一到两代。这使得软件与硬件的协同优化在中国显得更为热切,咱们需要挖掘通盘可能的优化空间。

机器之心:从您的角度看,咱们应该用什么样的念念路来支吾 NVIDIA 竖立的软件生态壁垒?

翟季冬:手脚自后者,咱们开拔点要学习他们在算子库、编程话语和编译器方面的先进理念。在不违抗学问产权的前提下,咱们不错鉴戒这些收尾。但也弗成十足照搬,而是要有我方的念念考。举例,在工艺制程落伍的情况下,咱们不错在软件栈方面作念些什么?针对与 NVIDIA 不同的架构特色,咱们是否不错有我方的创新?

淌若大致把从应用侧到系统软件,再到自主研制芯片的整条旅途买通,我治服咱们能找到一条妥当中国现实环境的可行发展道路。

从学术角度来说,咱们不错探索开发更好的界限特定编程话语,让用户编写高层代码时能自动生成更高效的杀青。这里还有好多不错探索的空间,但要杀青营业落地需要时刻。

机器之心:说到大模子算力优化,为什么还莫得芯片厂商推出 Transformer 专用芯片?您怎么看待这个趋势?

翟季冬:我以为面前莫得并不代表将来莫得,可能有些公司正在这个方进取接力。从芯片联想到流片再到封装,通盘经由本钱至极高,必须要有充足大的阛阓空间才能支合手这种特定架构。

淌若大模子最终确乎会以 Transformer 架构为主,那么咱们确乎不错联想一款十足针对 Transformer 的专用芯片。但面前存在几个主要辩论:开拔点,AI 模子发展至极飞速,咱们无法详情 Transformer 架构是否会一直保合手主流地位,可能还会出现新的非 Transformer 架构。其次,Transformer 自己也在不休演化,比如 MoE 这么的稀薄激活模子,以及多模态 MoT(Mixture-of-Transformers)的稀薄本性,这些本性很难在芯片层面顺利姿首。

总结最近这一波 AI 发展,梗概从 2012 年于今,领先以为主,一些芯片公司特地为卷积联想了 ASIC 芯片。但到了 2017 年后,Transformer 架构冉冉兴起,与卷积有很大的不同,导致之前针对卷积优化的 ASIC 芯片难以妥当新的架构。

值得一提的是,在此经由中 NVIDIA 诚然也在其芯片架构中添加了各式新的硬件模块,但举座架构保合手相对踏实,通过系统软件来妥当应用的变化,比如他们的 Tensor Core 针对矩阵乘法进行优化,而不是特地为 Transformer 的某个组件(如 Attention)联想特定架构。

机器之心:NVIDIA 的作念法能给咱们带来什么启示?

翟季冬:从软件角度来说,最大的启示是以不变应万变。专用硬件的联想念念路,本体上是把具体的算法用电路去杀青,但联想的重要在于怎么把这个具体的算法拆解成合适的、通用的基本硬件单位,以便各式应用都能通过这些基本单位来杀青。举例,NVIDIA 的 Tensor Core 即是将各式操作都更动成矩阵乘法,这种映射样式相对更生动。

拆解的中枢在于粒度要恰到自制:粒渡过大,微型应用难以灵验愚弄硬件资源,形成浪掷且性能下跌;粒渡过小,则会加多数据搬运和治愈支拨,缩短举座效率,并加多硬件和软件的复杂度。这是一个需要量度的联想选拔。

机器之心:面前好多公司一方面投资现存基础设施购买种种研究卡,一方面也在与高校妥洽并投资创业公司,以支吾非 Transformer 架构带来的挑战。从系统软件层面来看,这种布局能在多猛进程上支吾下一代技巧的冲击?

翟季冬:系统软件的本体是将表层应用要津更好地映射到底层硬件。一方面要关注应用层面的变化,比如面前多模态模子越来越热切,咱们就需要念念考多模态带来的新模式和负载特征,同期要关注底层架构的演进,无论是 NVIDIA GPU 如祖国产加快卡,都可能会加多新的研究单位或访存单位,咱们需要念念考怎么更好地愚弄这些硬件本性。

系统软件的中枢任务是密切关注上基层的变化,通过中间层的合理联想将两头匹配起来,让硬件效率阐扬到极致。关于正在探索的新式模子,咱们需要分析它们的负载特征,接洽怎么更好地映射到底层芯片以充分愚弄硬件资源。

从提前布局的角度来说,系统软件要作念好新兴应用负载的分析。同期,当新的芯片架构出当前,系统软件也要实时作念出相应的更正和适配。这种双向的适配能力,是系统软件支吾技巧变革的重要。

万卡集群期间的算力优化

机器之心:您参与了多个基座大模子的检修,在使用万卡级集群方面有第一手教养,能否分享一下在这种超大范畴检修中遭遇的主要技巧挑战?

翟季冬:2021 年,咱们与北京智源接洽院等机构妥洽,使用新一代神威超算系统进行一个基座大模子的检修,不错把它蚁合为一个 10 万卡的集群。在这个经由中,我体会到大模子检修主要有几方面的挑战。

开拔点是并行策略的选拔。因为模子很大,用 10 万台机器去作念,就要把模子进行切分,就像把一块豆腐要切成好多块,不错切成方块,也不错切成细条,旨趣是一样的。要把一个大模子分到 10 万台机器上,也有好多切分样式。用术语来讲,比如说非常据并行、模子并行、活水线并行、序列并行等等,每个并行策略都有我方的优弊端。在 10 万台机器上,怎么组合这些并行策略,自己即是很大的挑战。况兼 10 万范畴的集群,没见地像单卡那样反复测试各式策略,一定要把策略分析了了了才去跑,因为一次的测试本钱就很高,也不允许作念太屡次尝试。

第二个挑战是通讯问题。10万台机器需要通过高速收罗互连,但不同的机器组网样式不一样,收罗的拓扑是不一样的。大模子检修时有好多通讯函数,这些通讯函数怎么跟底层的收罗拓扑高效映射是一大挑战。咱们发现,不同的通讯策略可能导致 1-2 倍的性能各别。

第三个挑战是容错机制。当机器范畴增大,通盘系统平均无故障时刻就会至极小。基座模子检修正常需要几周详一两个月。咱们必须联想轻量级的容错机制,在硬件出现故障时大致快速替换出错的卡并赓续检修,同期将这个支拨降得越低越好。

终末,单卡性能也至关热切。在关注万卡、10 万卡这类举座系统的同期,也要把单卡效率打得非常高,比如通过编译优化等策略,确保每张卡都能阐扬出极致性能。

机器之心:在进步算力愚弄率方面,咱们应该关注哪些点?

翟季冬:大模子的人命周期包含多个阶段,每个阶段对算力的需求都不疏导。咱们刚才谈了预检修,但在预检修模子完成后,还有一个很热切的阶段即是后检修(post training)。以 OpenAI o1/o3 为代表的后检修技巧,为通盘检修经由带来了新的挑战。

后检修包括生成阶段、推理阶段和微调阶段,每个阶段的负载特色都不同,最优的并行策略也会不同。需要提防的是,弗成粗拙地追求每个阶段的局部最优,因为阶段之间的切换也会产生支拨。咱们要从通盘 pipeline 的角度来辩论优化策略。后检修还面对着负载不平衡的问题,需要探索怎么灵验重迭不同阶段以提高资源愚弄率。

在微调阶段,客户时时会用我方的独到数据对基座模子进行调整。由于硬件资源可能有限,这时需要辩论一些特殊的策略,比如 offloading,也即当 GPU 内存不实时,将部分参数存储在 CPU 端。微调自己手脚一个检修经由,对并行策略也有很高条目。

推理阶段的优化面对更多挑战:

KV Cache 管制:推理经由会产生多数中间收尾(KV Cache)用于缩短研究量。怎么管制这些数据很重要,比如不错接受页面式管制,但页面大小是固定如故字据负载特征动态调整,都需要仔细联想。多卡协同:当模子较大时需要多 GPU 配合,比如在 8 个 GPU 上进行大模子推理,怎么优化卡间并行亦然一大挑战。算法优化:还不错从量化等角度进行优化,充分阐扬底层算力性能。

总的来说,从预检修到后检修,再到微调节推理,每个阶段对算力的条目都不同,咱们需要针对这些特色进行深入的优化。

机器之心:淌若要诞生百万卡集群,是选拔多家厂商的卡,如故只选拔少数厂商乃至单唯一家的卡更好?

翟季冬:从管制和使用效用的角度来说,选拔单一类型的加快卡无疑是最简单的。但试验情况时时愈加复杂。比如说在好意思国,企业可能先购入 1000 张 A100,自后又添置 1000 张 H100。不同代际的加快卡存在性能各别,整合使用时就会带来系统优化的挑战,况兼这个问题在检修和推理场景下的证实也不尽疏导。

从系统软件角度看,这试验上是芯片碎屑化的挑战。我面前正在崇拜一个名目,面向异构芯片的统一编程和编译优化。核热枕念是,诚然底层使用不同的 AI 芯片,但在编程模子和编译优化层面要尽可能统一。咱们但愿消亡套要津能在不同加快卡上都阐扬出高效性能,同期缩短不同加快卡间的移植支拨。

好多东谈主都说过,但愿算力像水电一样成为基础设施。用电时咱们并不需要温暖是风力发电如故煤炭发电。要杀青这个见地,试验上有很长的路要走,咱们需要作念好中间层的软件使命。此外,还要竖立完善的算力度量行为,比如怎么研究算力使用量,怎么计价,这些都需要行为化。

在现阶段,咱们如故需要关注底层硬件的具体情况。但改日的发展标的是,通过完善中间层的系统软件,为用户提供透明的接口。用户只需要调用粗拙的 API 就能简单使用各式算力资源,不消温暖底层细节。这可能是一个终极的发展标的。

机器之心:那咱们把时刻拉近一些,改日 1-3 年内,系统软件优化方面可能会看到哪些显赫趋势或变化?

翟季冬:面前我国各省市竖立了许多智算中心,以国产算力为主。咱们不雅察到一个粗豪是,尽管应用开发者宽阔短少算力资源,但许多国产算力中心却存在闲置粗豪。用户更倾向于使用 NVIDIA 这么开箱即用的处分有盘算。

这种景色其实带来了热切机遇:怎么将弘远的算力需求与现存的国产算力灵验对接?咱们的见地是让国产算力达到一样的易用性,使用户感受不到各别。这不仅能促进东谈主工智能在中国九行八业的发展,也能带动从芯片到软件再到应用的举座发展。

为此,咱们实验室孵化了一家公司「清程极智」,死力于为国产闲置算力提供更友好的接口,匡助行业用户简单地整合种种国产算力资源。

从技巧层面来说,这不单是是优化算子库那么粗拙。系统软件的无缺诞生应该包括编程话语、编译器、通讯库、并行研究、编程框架,这些标的都需要进入。就像木桶效应,任何一个短板都可能影响芯片的举座使用效果。要充分阐扬国产算力的性能,咱们需要在这些标的全面发力,才能实在把算力这个标的作念好。

嘉宾简介

翟季冬,清华大学研究机系长聘训导,博士生导师,高性能研究接洽所长处。青海大学研究机技巧与应用学院院长。CCF高性能研究专委副主任、CCF了得会员。清程极智首席科学家。

主要接洽界限包括并行研究、编程模子与编译优化。在并行研究与系统界限顶级会议和期刊发表论文 100 余篇,出书专著一部。接洽收尾获 IEEE TPDS 2021 最好论文奖、IEEE CLUSTER 2021 最好论文奖、ACM ICS 2021 最勤学生论文奖等。担任清华大学学生超算团队教授,指挥的团队 15 次取得寰球冠军。获栽植部科技进取一等奖、中国研究机学会当然科学一等奖、CCF-IEEE CS 后生科学家奖、高校研究机专科优秀教师奖励权术。国度了得后生科学基金取得者。

官网: www.yjlvyou.com

邮箱: db927279@outlook.com

地址: 新闻动态科技园5199号

Powered by 开云电竞(中国)官方网站 登录入口 RSS地图 HTML地图


开云电竞(中国)官方网站 登录入口-开yun体育网最近在 AI 算力阛阓出现了好多新的趋势-开云电竞(中国)官方网站 登录入口