Skip to content

feat(route/infoq): add article cover url#21608

Open
baiyunchen wants to merge 4 commits intoDIYgod:masterfrom
baiyunchen:patch-2
Open

feat(route/infoq): add article cover url#21608
baiyunchen wants to merge 4 commits intoDIYgod:masterfrom
baiyunchen:patch-2

Conversation

@baiyunchen
Copy link
Copy Markdown

@baiyunchen baiyunchen commented Apr 2, 2026

Involved Issue / 该 PR 相关 Issue

Close #

Example for the Proposed Route(s) / 路由地址示例

/infoq/topic/1187?limit=1
/infoq/recommend?limit=1

New RSS Route Checklist / 新 RSS 路由检查表

  • New Route / 新的路由
  • Anti-bot or rate limit / 反爬/频率限制
    • If yes, do your code reflect this sign? / 如果有, 是否有对应的措施?
  • Date and time / 日期和时间
    • Parsed / 可以解析
    • Correct time zone / 时区正确
  • New package added / 添加了新的包
  • Puppeteer

Note / 说明

@github-actions github-actions bot added route auto: route no found Automated test failed due to route can not be found in PR description body labels Apr 2, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 2, 2026

Please use actual values in routes section instead of path parameters.
请在 routes 部分使用实际值而不是路径参数。

@baiyunchen baiyunchen closed this Apr 2, 2026
@baiyunchen baiyunchen reopened this Apr 2, 2026
@github-actions github-actions bot removed the auto: route no found Automated test failed due to route can not be found in PR description body label Apr 2, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 2, 2026

Auto Review

  • [Rule 40] lib/routes/infoq/utils.ts: Added referrerpolicy="no-referrer" attribute to img tag in addCoverToDescription function. RSSHub middleware handles referrer policy automatically - remove the referrerpolicy attribute from the img tag.

@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 2, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Thu, 02 Apr 2026 16:51:23 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>35 年只卖设计,今天亲自下场造芯!Arm 首款自研芯片发布,Meta 抢下首单</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/96/bd2a783fdb8597628458b8acc4e02096.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;36年来,半导体与软件公司 Arm 一直将芯片设计授权给英伟达、苹果等企业使用,如今终于开始自主研发并制造自有芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在近日举办的发布活动上,该公司正式推出一款面向AI数据中心推理场景、可直接量产的处理器Arm AGI CPU。这家英国企业基于自研Neoverse系列CPU IP内核,并与Meta合作完成了这款芯片的开发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,Meta也是Arm AGI CPU的首位客户,该芯片专为与Meta的AI训练及推理加速器协同工作而设计。Arm的首批合作方还包括OpenAI、Cerebras、Cloudflare等多家科技公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;市场对Arm转型自研芯片的动向早有预期。据外媒报道,该公司早在2023年便启动了芯片研发工作,目前相关处理器已开放订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管此举在预料之中,却标志着Arm历史性地打破了长期以来仅向其他芯片厂商授权设计的传统模式。这家由日本软银集团控股的公司,未来将与众多合作伙伴直接展开竞争。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm选择推出CPU而非GPU,这一点同样值得关注。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代理式AI基础设施崛起&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI系统正日益以全球规模持续运行。在过去,人是计算环节的瓶颈——人们与系统的交互速度决定了工作推进的速度。而在代理式AI时代,因为软件智能体可自主协同任务、与多个模型交互,并实时做出决策,这种局限性将不复存在。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着AI系统持续运行且工作负载复杂度不断提升,CPU已成为现代基础设施中决定运行节奏的关键要素——负责保持分布式AI系统大规模的高效运行。在现下的AI数据中心中,CPU管理数千个分布式任务,包括协调加速器、管理内存与存储、调度工作负载、跨系统迁移数据,加上当今的代理式&amp;nbsp;AI场景兴起,CPU&amp;nbsp;还需面向海量智能体实现大规模协同调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这一转变对CPU提出了全新要求,驱动处理器架构的演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm Neoverse 现已成为当今众多领先超大规模云服务及AI平台的核心支撑,包括Amazon&amp;nbsp;Graviton、Google&amp;nbsp;Axion、Microsoft&amp;nbsp;Azure Cobalt&amp;nbsp;及&amp;nbsp;NVIDIA&amp;nbsp;Vera&amp;nbsp;等。随着AI基础设施在全球范围内不断扩展,生态系统的合作伙伴纷纷期待Arm&amp;nbsp;能够提供更多能力。为应对这一变革,Arm AGI CPU应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Arm AGI CPU:专为机架级代理式AI效率而生&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代理式AI&amp;nbsp;工作负载需要在大规模场景下实现持续稳定的性能输出。Arm AGI CPU&amp;nbsp;正是为此而设计,能够在数千核心并行的持续高负载下,为每个任务提供高性能表现,且满足现代数据中心功耗与散热的严格要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从运行频率到内存及I/O架构,Arm AGI CPU的每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的代理式&amp;nbsp;AI&amp;nbsp;工作负载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成两颗CPU&amp;nbsp;芯片,并配备独立内存与&amp;nbsp;I/O,共计&amp;nbsp;272 个核心。这些刀片服务器可在标准风冷&amp;nbsp;36 千瓦&amp;nbsp;(kW) 机架中满配部署,30 台刀片服务器可提供总计&amp;nbsp;8160 个核心。此外,Arm 还与&amp;nbsp;Supermicro 合作推出&amp;nbsp;200 千瓦&amp;nbsp;(kW) 液冷设计方案,可容纳&amp;nbsp;336 颗&amp;nbsp;Arm AGI CPU,提供超过&amp;nbsp;45000 个核心。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在该配置下,凭借Arm架构的根本优势,以及系统资源与计算能力的精准匹配,Arm AGI CPU 可实现单机架性能达到最新x86系统的两倍以上:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Arm AGI CPU具备业界领先的内存带宽,使每个机架能够支持更多高效执行的线程;相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降;高性能、高能效的单线程&lt;a href=&quot;https://www.arm.com/products/silicon-ip-cpu/neoverse/neoverse-v3&quot;&gt;Arm Neoverse V3处理器&lt;/a&gt;&quot;核心性能出众,优于传统架构——每个Arm线程可处理更多任务;更多可用线程与更高单线程处理能力相互叠加,最终实现单机架性能的大幅提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm AGI CPU已获得合作伙伴的认可,这些合作伙伴均处于代理式AI基础设施规模化部署的前沿领域。计划部署场景涵盖加速器管理、代理式&amp;nbsp;AI&amp;nbsp;协同调度,以及支撑代理式&amp;nbsp;AI&amp;nbsp;任务规模化扩展所需的服务、应用与工具的高密度部署,同时还包括为AI数据中心提供更强的网络与数据面计算能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化吉瓦级规模基础设施,并与Meta自研的MTIA加速器协同运行。其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯——这些企业均与Arm合作部署Arm AGI CPU,以加速云、网络及企业环境中的AI驱动型服务落地。目前,永擎电子、联想及Supermicro已开放商用系统订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为进一步加速产品采用,Arm推出Arm AGI CPU 1OU双节点参考服务器,该服务器采用符合开放计算项目&amp;nbsp;(Open Compute Project,OCP)的DC-MHS标准规格设计。Arm计划向社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;图形处理器(GPU)因承担AI模型训练与运行任务而备受瞩目,而CPU在数据中心机架中同样扮演着不可或缺的关键角色。Arm在主推这款CPU时强调,此类芯片负责处理成千上万项分布式任务,包括内存与存储管理、任务调度、系统间数据传输等。该公司表示,CPU已成为“现代基础设施的节奏核心,保障分布式AI系统实现高效规模化运行”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm指出,这一趋势对CPU提出了全新要求,也推动处理器必须迭代升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,全球CPU供应也日趋紧张。据外媒此前报道,今年3月,英特尔与AMD均告知中国客户,受CPU短缺影响,产品交付周期将进一步延长。随着短缺状况加剧,电脑产品价格也已开始上涨。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&quot;&gt;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</guid>
      <pubDate>Wed, 25 Mar 2026 03:53:18 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>英伟达联手 Akamai:AI Grid 背后的 Token 成本与吞吐博弈</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/73/e6/73a91bfcbb4d60e78aa703a2bf7e3fe6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026年3月18日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的NVIDIA® AI Grid参考设计实施方案 。通过将NVIDIA AI基础设施集成到Akamai的架构中,并利用网络层面的智能工作负载编排,Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此举标志着去年底推出的&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-inference-cloud-transforms-ai-from-core-to-edge-with-nvidia&quot;&gt;Akamai Inference Cloud&lt;/a&gt;&quot;&amp;nbsp;在演进中迈出重要一步。作为首家实现AI网格运营化的公司,Akamai正部署&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-to-deploy-thousands-of-nvidia-blackwell-gpus-to-create-one-of-the-worlds-most-widely-distributed-ai-platforms&quot;&gt;数千个&lt;/a&gt;&quot;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/&quot;&gt;NVIDIA RTX PRO 6000 Blackwell服务器版GPU&lt;/a&gt;&quot;的平台,为企业提供能够运行智能体和物理AI的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“AI工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics),”Akamai云技术事业部首席运营官兼总经理Adam Karon表示 。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在4400个站点以合适的成本和时间路由AI工作负载”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“Token经济”的架构&amp;nbsp;&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI Grid的核心是一个智能编排器,充当AI请求的实时代理 。通过将Akamai在应用性能优化方面的专业知识应用于AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾AI工作负载提供了巨大的成本和性能优势 。例如:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质GPU周期 。Akamai Cloud基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型AI操作。实时响应能力:游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。核心节点的生产级AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/products/ai-enterprise/&quot;&gt;NVIDIA AI Enterprise&lt;/a&gt;&quot;、&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/&quot;&gt;Blackwell架构&lt;/a&gt;&quot;和&lt;a href=&quot;https://www.nvidia.com/en-us/networking/products/data-processing-unit/&quot;&gt;NVIDIA BlueField DPU&lt;/a&gt;&quot;,Akamai能够管理跨边缘和核心位置的复杂服务等级协议 :&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;边缘(4,400+个站点):为物理AI和自主智能体提供极速响应 。它利用语义缓存和WebAssembly等服务器端功能(Akamai Functions和EdgeWorkers)提供模型亲和性和稳定的性能 。Akamai Cloud IaaS与专用GPU集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而Blackwell GPU阵列则助力繁重的后训练和多模态推理 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;NVIDIA电信业务发展全球副总裁Chris Penrose表示:“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将NVIDIA AI Grid投入运营,Akamai正在构建生成式、代理式和物理AI的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一波AI基础设施由少数几个中心化地点的海量GPU集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建AI代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</guid>
      <pubDate>Tue, 24 Mar 2026 03:15:34 GMT</pubDate>
      <author>Akamai</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token 成本全球最低;2027 营收将到 1 万亿;Feynman 架构已在路上;</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/11/f4/115d52389f4a43db78a749c9b88b06f4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/5f/5fb74fd8c08eca05c28144f0711ed342.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;北京时间2026年3月17日凌晨两点半,当英伟达 CEO 黄仁勋穿着那件标志性的黑色皮衣踏上SAP中心的舞台时,台下近万名开发者心里清楚:这一次,老黄要讲的不是某个单一芯片,而是一整套AI“全家桶”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款“前所未见的芯片”,被普遍认为是采用台积电1.6nm&amp;nbsp;制程、引入光通信技术的下一代Feynman架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今天揭晓的Feynman架构、Vera Rubin平台的量产进展,以及面向企业级自主代理的开源平台NemoClaw,不过是这座基础设施落地所需的“钢筋水泥”。黄仁勋用两个小时向资本市场证明了一件事:英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为“数万亿美元AI基建时代”搭建完整技术栈的“总包工头”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;回顾 CUDA 20年:安装基数引爆飞轮,GPU算力成本持续下降&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;演讲刚开始,黄仁勋用近十分钟篇幅,回溯了CUDA架构诞生20年的演进历程。他将这套软件生态定义为英伟达一切业务的“中心”,并直言:真正难以复制的壁垒,是底层的安装基数。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“二十年来,我们一直致力于这种革命性架构——单指令多线程(SIMT),让开发者编写的扩展代码能够轻松生成多线程应用,编程难度远低于传统方法。”黄仁勋回忆道。他特别提到近期引入的“tiles”(张量核心编程块)功能,旨在帮助开发者调用Tensor Core以及支撑当今AI的数学结构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如今,围绕CUDA已形成庞大的工具链生态:数千种工具、编译器、框架和库;仅开源领域就有数十万个公开项目。“CUDA真正融入了每一个生态系统,”黄仁勋说,“这张图,基本上描述了100%的媒体战略——你们从一开始就看我讲这张幻灯片。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/84/84b6bc25cb1fa808e64e51b5de28dbaa.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他随后指向图表底层:“最难实现的东西在这里——安装基数。我们花了20年,才在全球建立起数亿块运行CUDA的GPU和计算系统。我们在每一朵云里,在每一家计算机公司里,服务几乎每一个行业。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋将这套逻辑总结为“飞轮效应”:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“CUDA的安装基数,是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,带来技术突破——比如深度学习,还有很多其他领域。这些突破催生全新市场,围绕它们形成新的生态,更多公司加入,进而扩大安装基数。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他称这一飞轮正在加速:“NVIDIA库的下载量增长极快,规模巨大,增速前所未有。这个飞轮让计算平台能够承载如此多的应用和突破,更重要的是,它赋予了这些基础设施极长的有效生命周期。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;背后的逻辑很直接:CUDA支持的应用程序范围足够广,覆盖AI生命周期的每一个阶段,对接每一种数据处理平台,加速各类科学原理求解器。“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当安装基数足够大、飞轮足够快、开发者触达足够广,并且软件持续更新时,结果就是计算成本不断下降。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“加速计算让应用性能大幅提升,而我们在其生命周期内持续优化软件,”黄仁勋总结道,“你不仅获得初期的性能跃升,还能获得持续的算力成本降低。我们愿意支持全球每一块GPU,因为它们架构兼容。为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他最后补充道:“这套动态机制,让NVIDIA架构不断扩展应用范围,加速自身增长,同时降低计算成本,最终催生新的增长。CUDA就在这一切的中心。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为结尾的轻松注脚,黄仁勋提及了GeForce的历史:“我知道你们中有多少人是从GFORCE成长起来的——那是最棒的市场营销,我们在很早之前就开始吸引未来的客户。”&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为数据处理打造新的核心软件库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;演讲中,老黄提到下面这张图是本场演讲中最重要的一张图,因为里面提到了英伟达为数据处理打造的新的核心软件库。老黄在演讲中谈到,随着 AI 的快速发展,全球数据处理体系正迎来一次结构性的变革,其中最核心的变化,是结构化数据与非结构化数据的全面加速。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/05/05fdddc05dd6bc73f4685555bc058402.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋指出,长期以来企业计算的基础建立在结构化数据之上。无论是 SQL、Spark、Pandas 等技术体系,还是诸如 Snowflake、Databricks、Amazon 的 EMR、Microsoft 的 Azure Fabric,以及 Google 的 BigQuery 等大型数据平台,本质上都在处理一种核心数据结构——数据框(DataFrame)。这些数据框可以被理解为巨型电子表格,承载着企业运营和业务决策所依赖的关键信息,是企业计算体系中的“事实来源”(ground truth)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去,对结构化数据的加速主要是为了提升企业的数据分析效率:让计算任务完成得更多、成本更低,并且能够在一天内更频繁地运行数据处理流程,从而让企业运营更加高效、更加同步。但在 AI 时代,这一逻辑正在发生变化。黄仁勋表示,未来不仅人类会使用这些数据结构,AI 系统和智能体(Agent)也将直接访问和使用结构化数据库,而 AI 的处理速度远远快于人类,这意味着数据处理基础设施必须获得数量级的性能提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/a7/a77054d74f495ee94b71011c7e669e9a.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,另一类更庞大的数据也正在成为 AI 时代的重要资源——非结构化数据。黄仁勋指出,向量数据库、PDF 文档、视频、语音和演讲内容等都属于非结构化数据。全球每年产生的数据中,大约 90% 都是非结构化数据。然而在很长一段时间里,这些数据几乎无法被计算系统有效利用,人们只是阅读这些内容,然后把它们存储在文件系统中,却很难对其进行查询和搜索。其根本原因在于,非结构化数据缺乏可直接建立索引的结构,要使用这些数据,首先必须理解其语义和目的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 AI 的多模态理解能力正在改变这一状况。正如 AI 已经在多模态感知和理解方面取得突破一样,同样的技术可以用于读取 PDF、理解视频和语音内容,并将其语义信息嵌入到可计算的数据结构中,从而使这些数据能够被搜索、查询和分析。换句话说,AI 正在把原本难以利用的海量非结构化数据转化为可计算的信息资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了支持这一转变,NVIDIA 构建了两项关键基础技术。黄仁勋表示,就像当年为 3D 图形计算推出 RTX 技术一样,NVIDIA 现在为数据处理打造了新的核心软件库。其中 cuDF 用于加速数据框计算,主要面向结构化数据处理;而 cuVS 则面向向量存储和语义数据,用于处理非结构化数据和 AI 数据。这两项技术将成为未来数据基础设施中最重要的平台之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋透露,目前这两项技术正在逐步融入全球复杂的数据处理生态系统。由于数据处理产业已经发展了数十年,围绕它已经形成了大量公司、平台和服务,因此将新的加速技术深度整合进整个生态需要时间。但 NVIDIA 已经看到越来越多的合作伙伴开始采用这些技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,IBM——SQL 的发明者之一,也是历史上最重要数据库技术的推动者——正在利用 cuDF 来加速其数据平台 IBM watsonx.data。在黄仁勋看来,这类合作标志着 AI 正在逐步重塑整个数据处理基础设施,使企业能够同时高效利用结构化数据和海量的非结构化数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI 原生行业的爆发和英伟达万亿美金的信心&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI重塑整个基础设施的另一个标志是涌现出海量的AI原生企业。去年,这个行业经历了史无前例的飞跃。风险投资对初创公司的投入高达 1500 亿美元,创人类历史之最。投资规模也从千万美元级跃升至数十亿美金级。究其原因,是这些公司历史性地都需要海量算力和 Token。无论它们是创造 Token 还是为 Token 增值,它们对算力的渴望是共同的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,“正如 PC、互联网、移动云革命催生了谷歌、亚马逊和 Meta,这次计算平台的迁移也将孕育出一批对世界未来至关重要的新巨头。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;那为什么这种AI企业的爆发会发生在这两年?黄仁勋称这因为发生了三件大事:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;ChatGPT 开启生成式 AI 时代: 计算从“基于检索”转向“基于生成”。这彻底改变了计算机的架构、供应和建设方式。推理 AI(o1/o3)的出现: AI 开始拥有反思、规划、拆解问题的能力。o1 让生成式 AI 变得可靠且基于事实。为了“思考”,输入和输出 Token 的使用量呈爆炸式增长。Claude Code 开启代理(Agentic)时代: 这是首个代理模型。它能阅读文件、编码、编译、测试并迭代。它革新了软件工程。现在 NVIDIA 内部每个工程师都在使用 AI 代理辅助编程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/17/17118ee96a34b892bf1037971287a0d3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,“AI 已经从“感知”进化到“生成”,再到“推理”,现在已经可以执行极其高效的实际工作。 “推理拐点”已经到来。 AI 要思考、要行动、要阅读、要推理,每一环都在进行推理(Inference)。现在已经远超训练阶段,进入了推理的疆场。过去两年,计算需求增长了约 10,000 倍,而使用量增长了约 100 倍。我深感这两年的计算需求实际增长了 100 万倍。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;紧接着,老黄又分享了几个数据,让现场的气氛达到了高潮。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他高兴地向观众分享道,“去年我说 Blackwell 和 Rubin 到 2026 年的订单额将达 5000 亿美元,你们可能没觉得惊艳。但今天,在这里,我预见通过 2027 年的营收将至少达到 1 万亿美元。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他进一步强调了这不是空话,因为计算需求只会更高。2025 年是 NVIDIA 的“推理之年”,NVIDIA 系统是全球成本最低的 AI 基础设施——使用寿命越长,成本就越低。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他这么说的背后有着坚实的数据支撑。目前,全球三分之一的 AI 计算开源模型(如 Anthropic 和 Meta 的模型)都跑在英伟达芯片上。NVIDIA 是全球唯一能运行 AI 所有领域的平台:语言、生物、图形、视觉、机器人、边缘或云端。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在英伟达的业务中,60% 来自顶级云服务商(Hyperscalers),不仅支持其内部 AI 消费(如推荐系统、搜索向大模型的迁移),更通过英伟达的生态系统加速每一家 AI 实验室。另外 40% 则遍布区域云、主权云、企业级服务器及工业自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0e/0e806cea61a12db814d69e0f9ed55533.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Token 成本全球最低&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋介绍了 NVIDIA 在 AI 推理基础设施上的最新进展。他表示,AI 性能的突破并不仅来自单一技术,而是由计算架构、软件栈和算法的系统级协同设计共同推动。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋提到,NVIDIA 推出的 NVFP4(FP4)计算体系不仅是一种更低精度的数据格式,而是一种全新的 Tensor Core 计算架构。通过 NVFP4,NVIDIA 已经实现了在推理阶段几乎不损失精度的情况下,大幅提升性能和能效,同时这一计算格式也开始应用于模型训练。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结合 NVLink 72 高速互连,以及 Dynamo、TensorRT-LLM 等软件优化,NVIDIA 构建起一套面向大模型推理的完整技术体系。为优化底层软件与 GPU 内核,公司还投入数十亿美元建设 NVIDIA DGX Cloud 超级计算平台,用于开发和调优 AI 推理软件栈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2c/2ca4a822b3054612b6ec3b2be3b1ae20.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋强调,很多人曾认为推理是 AI 系统中最简单的部分,但实际上 推理既是最困难的环节,也是最关键的商业环节,因为它直接决定 AI 服务的收入来源。根据研究机构 SemiAnalysis 的评测,在数据中心层面,衡量 AI 系统效率的关键指标是每瓦特能够生成多少 token(tokens per watt)。由于数据中心受到电力等物理条件限制,本质上更像一个“AI 工厂”,企业必须在固定功率下尽可能多地生产 token。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;评测结果显示,NVIDIA 在 AI 推理性能和效率上依然保持领先。按照传统 Moore&#39;s Law,新一代芯片通常只能带来约 1.5 倍性能提升,但从 Hopper H200 到 Grace Blackwell NVLink 72 架构,NVIDIA 的 每瓦特性能提升约 35 倍。SemiAnalysis 分析师 Dylan Patel 甚至认为实际提升接近 50 倍。这一架构也带来了更低的 token 成本,在当前市场上具有明显优势。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3f/3f362a51e80793a3d483c69b03eb9744.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,这种极致的软硬件协同设计还能显著提升现有系统性能。例如在部分 AI 推理平台中,仅通过更新 NVIDIA 软件栈,就能将生成速度从 约 700 token/秒提升至接近 5000 token/秒,性能提升约 7 倍。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋强调,NVIDIA 的 Token 成本在世界范围内是“不可触碰”的。 即便竞争对手的架构是免费的,它也不够便宜。因为建立一个 1GW 的工厂,即便里面什么都不放,15 年的摊销成本也高达 400 亿美元。你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的 Token 生产成本。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/61/616c7d590295721c6809df83623166a3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在他看来,数据中心的角色正在发生变化:过去它是存储和计算中心,而未来将成为生产 token 的 AI 工厂。随着 AI 的普及,无论是云厂商、AI 公司还是传统企业,都将开始从“Token 工厂效率”的角度来衡量自己的计算基础设施,因为在 AI 时代,token 将成为新的数字商品,而计算能力则直接决定企业的价值创造能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Vera Rubin 时代降临&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据介绍,这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。该平台包含40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片、1152个&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/rubin/&quot;&gt;NVIDIA Rubin&lt;/a&gt;&quot;&amp;nbsp;GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。&amp;nbsp;该平台目前已全面投产,并得到了包括 Anthropic、OpenAI、Meta 和 Mistral AI 以及所有主要云提供商在内的众多客户的鼎力支持。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f4/f4136a5debe86247ff02c8d0745cfa87.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,过去十年间 AI 计算能力已经实现了 约 4000 万倍的提升,而这一变化正推动数据中心向“AI 超级计算机”形态演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“过去我发布产品时,可能只是手里举着一块芯片(比如 Hopper);但现在,当我谈到 Vera Rubin 时,我说的是一个全栈垂直整合的庞大系统。”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋展示了 NVIDIA 最新的 Vera Rubin AI Supercomputer 系统,并强调这是一套从硬件到软件 完全纵向整合(vertically integrated) 的计算平台,专门为 Agentic AI(智能体 AI) 设计。随着大语言模型不断扩大规模、生成更多 token 并处理更长上下文,系统不仅需要更强的计算能力,还需要更高带宽的内存和存储访问能力,例如 KV Cache、结构化数据处理(cuDF)以及非结构化向量数据(cuVS)等。因此,NVIDIA 对整个系统架构进行了重新设计,包括计算、存储和网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/71/717f0b14f1c8c06e588ccd08e1f12e2b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在硬件层面,NVIDIA 为这一平台开发了一款全新的数据中心 CPU——NVIDIA Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用 LPDDR5 内存 的 CPU,从而实现领先的性能功耗比。黄仁勋透露,这款 CPU 已经开始单独销售,并有望成为 NVIDIA 的一项数十亿美元级业务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在系统设计方面,Vera Rubin 超级计算机采用 100% 液冷架构,并通过 45°C 热水散热,大幅降低数据中心制冷成本。同时,系统内部布线被大幅简化,使得整机安装时间从过去的两天缩短至约两小时,从而显著提升数据中心部署效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;网络互连是这一系统的核心技术之一。NVIDIA 在该平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。黄仁勋表示,这是目前全球最先进、实现难度最高的大规模 GPU 互连系统之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/29/29fdbedbddd9ed2df005c08b7e06f053.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还推出了全球首个 CPO(Co-Packaged Optics)光电共封装的 NVIDIA Spectrum-X Ethernet Switch,将光模块直接集成到芯片封装中,实现电子信号与光信号的直接转换,从而显著提升数据中心网络带宽与能效。这项技术由 NVIDIA 与台积电共同开发,目前已经进入量产阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在更大规模的系统扩展上,NVIDIA 还展示了 Rubin Ultra Compute System。该系统通过新的 Kyber 机架架构,可以在一个 NVLink 域中连接 144 个 GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为 NVLink 交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e236d53b93509b9d41531b3d9018189c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,随着 AI 模型规模和推理需求持续增长,未来的数据中心将越来越像一台完整的超级计算机。而像 Vera Rubin 这样的系统,正是为下一代 AI 工作负载——尤其是智能体系统——而设计的核心计算基础设施。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/10/1011821217d3744426d719db8dd37ce6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;下一代 AI 平台:Feynman 架构前瞻&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,值得注意的是,NVIDIA 的&amp;nbsp;Feynman GPU 架构早在 2025 年 GTC 大会上就已得到确认。在本次演讲中,NVIDIA 列出了 Feynman GPU 与下一代 HBM、Vera CPU 以及构成 AI 数据中心基础的其他几个连接芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cd302fb2aecc077ced93e4f635488ae5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;存储性能是制约 AI 推理的瓶颈,为此 NVIDIA 改变了以往使用标准 HBM 的策略,转而为 Feynman GPU 配备 定制化 HBM 技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;超越标准: 现有的 Rubin 系列分别采用 HBM4 和 HBM4E,而 Feynman 将跳过通用规格,可能采用基于 HBM4E 的定制增强版 甚至提前布局 定制化 HBM5 方案。深度整合: 这种定制化方案允许 NVIDIA 将部分 GPU 的数据处理逻辑直接嵌入存储底层的 Base Die(基础晶圆)中,从而实现超高的带宽与极低的延迟。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 平台将不再沿用目前的 Vera CPU 架构,而是确认搭载代号为 Rosa 的全新 CPU。&lt;/p&gt;&lt;p&gt;这种命名延续了 NVIDIA 以卓越女性科学家命名的传统,Rosa 架构致敬了美国物理学家、诺贝尔奖得主 罗莎琳·萨斯曼(Rosalyn Sussman Yalow),同时也呼应了发现 DNA 结构的 罗莎琳·富兰克林(Rosalind Franklin)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Rosa CPU 被设计为 AI 智能体(Agentic AI)的编排中枢,旨在更高效地调度 GPU、存储与网络之间的 Token 流动,优化处理极其复杂的逻辑决策任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 时代标志着 NVIDIA 将计算、存储和封装三者进行了深度耦合。通过“3D 堆叠核心 + 定制化内存 + 专用 Rosa CPU”的组合,NVIDIA 正在将数据中心从传统的服务器集群演进为一台高度集成的“巨型超级计算机”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f9/f900e49838d48102684c87012bc4328c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推出&amp;nbsp;NVIDIA DSX——面向“AI 工厂”的基础设施平台&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随后,黄仁勋还介绍了 AI 基础设施与数字孪生技术的发展,以及 NVIDIA 在其中的角色。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,当前 AI 基础设施的建设已经开始依赖完整的数字仿真体系。在数据中心建设阶段,系统会通过多种行业领先的工程仿真工具进行验证,例如使用 Siemens Simcenter STAR-CCM+ 进行外部热力学仿真、Cadence Design Systems 的相关工具进行内部热设计、ETAP 进行电力系统分析,以及 NVIDIA 自身的网络模拟平台 NVIDIA DSX Air。通过这些工具,可以在实际建设前完成“虚拟调试”(virtual commissioning),从而大幅缩短数据中心建设周期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当数据中心正式投入运行后,其数字孪生系统会成为基础设施的“操作系统”。AI 智能体会与 NVIDIA DSX MaxQ 协同工作,动态调度整个基础设施:实时监控冷却、电力和网络系统,并不断优化计算吞吐量和能源效率。同时,AI 还可以根据电网实时负载和压力信号动态调整功率分配,从而在保证稳定性的同时提升整体效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 及其合作伙伴正在全球范围内加速建设 AI 基础设施,以实现更高水平的可靠性、效率和计算吞吐能力。这一体系的核心平台就是 NVIDIA 新推出的 NVIDIA DSX——一个面向“AI 工厂”的基础设施平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/56/560d03359a09e9f49edcfae37bb10088.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在数字孪生方面,NVIDIA 的 NVIDIA Omniverse 平台被设计用于承载全球规模的数字孪生模型。从地球级别的系统到各种规模的工业设施,未来都可以在这一平台上构建和运行数字孪生。黄仁勋特别感谢生态合作伙伴,并表示这些企业在过去几年中迅速加入 NVIDIA 的生态,共同建设可能是“世界上最大的计算系统”,并在全球范围内部署。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还透露,NVIDIA 的 AI 计算基础设施正在向太空延伸。公司此前已经在卫星领域部署计算系统,并计划与合作伙伴开发新的太空计算平台 Vera Rubin Space One,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,因此系统冷却将成为一项极具挑战的工程问题,目前 NVIDIA 正在与工程团队共同研究解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6ef916d83130200f9c8073510f96b7ef.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;联合 OpenClaw之父推出&amp;nbsp;NemoClaw&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲中对软件开发者影响最深远的部分是老黄对于最近爆火的“龙虾”现象的评论。黄仁勋高度评价了由 Peter Steinberger 创建的开源项目 OpenClaw。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,OpenClaw 的增长速度甚至超过了 Linux 在过去几十年的传播速度,其影响力“极其深远”。NVIDIA 也宣布将正式支持这一项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/8228f2db32767aceb5d53a3803f209ba.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋提到,AI大佬 Andrej Karpathy 最近提出的一种“AI 研究助手”模式很好地体现了智能体系统的能力:用户只需给 AI 一个任务,然后去休息,AI 便可以在后台自动运行数十甚至上百个实验,不断保留有效结果、淘汰无效方案。类似的案例正在不断出现。例如有人将 OpenClaw 安装在自己父亲的设备上,通过蓝牙连接酿酒设备,实现从生产流程到网站订单系统的全流程自动化,甚至在深圳已经出现用户排队购买相关产品的案例。随着这一项目迅速流行,社区甚至已经开始举办专门的开发者活动,足以说明其热度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋认为,从技术本质上看,OpenClaw 可以被理解为一种智能体计算机的操作系统。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;正因如此,OpenClaw 的意义类似于过去的关键基础软件。黄仁勋表示,就像 Linux 让个人计算机和服务器生态得以发展,Kubernetes 推动了云计算时代的基础设施,而 HTML 构建了互联网应用基础一样,OpenClaw 为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——“你的 OpenClaw 战略是什么?” 因为企业软件正在从传统工具型软件,转向以智能体为核心的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在传统企业 IT 架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生变化。黄仁勋认为,未来几乎所有 SaaS(Software as a Service) 公司都将演变为 AaaS(Agentic as a Service)——即以智能体为核心的服务平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。为此,NVIDIA 与 OpenClaw 作者 Peter Steinberger 以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出 NVIDIA NemoClaw 参考架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/9d/9ddf87f17fe0a404d32251fa6cb37597.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该架构在 OpenClaw 基础上加入了名为 OpenShell 的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行 AI 智能体。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推进开放模型生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还在推进开放模型生态。黄仁勋表示,现实世界的需求高度多样化,不可能由单一模型满足所有行业。因此,开放模型正在形成一个规模庞大的 AI 生态系统,目前已经包含接近 300 万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域。作为其中的重要贡献者,NVIDIA 已发布多条开放模型产品线,包括 Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并同时开放训练数据、训练方法和框架工具,以推动整个 AI 生态的发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 的开放模型之所以能够在多个榜单中处于领先位置,不仅因为其性能达到世界级水平,更重要的是公司会持续投入长期研发。“我们不会停止改进这些模型,”他说。例如 Nemotron 模型已经从 Nemotron 3 走向 Nemotron 4,Cosmos World Foundation Model 也从 Cosmos 1 发展到 Cosmos 2,而机器人模型 Project GR00T 也在不断迭代。NVIDIA 的策略是“纵向整合、横向开放”,在持续提升模型能力的同时,让整个生态都能参与到 AI 发展中来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还展示了 Nemotron 3 在智能体框架 OpenClaw 中的表现。根据公开评测数据,当前全球排名前三的模型均处于这一技术前沿。黄仁勋表示,NVIDIA 不仅希望构建领先的基础模型,更重要的是让开发者能够在此基础上进行微调和后训练,构建适用于不同领域的专用 AI 系统。为此,NVIDIA推出了 Nemotron 3 Ultra 作为新一代基础模型,并希望借此帮助各个国家和行业构建属于自己的 “主权 AI(Sovereign AI)”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步推动这一生态,NVIDIA 在大会上宣布成立 Nemotron Coalition。该联盟将与多家技术公司合作,共同推进 Nemotron 系列模型的发展。参与合作的公司包括图像技术公司 Black Forest Labs、AI 编程平台 Cursor、智能体开发框架 LangChain、欧洲 AI 公司 Mistral AI、AI 搜索平台 Perplexity AI、印度 AI 公司 Sarvam AI 以及 Thinking Machines Lab 等。黄仁勋表示,随着越来越多企业加入合作,AI 模型将能够覆盖从语言到生物、从物理到自动驾驶等广泛领域。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在企业软件层面,黄仁勋再次强调,未来所有公司都需要制定自己的 OpenClaw 战略。随着智能体系统的发展,传统的 SaaS 软件模式将逐渐转向 Agentic as a Service(AaaS)。企业不仅会使用 token 来增强员工生产力,还会通过 AI 工厂生产 token,并向客户提供智能体服务。他甚至预测,未来科技公司招聘工程师时,除了薪资外,还会提供“token 配额”,因为拥有更多 AI 计算资源的工程师能够获得更高的生产效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;除了数字智能体,NVIDIA 还在推进 物理 AI(Physical AI)。黄仁勋表示,目前全球几乎所有机器人公司都在与 NVIDIA 合作,现场展示的机器人数量超过 100 台。NVIDIA 为机器人开发提供完整技术体系,包括训练计算平台、合成数据与仿真平台,以及部署在机器人内部的计算系统。同时,公司还提供完整的软件和模型生态,例如机器人仿真与训练平台 NVIDIA Isaac Lab、世界模型 Cosmos World Foundation Model 以及机器人基础模型 Project GR00T。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/99/992411aed6580dcd6e779e05cfe49082.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在自动驾驶领域,黄仁勋表示“自动驾驶的 ChatGPT 时刻已经到来”。基于 NVIDIA Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。NVIDIA 还宣布新的 Robotaxi 合作伙伴,包括 BYD、Hyundai Motor Company、Nissan 和 Geely,这些公司每年合计生产约 1800 万辆汽车。同时,NVIDIA 还将与 Uber 合作,在多个城市部署自动驾驶出租车网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在机器人产业方面,NVIDIA 正与 ABB、Universal Robots、KUKA 等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。黄仁勋还提到,未来通信基础设施也将成为 AI 系统的一部分,例如 T-Mobile 的通信塔未来可能演变为“机器人 AI 基站”,能够实时分析交通和网络情况并动态调整信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在总结演讲时,黄仁勋表示,AI 产业正同时经历三大变革:AI 推理与 AI 工厂、智能体系统革命,以及物理 AI 与机器人时代。随着这些技术逐渐成熟,计算能力、AI 模型和基础设施将共同推动全球产业进入新的发展阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</guid>
      <pubDate>Tue, 17 Mar 2026 00:52:46 GMT</pubDate>
      <author>李冬梅</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>国内首个国产AI推理千卡集群落地梁文锋家乡,采用云天励飞全自研AI推理芯片</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/e7/bdf9600354c5a761e126505b32d6b0e7.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI算力从“训练优先”走向“推理优先”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的 Seedance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Gartner 预测,到 2026 年,终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约55%的AI专用云基础设施支出将用于推理工作负载。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;面向推理时代的千卡集群架构&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;自研芯片构建低成本推理能力&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。&lt;/p&gt;&lt;p&gt;根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</guid>
      <pubDate>Thu, 12 Mar 2026 03:55:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>传字节今年要造10万颗推理芯片,1600 亿预算砸向AI!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/44/51/44bd7c5dd1b98a4e9a2edaa8afcf1551.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;近日,据两位知情人士透露,字节跳动正研发AI芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为AI 推理任务设计,公司计划今年至少生产10 万颗,并有望逐步将产能提升至35 万颗。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&quot;&gt;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</guid>
      <pubDate>Wed, 11 Feb 2026 09:40:36 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/b6/6d/b63c9c9733211c111d3a1b60fdb3036d.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/88/882ad7697fdc8328b84b398e401f293d.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能的繁荣与底层的“枯竭”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中最核心的一环,正是高性能算子的开发。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;KernelCAT:计算加速专家级别的 Agent&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/8f/8faf0bf997be96bcfd5f8bcb5396620f.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/69/6920f6c41c59b89f3d72dd73255fd27b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为国产芯片生态写高性能算子&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/90/90a7b4e9f17290018d9342b3ed31e0a4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;没有坚不可破的生态,包括 CUDA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上&quot;说上了母语&quot;。实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://kernelcat.cn/&quot;&gt;KernelCAT 限时免费内测&lt;/a&gt;&quot;中,点击链接,马上体验~&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/14/140a6c0e97d8e4f35ef00ee8f4f9f40e.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</guid>
      <pubDate>Fri, 30 Jan 2026 09:46:03 GMT</pubDate>
      <author>InfoQ</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9f/e5/9f01dbbbe47906ef536a31f2a1f344e5.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;采访嘉宾 | 天数智芯 AI 与加速计算技术负责人 单天逸&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那一刻,下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断,被放到了更公开也更严苛的舞台上,谁能撑起资本市场和大众期待,谁就能撑起市值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式,把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中,围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考,天数智芯公布了过去一代以及未来三代的架构路线图:&lt;/p&gt;&lt;p&gt;2025 年,天数天枢架构已经超越英伟达 Hopper,在 DeepSeek V3 场景中实测性能数据超出 20%;2026 年,天数天璇架构对标 Blackwell,新增 ixFP4 精度支持;2026 年,天数天玑架构超越 Blackwell,覆盖全场景 AI/加速计算;2027 年,天数天权架构超越 Rubin,支持更多精度与创新设计。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/93a5511a47ea59c34947fa5622e43f57.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;国产 GPU,开启 AI++ 计算新范式&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;根据天数智芯公布的架构路线图及阶段发展目标,在 2027 年之前,天数智芯将通过多代产品完成对英伟达的追赶;在 2027 年之后,将转向更富创新性的架构设计,聚焦更具突破性的超级计算芯片架构设计。看似宏大,但对于仍处于爬坡阶段的国产 GPU 行业来说,这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越,国产 GPU 才有资格进入更大规模的生产环境中。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而在规模化落地阶段的竞争,焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料,当算力消耗开始对标真实业务产出,无论是国际顶尖 GPU 厂商还是国内 GPU 企业,核心命题都只有一个:如何在真实业务中,把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一命题,天数智芯提出了两条明确的架构判断:其一,回归计算本质;其二,提供高质量算力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;回归计算本质,核心在于“不设限”&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去十年,规模的快速扩张带来了阶段性的产业繁荣,也使得算力实现野蛮增长。但这种粗放式发展,也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例,路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此,计算、通讯、存储都会带来各种障碍。所以,幻想奔跑在平坦的赛道上毫无意义,产业真正需要的,是能够翻山越岭的全能越野车。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/64/64709d562cae987749119744a750d556.webp&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;广义上,芯片可分为专用芯片和通用芯片:专用芯片类似“应试教育”,它的优势和边界都很清晰,能加速特定算法、特定指令,比如矩阵乘法、Softmax 这些主流任务,但一旦计算范式发生变化,适应空间就会迅速收紧;通用芯片的设计哲学,不是为了押中某一类算法,而是回归计算本质,覆盖更广泛,甚至全新的计算需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来,硬件与算法的关系本来就不应该相互掣肘,算力的僵化不应限制算法的进化,而是通过通用算力为探索未知算法提供一个坚实的底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑探索未来算法的关键,实则就是“不设限”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于这一判断,天数智芯的芯片设计哲学,在计算层面追求的是覆盖几乎所有的数学运算图谱,而非某一类、某一种计算:从 Scalar、Vector、Tensor 到 Cube,支持从高精度科学计算到 AI 精度计算,从 MMA 到 DPX,不管是 AI 的 Attention 机制、前沿的科学计算,还是未来的量子计算相关模拟,天数智芯全都支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在执行层面,追求的是更高的算力利用率:大、中、小任务会被精准分配到不同的计算单元中执行,配合高密度的多任务核心设计,算力可以被拆解、调度得更加精细,从而减少算力浪费,提高计算效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/d2/d21f6e06061719cd4a9a199eb6e5fed0.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种“不设限”的设计哲学,让天数天枢架构得以实现三大创新,这也是天枢能够超越英伟达 Hopper 架构的根因:&lt;/p&gt;&lt;p&gt;TPC BroadCast(计算组广播机制)设计:不是简单粗暴地放大带宽,而是从单位带宽的使用效率入手,存在相同地址的数据时,芯片内部的 load store 单元不会进行重复、无用的访问,而是在上游进行 BroadCast,减少不必要的内存访问次数,从而有效降低访存功耗,等效提升访存带宽,用更小的功耗和面积实现相同的功能。Instruction Co-Exec(多指令并行处理系统)设计:在指令执行层面,通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力,不仅支持 Tensor Core 与 Vector Core 的并行协同,还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中,通过极低的成本增强了不同指令之间的并行处理能力,无论是 MLA、Engram,还是面向更复杂模型场景的计算需求,都可以在这一并行框架下被同时处理,从而提升整体执行效率。Dynamic Warp Scheduling(动态线程组调度系统)设计:随着 MoE 架构在大模型中被广泛采用,模型厂商普遍面临推理效率低等现实挑战。为提升并行度,微架构层面允许芯片中同时驻留更多 warp,但 warp 的增加也意味着对计算资源的竞争更为激烈。为此,天数智芯首创了 Dynamic Warp Scheduling 机制,通过动态调度让不同 warp 在资源使用上实现有序协作,避免计算资源闲置,也减少了对同一资源的无序争抢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这三项设计的出发点本质上都指向相同的目标:高性能与高效率。数据显示,这些创新让天数天枢的效率较当前行业平均水平提升 60%,基于这些效率优势,实现在DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从这三项设计中可以看出,天数智芯在架构层面的创新,并不是围绕某一个具体模型或算子展开,而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示,在天数智芯提出 Dynamic Warp Scheduling 设计之前,几乎没有人从调度机制的角度去思考,还能为 MoE 带来哪些性能空间。从更深层次意义来看,这类微架构层面的调度和优化,一直是英伟达、AMD 等巨头保持领先的“内功”,天数智芯在这些单点上的突破,实际上也是国产 GPU 向顶级玩家看齐的重要一步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;提供高质量算力:高效率、可预期、可持续&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在天数智芯的架构语境中,回归计算本质并不是一个抽象的口号,而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责,高质量算力才成为可能。基于这一判断,天数智芯将高质量算力拆解为三个核心维度:高效率、可预期与可持续。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/7a/7ace836faccd159427d7c71b330df3ca.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;高效率意味着能为客户创造最优的 TCO(总体拥有成本),节省使用成本;可预期则通过精准的仿真模拟,让客户在拿到芯片、部署算力之前,就能清晰预判最终的性能表现,做到所见即所得;可持续指的是从现在主流的 CNN、RNN,到当下火热的 Transformer,再到未来还未诞生的全新算法,算力始终能无缝适配。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这三个方向,天数智芯在架构及系统设计上,选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项,其实哪个都值得单独展开探讨。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;比如,基于“不设限”的设计理念,在当前 PD 分离的架构下,天数智芯的 GPU 不只做计算,还支撑通信、KV 数据传输这些关键任务,通过打造 Ⅸ 并行任务处理模块,GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务,让它们并行不冲突。在真实业务场景中,该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/b4/b473b037acf6e72c5b667dd838e26e33.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为了提高算力可持续性,天数智芯统一了芯片内、外,来构建算力系统,并通过不断更新的软件栈和软件系统,三类库共同支持和保障多场景的高效运行。其中,AI 库、通讯库(ixccl)、加速计算库是基石,在基石之上,直接支撑各类神经网络模型CNN、Transformer、LSTM 与高性能计算的各个领域,并以此提供各类 AI 应用,包括支持 AI4Sci 的相关应用,如蛋白质结构预测(AlphaFold)、医疗影像分析(Clara)、气候模拟(Earth2)等,以及量子计算的平台 cudaQ、分子动力学 Gromacs,大规模方程组求解器 HPL 等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这套算力系统被命名为 IXAI++,寓意为自我迭代,不止于 AI。其最终的目标是,成为一座连接算法创新与物理世界的桥梁,带领人类科技通往未知探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但给业内带来最多惊喜的,是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题,后者解决的是企业部署算力系统最头疼的不可控难题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型推理场景中,长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上,Attention 的执行效率依然不高,如果不对其进行针对性优化,首字延迟将明显偏高,模型响应速度差,推理成本高昂,最终影响大模型在真实业务中的可用性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一痛点,天数智芯设计了 Ⅸ Attention 模块,从底层对 Attention 的执行路径进行重构:Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子,Ⅸ Attention 模块的核心思路,是将这些分散的组件有机地拼装到一起,如同指挥一支乐队一般,确保多种乐器能够和谐共鸣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/19/1931cf31a98c3a57d61ca5cbaf8caa44.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“其中的技术难点在于调度,多种乐器需要同时演奏,任何一个环节拖慢节奏,都会成为整个系统的瓶颈”,单天逸表示,在实际的长上下文推理中,Ⅸ Attention 模块有效改善了 Attention 的执行效率,带来了约 20% 的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;针对企业部署算力系统最头疼的不可控难题,天数智芯搭建了 IX-SIMU 全栈软件仿真系统,这套仿真系统的目标,就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真,能精准输出任意模型的性能表现,提升算力在真实场景中的可控性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c1/c15d79ed9346cf49898ee0193b585926.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;单天逸表示,在算力系统的仿真与评估中,最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于,能够对底层指令执行进行精细建模。在实际使用中,用户只需输入软件代码,IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件,匹配网络拓扑,再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略,最终精准输出 Deepseek、千问等任意模型的性能表现,实现从单卡到万卡集群的 “精密扩展”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕高效率、可预期、可持续三大判断,天数智芯在算力侧从硬件架构到系统设计进行了整体布局,并用未来三代架构路线图提前回答下一个问题:当算力僵化开始掣肘未来计算,架构层还能怎么演进?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;决定上限的,最终还是应用和生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;架构代表的其实是下限,决定上限的,最终还是应用和生态。数据显示,截至 2025 年年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用,服务客户数量超过 300 家,并通过软硬件协同优化,完成 1000+ 次模型部署,让产品能力真正达到商用级别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑这些场景应用的,早已不是一个产品的能力范畴,而是“产品 + 解决方案” 双轨模式,这一模式其实与英伟达定位非常相近,聚焦的都是解决方案落地。在大模型深入产业应用的当下,这套组合打法相当务实,毕竟应用落地才是唯一真理,谁能在企业真实业务场景中快速部署、持续稳定运行,谁就能赢得先机。在速度和兼容性上,天数智芯也交出了一份不错的答卷:国内新的大模型发布当天便能跑通,目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子,数千卡集群稳定运行超 1000 天。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这次发布会上,天数智芯面向物理 AI 场景落地,一口气发布了四款边端算力产品“彤央”系列:包括边端 AI 算力模组 TY1000、TY1100,以及边端 AI 算力终端 TY1100_NX、TY1200。 据了解,“彤央”系列产品的标称算力均为实测稠密算力,覆盖 100T 到 300T 范围。数据显示,在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中,彤央 TY1000 的性能全面优于英伟达 AGX Orin。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在发布会中,天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用:具身智能领域,为格蓝若机器人提供高算力、低延迟的“大脑”支撑;在工业智能领域,落地园区与产线,推动产线自动化升级;在商业智能领域,瑞幸咖啡数千家门店部署彤央方案,高效处理视频流、挖掘消费数据价值;在交通智能领域,与“车路云一体化”20 个头部试点城市合作,验证车路协同方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整体来看,天数智芯走的路线虽然是底层技术自研,但在生态上并非封闭。在生态建设上,天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议,进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态,持续开放底层能力,降低开发者迁移和使用门槛。未来,天数智芯还会持续增加在生态共建上的资本与人力投入,从应用到芯片与开发者一同优化 AI 应用系统,共同为应用落地提供性能、性价比与生态易用的价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从底层架构到产品,从应用到生态,国产算力正在实现完整闭环,这种从芯片到生态的协同能力,不仅让国产算力更可用、更可持续,也为行业探索新模式提供了更多想象空间。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</guid>
      <pubDate>Thu, 29 Jan 2026 06:54:56 GMT</pubDate>
      <author>凌敏</author>
      <category>企业动态</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>从算力规模到系统级竞争:智算竞争核心已变,金山云战略升级曝行业“隐形拐点”</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/1f/bd2b4b1668393b4b5d9bf91cf845761f.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;从训练到推理:智算需求正在经历一场结构性转向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在2026年1月21日举办的金山云年度Tech Talk上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token如何被消耗、算力如何被组织展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;变化首先体现在财务数据上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以2025&amp;nbsp;年第三季度为例,智算云账单收入达到7.8亿元人民币,同比增长接近120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理侧的变化更加显著。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日Token调用量已达到50万亿级别。这是当前国内少数被明确对外公布的Token规模数据之一,也成为行业理解推理负载的重要参考。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动Token消耗快速增长。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在所有推理场景中,编程类应用被反复强调。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;刘涛指出,2025年一个尤为显著的变化在于:编程相关请求正在成为Token消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code的大量代码本身,正是由Claude Code参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从全球Token调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;&lt;/p&gt;&lt;p&gt;其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;&lt;/p&gt;&lt;p&gt;其三,Vibe Coding在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了满足更多元化的需求,刘涛表示,2025年,智算平台金山云星流已完成从资源管理平台向一站式AI训推全流程平台的战略升级。从训推平台、机器人平台到模型API服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型API服务商业化落地的全链路闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;实现三维进阶,智算云AI势能全释放&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管各行各业大规模应用AI还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈AI能力。从2023年的智算网基础设施,到2024年智算云的平台化和Serverless化,再到2025年的一站式AI训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接AI应用爆发做好了充分准备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的AI开发体验。自研的GPU故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;面向大模型应用开发者和企业用户,金山云星流平台模型API服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型API服务已积累诸多行业客户。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近40种不同模型,包括DeepSeek、Xiaomi MiMo、Qwen3、Kimi等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦AI业务创新和价值创造。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</guid>
      <pubDate>Tue, 27 Jan 2026 03:58:35 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>聚焦算力市场痛点,嘉唐算力供应链平台重磅发布</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/4d/34/4d3f7yy64d506d55f7b8018028747e34.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在近期举行的第五届AIGC开发者大会上,上海嘉唐科技发布了名为“算力供应链服务平台”的全栈式解决方案。该平台以“生态共建,供需协同”为理念,围绕算力交易、金融配套、资产管理及算电协同等维度展开设计,旨在应对当前算力行业存在的价格透明度低、流程不规范、服务缺乏标准化及供需匹配效率不高等问题,致力于为构建全国算力服务统一市场提供技术支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当前,算力作为数字经济发展的重要基础设施,已成为衡量新质生产力的关键指标之一。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据统计,近五年来我国算力产业规模年均增速超过30%,但与此同时,行业仍面临资源结构性失衡、整合程度不足等制约高质量发展的挑战。为此,市场上陆续出现多种服务模式探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;嘉唐科技此次推出的平台整合了撮合与直营等模式,尝试在供需对接、资源保障、产业链协同及能耗优化等方面提供系统性支持,其中算电协同方案通过引入绿电直供等方式,尝试推动算力行业能耗成本优化与绿色化转型。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从平台架构来看,其采用“1+3+N”的设计思路,即一个综合服务底座,涵盖算力交易、资产管理、金融服务三大核心模块,并计划拓展至多个行业应用场景。该架构试图在资源整合、智能调度与服务标准化等方面做出探索,与行业主管部门推动的算力互联互通方向具有一定的契合性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在生态合作方面,多家来自能源、金融、科技等领域的企业参与了此次发布仪式,并表达了在资源共享与产业协同方面的合作意向。行业分析指出,此类跨领域协作有助于将企业单体优势扩展为产业链整体效能,对推动AI技术在不同行业的落地应用可能形成一定支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;业内观察显示,随着算力在经济社会各领域渗透不断加深,构建开放、高效、协同的算力供应链体系逐渐成为行业共同关注的议题。相关平台的出现,反映了市场主体在整合算力资源、提升服务能效方面的尝试,其长期成效仍有赖于技术可靠性、模式可持续性及行业协同机制的进一步完善。在算力市场竞争日趋全球化、绿色化的背景下,此类探索也为推动产业高质量发展提供了可供观察的案例。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</guid>
      <pubDate>Tue, 20 Jan 2026 09:59:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>MUSA开发者大赛丨GEMM优化挑战赛火热开启!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/fb/74/fb8b0824bb93b0825f442f79a92c3474.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;MUSA开发者集结!与摩尔线程算力共振,谁将登顶矩阵乘法的性能巅峰?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;国产算力生态的崛起,不仅需要坚实可靠的硬件基座,更呼唤能够彻底释放硬件潜能的极致软件优化能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;GEMM(通用矩阵乘法),正是衡量软件能力的核心标尺。作为触达GPU算力峰值、检验架构效率与存储带宽极限的核心算子,它既是验证硬件潜力与软件栈成熟度的试金石,也是每一位追求极致的开发者渴望征服的“性能圣杯”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此刻,我们诚邀所有心怀极致追求的开发者,共同开启这场极限挑战——基于摩尔线程训推一体全功能智算卡&amp;nbsp;MTT S4000,在MUSA架构GPU上深度优化GEMM,共同挑战GPU的性能巅峰。在这里,用你的代码与智慧,亲手将矩阵乘法的性能推向极限!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;赛题丨FP16 GEMM Kernel 极致性能开发&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次挑战赛聚焦于底层&amp;nbsp;Kernel 开发,要求参赛者在摩尔线程MTT S4000上,将FP16精度的通用矩阵乘法(GEMM)性能优化到极致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;计算任务:在&amp;nbsp;MTT S4000 上,实现矩阵乘法(M=8192, N=8192, K=16384)的高性能计算。精度要求:计算采用FP16进行乘加运算,中间累加过程使用FP32。硬件架构:所有优化工作须基于MTT S4000的硬件特性展开,参赛者需深入研究并充分利用其特性。优化边界:禁止调用muBLAS/muDNN 等高层库。鼓励参赛者深挖共享内存分块、寄存器优化等硬件潜力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;评分丨严谨性与高性能的统一&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最终比赛结果由主办方统一依据官方评测方案进行综合评定,总分为正确性与性能两部分之和,缺一不可。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 正确性测试:不容有失的基石&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;测试范围:参赛代码必须通过主办方设置的四组不同规模的测试用例验证。精度要求:计算结果必须严格准确。与官方muBLAS库提供的参考结果相比,每个元素的相对误差必须控制在1e-2以内。一票否决:任一测试用例失败,或任一输出元素误差超限,则正确性部分得分为0,且将直接终止评测,无法进入后续性能评估环节。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 性能评估:追求极致的竞技场&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;评估标准:在通过全部正确性测试后,性能评估将在本次比赛的核心规模——8192 x 8192 x 16384上展开。系统将进行多次迭代测试,取平均GFLOPS作为性能指标。评分参考:为帮助参赛者了解自身优化水平,我们将根据参赛者代码性能相对于官方muBLAS基线性能的百分比效率,进行线性插值计算,提供一个参考性分数。绝对排名:比赛的最终官方成绩与总排名,严格依据在标准评测环境下测得的绝对GFLOPS性能值进行排序。性能越高,排名越前。自测工具:我们为参赛者提供了性能绝对值测试脚本,参赛者可自行读取并分析Kernel的实际性能数据,以便进行针对性优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;资源丨云端环境与算力支持&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;摩尔线程将为每一位参赛者提供专业、完备的云端开发环境与算力支持。如下设计致力于最大限度地消除环境差异,确保参赛者自测的性能结果具有高度参考价值,助力大家精准优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算力平台:我们将提供本次赛题指定硬件MTT S4000的云端算力资源供参赛者调优、测试。参赛账户:每位参赛者将获得一个专属的AutoDL子账号,确保开发环境的独立性与数据安全。预置镜像:该账号中已内置比赛专用镜像。镜像环境预先配置了所有必要的驱动、工具链,并包含了官方的评估脚本、编译工具及基础示例代码,参赛者登录后即可立即开始开发工作。标准化工具链:我们提供统一的评测脚本与摩尔线程官方编译器&amp;nbsp;mcc。参赛者在本地自测时使用的编译命令、优化选项与评测流程,将与最终官方评审环境完全一致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;奖项丨激励卓越,丰厚礼遇&lt;/h2&gt;&lt;p&gt;&lt;/p&

...

@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 2, 2026

http://localhost:1200/infoq/recommend - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 推荐</title>
    <link>https://www.infoq.cn</link>
    <atom:link href="http://localhost:1200/infoq/recommend" rel="self" type="application/rss+xml"></atom:link>
    <description>InfoQ 推荐 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Thu, 02 Apr 2026 16:51:34 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>一个周末 + 1100 美元,干完 5 人 6 个月的活:Cloudflare 用 AI“复刻”Next.js,已跑进生产环境</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9e/8b/9e858yy475a7dd96a0e5ecd03c75a08b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在 AI Coding 狂飙突进的 2026 年,一个原本听上去近乎荒诞的问题,突然变得现实起来:如果工程师不再一行一行手写代码,复杂框架还能不能被“重做”一遍?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Cloudflare Workers 工程负责人 Steve Faulkner,给出了一个足够激进的回答。他借助 AI,在一个周末里“复刻”了整个 Next.js,并把它迁移到了 Vite 之上,做出了 Vinext。整个项目的 Token 成本仅约 1100 美元,但换来的结果却相当惊人:它已经能作为 Next.js 的即插即用替代方案,一条命令即可部署到 Cloudflare Workers;在初步基准测试中,生产环境应用的构建速度最高提升 4 倍,客户端打包体积最高缩小 57%;更关键的是,它已经被客户正式跑进了生产环境。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,Vinext 会迅速引爆开发者社区。真正让人震动的,并不只是“AI 又写了多少代码”,而是它开始逼近一个过去默认只能靠资深工程团队、长周期投入才能完成的任务:重构一个拥有数百万用户的主流前端框架。更微妙的是,这个项目瞄准的还不是边缘玩具,而是 Next.js 这样一个长期深度绑定 Node.js、Vercel 与定制化构建链路的复杂系统。换句话说,这不只是一次 AI Coding 炫技,而是在试图回答一个更现实的问题:当现有框架在跨运行时、跨平台部署上越来越别扭时,AI 能不能直接把它“重写一遍”?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,Steve Faulkner 在播客节目中,与主持人 Wes Bos 和 Scott Tolinski 详细讲述了这个 slop fork 项目的来龙去脉。他们还围绕 AI 编码工作流、Agent 浏览器、代码质量、测试驱动开发,以及 AI 优先时代的软件工具究竟应该长成什么样,展开了深入讨论。基于该播客视频,InfoQ 对内容进行了整理与部分删改。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;核心观点如下:&lt;/p&gt;&lt;p&gt;人类依然需要负责制定方向,AI 只是执行和加速的工具;目标不是写“优雅代码”,而是实现兼容性、通过测试,并验证这条路径是否可行;一个理想的 AI 原生语言,可能是兼具 Rust 的约束能力与 Go 的简洁风格;Agent 的开发体验与人类不同,它不需要界面美观,但必须具备清晰结构,使其能够理解操作路径,这种“面向 agent 的 DX”将成为未来的重要方向;医疗很可能是下一个重点行业,其发展路径可能类似编程领域:AI 能够处理大量基础工作,但仍需要经验丰富的医生进行决策和引导。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“slop fork”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:请先简单介绍一下你自己以及你的工作内容。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我目前是 Cloudflare Workers 的工程总监,整体负责 Workers 相关业务,包括 agents 产品、容器以及 Wrangler CLI 等项目,团队规模大约在 80 人左右。我加入 Cloudflare 已有几年时间。需要澄清的是,我的日常工作并不是编写代码。很多人看了这个项目和博客后,称我为“100倍 工程师”,但我认为更准确的说法应该是“100倍 工程经理”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:在当下 AI 的发展阶段,这是不是正成为趋势?真正拥有“超能力”的,其实是这些“100 倍工程经理”?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:确实如此。我认为 AI 本质上是一种放大器。如果你清楚自己要做什么,它可以帮助你更快、更好地完成任务;但如果方向本身就是错误的,它同样会放大这种错误。因此,人类依然需要负责制定方向,AI 只是执行和加速的工具。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:最近大家在讨论一个词——“slop fork”,因为这次是用 AI 写的代码。你怎么看这个说法?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我觉得这个说法很有趣,也已经接受了,甚至我现在会说“我要去 slop fork 某个东西”。有人还开玩笑说:“我们应该 slop fork Kubernetes,然后用 Rust 重写。”我觉得类似“Vibe Coding”或“Clanker”等新词不断涌现,我更多是以一种轻松的态度看待,并不会觉得被冒犯。(注:“slop fork”可直译为“垃圾分支”,但在此处带有自嘲与网络梗色彩,双关地表达用 AI“糊弄式”地把一个现有项目“叉走”并改写。)&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:为什么你要 fork Next.js 并让它运行在 Vite 上?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:一年前,我们在思考如何更好地支持 Next.js 在 Cloudflare 上运行。Next.js 在托管方面确实存在一些问题,尤其是在非 Vercel 或非 Node 的运行环境中。一些功能对 Node 和 Vercel 有较强依赖,因此虽然理论上可以部署在很多地方,但在边界场景下会出现兼容性问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当时我们曾考虑自行实现一套兼容 Next API 的编译器,但评估后发现这需要约 5 名工程师投入 6 个月时间,成本过高,不现实。于是我们转向了 OpenNext 项目,并且至今仍在持续投入。ps:如果你需要稳定、经过生产验证的方案,应该优先使用 OpenNext。后来我们还尝试过一次,让一位实习生实现 pages router,但也没有成功。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;真正的转折点出现在去年 12 月到今年 1 月,模型能力突然有了质的提升,一切才发生变化。当时我主要是用 AI 做管理相关的工作,比如总结会议纪要、跟踪 Jira、汇总内部信息等。我逐渐意识到,这些模型已经足够强大,于是开始尝试写一些代码项目。我注意到 Next.js 有一套非常完善的测试体系,于是想到:能不能直接用测试来驱动实现?于是就在一个周五下午开始了这个项目。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我先花了几个小时做规划,然后和模型反复交互。第二天早上,我在 app router 的 demo 里测试时发现,它居然已经能跑起来了。虽然还不完美,但已经足以说明这条路是可行的。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:如果让你从零开始,将 Next.js 实现到 Vite 上,你会如何制定计划?这个过程有多少依赖你对软件工程本身的理解?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我确实具备一定优势,因为我熟悉 Next.js,同时团队内部也在其他框架中使用 Vite,因此我清楚整体架构形态。制定初始方案大约花费数小时,并通过 OpenCode 与模型不断迭代。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我大量使用语音转文本工具进行“思维倾倒”,并不依赖复杂的 prompt 技巧,而是不断修正模型输出,例如明确指出某些建议不在项目范围内,如移除 React。这个过程更像人与 AI 的持续协作,而非一次性指令。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:在规划阶段,你主要通过 Markdown 来组织信息吗?有没有特别有效的方法?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:全部使用 Markdown。目前来看,这是最有效的工具,尽管我认为它只是阶段性最优解。未来两到三年内,我们可能会看到更原生适配 LLM 的工作方式。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我维护了一个主计划文档,以及一个专门用于测试的文档。Next.js 的测试集非常庞大(约 8000 个测试),其中很多并不是我第一阶段需要支持的功能。因此,我花了很多时间去筛选和指导模型选择哪些测试。一个关键的突破是:我没有尝试直接运行原始测试套件,而是让模型逐个“迁移”测试。这意味着把测试迁移到自己的测试环境中,并逐步实现对应功能,同时用文档追踪每一个测试的进度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:所谓“迁移测试”,是指转移到 Vitest,还是同时实现对应功能?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:两者兼而有之。一方面将测试迁移到 Vitest 和 Playwright,另一方面实现对应功能逻辑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:这个过程是持续交互,还是可以长时间自动运行?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我曾让 OpenCode 分析整个过程。结果显示,我的 token 使用峰值出现在凌晨 3 点,但我那时候肯定在睡觉,说明我确实在夜间安排了大量任务。我的方式不是写复杂的自动循环,而是给它一个任务文档,比如“完成这 10 件事”,然后让它持续执行。它偶尔会卡住,但整体表现相当不错。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;分析还显示,我的工作模式是“哑铃型”:要么是几分钟的短操作,要么是持续一到两小时的深度工作。这与我的实际节奏一致——我有两个孩子,开发是在生活间隙中进行的,例如带孩子去公园玩,回家之后赶紧跑回电脑前,踢一脚模型,然后再回去陪孩子。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;寻找可靠的AI工作流&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你刚才提到这些数据,是怎么统计的?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Steve:都是从 OpenCode 的会话数据里来的。它会把所有信息存储在 SQLite 里,我直接让模型去分析这些数据。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你使用的是哪个模型?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:主要使用 Opus 4.5 和 4.6,约 99% 的代码由其生成,后期我开始更多做代码评审,有时也会用 Codex 作为辅助。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你觉得不同模型之间差别大吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:很多人说“Opus 写代码、Codex 做评审”,我一开始也这么做,但后来发现差别没有想象中那么大。很多时候让同一个模型自我评审就足够了。我甚至会让它进入一个循环:先评审代码,再修复问题,然后再评审自己,如此迭代两三次,直到没有明显问题为止。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:你的 OpenCode 实际配置是怎样的?是否使用插件、Agent 或 MCP?——你有没有像那些整天调参数的人一样疯狂调试?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我就是那种“调参党”。我最近开始玩pi,简直是一通狂调。不过我这次项目的整体配置非常简洁。我主要使用桌面应用和 VS Code,很少使用终端界面,MCP 或复杂 agent也没用多少。不过我们现在确实有一个针对Vinext的agent,用来处理仓库里的一些审查工作。我们发现,给agent丰富的上下文,它会更好用。那个agent的MD文件甚至就是它在项目开始时自己生成的。过程中我会告诉它:记得更新agent.md,确保里面需要的东西都有。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;倒是有两个 MCP 服务用了比不用好:一个是 Context7,提供开源库索引,另一个是 Exa 搜索。这两者大约带来 20% 的体验提升,但也不是那种“质变”级别的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:在测试过程中,AI 是否会自动操作浏览器?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:会的。我在博客里提到过一个工具——Agent Browser,本质上是对 Playwright 的封装,提供了一个很好用的 CLI 接口。我在这个项目中用得很多。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我会让它同时操作两个环境:一个是生产环境中的 app router playground,另一个是 Vinext 的实现版本,然后给它指令去复现问题、对比行为、定位差异。这在调试过程中非常有帮助,比如有一次我说“滚动不够流畅”,这种描述其实很模糊,但模型竟然能自己识别问题,并给出解决方案,这让我非常震惊。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:我用 Agent Browser 时遇到一个问题:Opus 模型经常处理不了截图,说“截图太大”,然后整个 session 就崩掉了。你有遇到吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:遇到过,而且确实很严重。在 OpenCode 里,这种情况会直接污染整个会话,只能重开。问题在于,有些会话本身非常有价值,所以我有时候会让模型把当前上下文压缩成一个 markdown 文件保存下来,方便之后恢复或复用。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你会密切监控上下文吗?比如使用子 agent 来管理?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:没有特别系统地做这件事,也确实不是完美的。有时候上下文压缩后,模型会“跑偏”,需要重新引导。不过我注意到,OpenCode 在这方面近期已有明显改进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,我还维护了一个名为 discoveries.md 的文件,用于记录过程中发现的各种问题,例如某些 React 或 Webpack 版本和 Vite 的兼容问题。每当遇到问题,就记录下来,这样模型可以基于这些“已知结论”继续推进,而不是反复踩坑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:我最近在一个项目中也遇到类似问题:模型不断重复同一错误,例如错误地将服务端代码引入客户端模块,进而陷入循环修复。我最终只能将解决方案写入 agents.md 或外部文档,以强制约束其行为。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:基于这个现象,我的一个重要体会是:agent 对反馈(feedback)的响应能力极强。相比之下,人类并不擅长快速吸收并迭代反馈。如果你告诉一个人“这不对,重写一遍”,效果未必明显,但对模型来说,提供新的上下文后,它往往能显著改进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;很多人刚接触 AI 时,会因为第一次结果不好就否定它。但实际上,只要多迭代几轮,到第四五次时,它往往就能做对。这种“快速纠偏能力”是关键。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:确实,有些人只试一次就觉得工具不行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这是因为程序员的思维习惯。传统程序是确定性的,如果代码错了,每次运行都会错。但 LLM 处在一个“非确定性”的中间地带,这种不确定性反而是一种特性。它可能第一次输出很糟糕,但你可以纠正它,它下一次就不会再犯同样的错误。当然,这也意味着风险。比如它可能生成错误的 Terraform 配置,甚至破坏生产环境。但如果你及时纠正,它大概率不会再犯。我自己也不是 AI 的极端乐观主义者,我既对它的潜力感到兴奋,也对其中的风险感到担忧。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:AI 生成的代码质量整体表现如何?是否存在明显“跑偏”的情况?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:当然有。我每次看代码时,其实都不太满意。代码通常比较冗长,也不是我会写的风格。这个项目让我必须接受一点:目标不是写“优雅代码”,而是实现兼容性、通过测试,并验证这条路径是否可行。这是一个实验,核心是探索 AI 的边界,而不是追求完美工程实践。如果代码质量以后成为问题,可以再优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;举个例子,目前 Vinext 的一部分代码是通过模板字符串生成的,也就是说代码是“拼接出来的”,没有类型检查、没有 lint,只能通过端到端测试验证。这种方式我其实很不喜欢,也不利于维护。所以现在我们正在逐步重构,把这些生成代码拆出来,变成可类型检查、可 lint 的正常代码结构,这也是一个从“AI生成”到“工程化”的回收过程。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:我最近在构建 AI 工作流时,会为每个功能设计多个处理阶段,例如 lint、样式、UI、可访问性等,但感觉成本很高。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这正是我认为“约束”(guardrails)重要的原因。测试、lint、格式化这些都是必要的约束,但同时也不能完全限制模型。理想的方式是:大部分时间把任务拆成小块,并加上明确约束;但在某些时刻,也要允许模型“自由发挥”,比如让它重新设计某个模块,提出不同思路。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:我也会定期让模型进行审计分析,从中获得一些我自己未曾考虑到的优化点。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:像这种用 AI 写出来的系统,安全方面怎么保证?我听说 Vercel 甚至把漏洞提交到了 Cloudflare 的漏洞赏金项目里,这是真的吗?他们拿到奖金了吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:相关流程仍在进行中。我们确实收到了包括 Vercel 在内的多方安全报告,我对此非常感谢。老实说,有人将此举解读为刻意找茬,但我认为,该项目仅发布一周,存在安全漏洞是十分正常的情况。我反而希望大家多提交问题,这样我们可以把这些漏洞反馈给 AI,让它参与修复。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整个过程其实非常有意思——我们正在用 AI 来处理 AI 产生的问题。AI 在帮我们分类漏洞、修复漏洞、验证漏洞,甚至参与与安全研究者的沟通。我们还在做一些暂时不能公开的工作,比如构建自己的 AI agent,用来主动发现安全漏洞。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我们看到一些外部提交的漏洞后,意识到这些问题其实具有某种模式,于是就尝试用 AI 自己去找类似问题。结果不仅找到了当前项目的漏洞,还能在其他项目中发现问题,这让我们意识到这个方向非常有潜力。目前我们把这当作一个学习机会:如何用 AI 构建一整套安全体系。从现在的实践来看,AI 在安全领域同样表现得相当不错。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;项目上线约两周以来,我们已发布26至27个版本,持续进行漏洞修复与项目维护。我也在思考如何推动该项目从实验阶段迈向更稳定的阶段,例如移除实验标签,将其调整为稳定版或测试版,让用户能够放心地将其应用于生产环境。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:最终目标是把它变成一个可以正式使用的产品?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:其实已经有人在用了。我们会明确告诉用户它的限制和风险。很多用户对 Next.js 的使用其实比较简单,比如主要是静态页面,只有少量 API 或部分动态页面。在这种“功能使用范围较窄”的场景下,目前体验其实已经不错了。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:从根本上来说,是把整个框架迁移过来更合理,还是干脆让 AI 帮你迁移到另一个框架?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我一直对客户说:如果你喜欢 Next.js,那这个方案很适合你;但如果你本身就不喜欢 Next.js,那完全没必要折腾,花 10 美元的 token,就可以迁移到其他框架。现在的选择非常多,比如 Astro、TanStack、SolidJS 等等。借助 AI,只要你有一套完善的端到端测试,迁移成本已经变得非常低。&lt;/p&gt;&lt;p&gt;我做这个项目并不是因为我特别热爱 Next.js,而是因为我想探索 AI 的能力边界。如果你不想用 Next.js,完全可以让 AI 帮你换掉它。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:我最近也用 AI 将一个 Express 项目迁移到 Hono,几乎是自动完成的,门槛真的变低了。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这也让我在思考:未来软件开发的激励机制会发生什么变化?抽象层的意义是否会改变?我没有答案,但可以确定的是,这条边界一定会发生变化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;未来的AI原生编程语言&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:未来是否会出现专为 AI 设计的框架或编程语言?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我认为一定会。甚至不仅是框架,还可能出现“AI 优先”的编程语言。当然,这些新技术一开始会面临“训练数据缺失”的问题——模型不知道怎么用它们。但我不认为这是无法解决的。未来一定会有新的方法,把关键知识注入模型,使 AI 能够快速掌握新语言或新框架。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:“AI 原生的编程语言”会是什么样?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我觉得核心还是“约束”,因此,这样的语言很可能是强类型的。如果观察现有语言,Rust 虽然较为冗长,但拥有完善的安全机制,甚至有一种说法是“只要能编译通过,就基本可以运行”。但与此同时,我认为还需要类似 Go 的简洁性。Go 的设计理念是“少而精”,通常只有一两种实现方式。因此,一个理想的 AI 原生语言,可能是兼具 Rust 的约束能力与 Go 的简洁风格。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:那语法会更偏向严格规范,还是类似自然语言?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我倾向于前者。为了提供清晰的约束边界,语法仍然需要是严格且有限的。当然,我个人非常喜欢 TypeScript,如果它在 AI 时代被替代,我会感到遗憾。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:在你的 OpenCode 环境中,是否使用了 TypeScript 的 LSP?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:它是默认启用的,因此一直在后台运行。我不确定它是否带来了显著提升,但也没有证据表明它无效。不过,LSP 有时会出现不同步的问题,例如提示错误,但实际类型检查已经通过,这类情况会导致模型短暂困惑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:如果未来类型检查可以在极短时间内完成,是否会进一步提升 AI 效率?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我们已经在使用一些高性能工具,例如 TypeScript Go、Oxlint、OX Format 以及 Vitest。我在项目中优先选择这些高性能工具,因为快速反馈循环至关重要。如果每次编译都要几秒钟,那整个效率会被严重拖慢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:近年来,Cloudflare 在开发者体验(DX)方面似乎有明显提升,这是否是有意为之?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这是明确的战略方向。我加入 Cloudflare 时,核心目标之一就是提升开发者体验。我们的重点在于引入具备良好产品判断力的人才,并赋予他们充分空间去优化体验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为管理者,我的职责更像是“决定在哪里建设消防站”,而不是亲自“灭火”。这意味着我要从更长期的视角去看,比如两年后团队是否能产出更好的产品。目前来看,这些投入已经开始产生回报,例如新的设计工程团队正在持续优化控制台界面。虽然仍有改进空间,但相比几年前已经有显著提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我们还有许多尚未公开的项目,正在从多个层面推进改进。一方面是持续优化现有产品,另一方面也在重新思考平台的整体形态,不仅要适合人类开发者,也要适配 agent。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Agent 的开发体验与人类不同,它不需要界面美观,但必须具备清晰结构,使其能够理解操作路径,这种“面向 agent 的 DX”将成为未来的重要方向。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:在结束前,你还有什么想补充的吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我想从一个更宏观的角度来说:我对这一切既兴奋,又不安。我们正处在一个可能是巨大技术变革的时代,就像印刷术、蒸汽机那样的革命性节点。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果要类比,我们这一代人经历过的最接近的可能是移动互联网,甚至是互联网本身。但即便是互联网,它的普及也花了很长时间,需要铺设基础设施。而现在不一样,一项新能力发布后,几乎 24 小时内,全世界的人都能用到。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;所以,不只是这场变革的“规模”巨大,它的“速度”也被极度压缩了。有时候我会觉得自己已经走在很前面,但有时候看到别人做的事情,又会意识到自己其实还只是刚刚起步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:你认为下一个被 AI 深刻改变的行业会是哪些?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:医疗很可能是下一个重点行业,其发展路径可能类似编程领域:AI 能够处理大量基础工作,但仍需要经验丰富的医生进行决策和引导。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;实际上,一些医院已经在使用 AI,例如语音转录等技术。虽然由于监管严格,全面普及还需要时间,但我认为它最终会彻底改变我们理解和处理病人信息的方式。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:例如将可穿戴设备数据与大规模病例数据结合,确实可能带来新的突破。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:作为技术从业者,我们需要尽力引导技术向有益方向发展。正如印刷术既推动文明进步,也引发冲突一样,AI 同样会带来正反两方面影响。我们的责任是尽可能扩大其正面价值。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;访谈视频原链接:https://www.youtube.com/watch?v=h39oZb2-7Xo&amp;amp;t=1s&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/XNfsebiwgEd1hbcissWd</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/XNfsebiwgEd1hbcissWd</guid>
      <pubDate>Thu, 02 Apr 2026 11:07:02 GMT</pubDate>
      <author>傅宇琪</author>
      <category>生成式 AI</category>
    </item>
    <item>
      <title>从数据留底到隐身进开源,Claude Code 泄露的代码里,处处写着:这家公司人品不行</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/8d/50/8deae4debe78efa2d0f10ccd99dd1850.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;从去年 Claude Code 发布以来,我们其实也写过不少肯定它的文章。它确实是当前最成熟的一批 AI 编码工具之一,这一点没有太多争议。但与此同时,Anthropic 本身也并不是一家没有争议的公司,而这次源码泄露,则让一些原本不太容易被外界看到的产品设计被放到了台面上。这篇文章的重点,并不在于简单评价 Claude Code“好”或“不好”,而是基于这次泄露的源码,去看它在权限边界、数据处理以及开源参与方式上的一些具体实现。再好的工具也会有取舍,这些取舍本身,才是更值得被认真讨论的部分。&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这周,Anthropic 因一次发布失误,把 Claude Code 的大部分核心源码直接暴露在了网上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;事情的起点,是 npm 上发布的 Claude Code 2.1.88 安装包。包里混进了一个本不该公开的 map 文件。这类文件原本只是开发阶段的调试工具,用来在代码被压缩、打包之后,依然能把报错信息对应回原始源码中的具体位置。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;问题在于,map 文件里往往不只有“映射关系”,还可能直接包含原始源码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;更关键的是,这个 map 文件还指向了 Anthropic 在 Cloudflare R2 存储桶中的一个 zip 压缩包。顺着这个地址,外界可以直接下载并解压完整源码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这个压缩包里的内容相当完整:大约 1900 个 TypeScript 文件,总计约 52万行代码,包含一整套内置命令以及各种内置工具,可以说是“该有的全都有”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;删不掉的源代码&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从结构上看,Claude Code 采用了一套类似插件的工具体系。文件读取、Bash 执行、网页抓取、LSP 集成等能力,都被拆成独立工具,并带有权限控制。仅基础工具定义,就占了将近 3 万行代码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,代码中还包含一个约 4.6 万行的 Query Engine,可以理解为整个系统的“大脑”,负责模型调用、流式输出、缓存以及整体调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;更进一步,Claude Code 还具备多智能体编排能力。它可以拉起子智能体(内部称为 “swarms”),把复杂任务拆分并并行执行,每个智能体都有独立上下文和工具权限。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在使用体验上,IDE 与 CLI 之间通过一套双向通信机制打通。VS Code、JetBrains 等编辑器插件,正是通过这层桥接系统与 Claude Code 交互,实现“在编辑器里用 AI 编码”的体验。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,源码中还包含一套持久化记忆机制。Claude 会以文件的形式,在本地持续记录与用户、项目以及使用偏好相关的信息,并在后续会话中调用这些内容。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;事发之后,Anthropic 已下架相关版本。负责 Claude Code 的工程师 Boris Cherny 专门澄清,这件事就是一次开发失误。本质上是流程、文化或基础设施问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/4f/4f9ade08706f0954b966bccc6ba57e99.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,代码一旦流出去,就很难再收回来了。GitHub 上很快冒出了数百个源码镜像。其中,用户 Sigrid Jin 上传的一个版本,最新已经拿下 10.5 万 star、9.5 万 fork。作为对比,Anthropic 官方那个主要用来分享插件和收 bug 反馈的 Claude Code 仓库,star 也不过 9.5 万左右。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有报道称,Anthropic 已经开始发版权删除请求。为了避开这类风险,Jin 后来又借助 OpenAI Codex,把这份 TypeScript 代码改写成了 Python,随后又继续改成了 Rust。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;截至目前,Anthropic 尚未回应是否会对这些“再实现”项目采取法律行动。这也引出了一个更复杂的问题:既然 Anthropic 一直强调 Claude Code 的代码大部分是由 AI 自己生成的,那么这些代码在版权上是否具备保护资格?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;技术律师 Russ Pearlman 在 LinkedIn 上指出:“按照当前美国版权法,作品必须具备实质性的人类创作才能获得保护……竞争对手如果研究这些泄露的代码,可能面对的是在法律意义上并不受保护的内容。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还写道:“最讽刺的是,这个世界上最先进的 AI 编码工具,可能正是靠自己,把自己的知识产权‘写没了’。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2a/2a9bc5e19d30a6cda44fb98dc3aba276.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/ce/ce4395e885bac295c34576b264cc40d3.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代码背后那些不想让你知道的秘密&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Claude Code 在开发上的效果确实不错,但如果往下拆,真正起决定作用的,可能还是底层大模型,而不只是外面那层封装。更何况,业内已经有开源的 Codex、Gemini,以及 OpenCode 这类命令行工具,在技术思路上并没有本质差别。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有网友评论称,Claude 的命令行工具谈不上有什么“独门秘诀”,其代理框架甚至未必比同类产品更强。也就是说,这次泄露最值得看的,未必是 Claude Code “到底有多强”,而是全球开发者顺着这份源码,究竟挖出了多少原本不该被外界知道的东西。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;虽然Claude Code不像rootkit那样拥有持久内核访问权限,但对其源代码的分析发现,这款智能体程序对于用户计算机的控制能力仍远超协议条款中的表述。它不仅会保留大量用户数据,甚至在面对拒绝AI的开源项目时可以隐藏其身份。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从泄露的Claude Code客户端源代码来看(研究人员对其二进制文件进行了逆向工程),这款程序几乎可以控制任何完成了安装的用户设备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;它说动不了模型,但入口一个没少&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最近,Anthropic 与美国政府合作相关的一场风波,又把一个关键问题摆上台面:它到底能不能动模型。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;外界担心的是,Anthropic 理论上仍有能力在特殊情况下调整模型行为,甚至让系统失效。Anthropic 对此予以否认,还强调模型一旦部署进机密环境,自己就无法再访问,更谈不上控制。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;然而,一位要求匿名的安全研究员(化名“Antlers”)在梳理 Claude Code 源码后认为,在机密环境中,似乎可通过满足以下所有条件以阻止Claude Code采取“回传”或其他远程操作:&lt;/p&gt;&lt;p&gt;确保推理传输通过Amazon Bedrock GovCloud或Google AI for Public Sector (Vertex)进行。阻止数据收集端点。使用防火墙保护Statsig/GrowthBook/Sentry等工具。阻止系统提示符指纹识别(例如通过Bedrock)。通过版本锁定和阻止更新端点来阻止自动更新。禁用autoDream,这是一个正在测试中的未发布后台代理,能够读取所有会话记录。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;我们没有找到在机密环境中运行的特定设置,但Claude Code确实支持多种可限制远程通信的标记。具体包括:&lt;/p&gt;&lt;p&gt;CLAUDE_CODE_DISABLE_AUTO_MEMORY=1,禁用所有内存与遥测写入操作。CLAUDE_CODE_SIMPLE (--bare mode),完全移除内存与autoDream。ANTHROPIC_BASE_URL,可用于将API调用重新定向至私有端点。ANTHROPIC_UNIX_SOCKET,通过转发套接字(SSH隧道模式)对身份验证进行路由。远程管理设置(policySettings)可以锁定企业级部署行为,但无法彻底锁死。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据 Anthropic 公共部门负责人 Thiyagu Ramasamy 介绍,Anthropic 会将模型的运行与管理权交由这类高安全级别的客户环境,包括功能增减在内的更新,也需要双方协商确认。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他在 2026 年 3 月 20 日的声明中表示,例如在系统运行期间,Anthropic 人员无法直接登录客户环境去修改或停用模型,这在技术上不可行。在机密部署中,只有客户及其授权的云服务提供方可以访问系统。Anthropic 主要负责提供模型本体,并在客户要求或批准的情况下提供更新。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;即便如此,Anthropic 仍可以通过合同条款,在一定范围内保留部分控制能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;Claude Code 背后,有一整套拿用户信息的办法&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;对于所有未使用与防火墙连接的公有云版本、或以某种方式实现物理隔离的Claude Code用户而言,Anthropic拥有着更大的访问权限。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;首先,Anthropic会接收通过其API传输的用户提示词与响应结果。这些对话不仅可能泄露对话内容,还可能泄露文件内容及系统详细信息。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从源代码内容来看,除此之外,该公司还通过其他多种方式接收或收集用户信息,具体包括:&lt;/p&gt;&lt;p&gt;KAIROS(src/bootstrap/state.ts:72)是由kairosActive标记设置的守护进程(后台进程)。它似乎属于尚未发布的无头“助手模式”,会在用户不查看终端用户界面 (TUI) 时起效。它会移除状态栏(StatusLine.tsx:33),禁用规划模式,并静默禁用AskUserQuestion工具(AskUserQuestionTool.tsx:141)。它还会自动将长时间运行的bash命令置于后台,而不会发出任何通知(BashTool.tsx:976)。CHICAGO的全称为计算机使用与桌面控制。它使Claude智能体能够执行鼠标点击、键盘输入、访问剪贴板和截屏。此功能已公开发布,可供Pro/Max订阅用户和Anthropic 员工以“ant”标记使用。此外,还有一项独立且公开发布的Chrome版Claude服务,支持浏览器自动化以及所有相关的系统访问权限。持久遥测。最初,这项功能由Statsig实现,并于去年9月被竞争对手OpenAI收购。这很可能是促使他们切换到 GrowthBook 的原因。GrowthBook是支持A/B测试和分析的平台。Claude启动后,分析服务 (firstPartyEventLoggingExporter.ts) 会在网络中断时,将以下数据保存到 ~/.claude/telemetry/ 目录并向服务器发送:用户ID、会话ID、应用版本、平台、终端类型、组织UUID、帐户UUID、电子邮件地址(如果已设置)以及当前启用的功能门控。Anthropic可以在会话期间激活这些功能门控,包括启用或禁用分析功能。远程管理设置 (remoteManagedSettings/index.ts)。对于企业客户,Anthropic维护的专用服务器会推送policySettings对象。该对象可以:覆盖合并链中的其他项;每小时轮询一次,无需用户交互;可以设置 .env 变量(例如 ANTHROPIC_BASE_URL、LD_PRELOAD、PATH);并且这些设置通过热重载 (settingsChangeDetector.notifyChange) 立即生效。当出现“危险设置更改”时,系统会提示用户,但该术语由Anthropic代码定义,因此可能会进行修改。常规更改(权限、.env 变量、功能标记)似乎不会触发通知。Auto-updater自动更新程序。自动更新程序 (autoUpdater.ts:assertMinVersion()) 每次启动时都会运行,并从Statsig/GrowthBook处拉取配置版本。如此一来,Anthropic就能根据需要删除或禁用特定版本。错误报告。当出现未处理的异常时,错误报告脚本 (sentry.ts) 会捕捉当前工作目录,其中可能包含项目名称、路径和其他系统信息。此脚本还会报告已激活的功能门控、用户ID、电子邮件、会话ID和平台信息。有效负载大小遥测。此API会调用 tengu_api_query以传输 messageLength,即系统提示词、消息和工具模式的JSON序列化字节长度。autoDream。autoDream服务已开放讨论但尚未正式发布,它会生成一个后台子智能体,该子智能体会搜索(grep)所有JSONL会话记录以整合内存(Claude用作查询上下文的存储数据)。该智能体与 Claude 运行在同一进程中(使用相同的API密钥和相同的网络访问权限)且扫描均在本地执行。但它写入MEMORY.md的任何内容都会被注入到未来的系统提示词中,因此会被发送至API。团队内存同步。这项双向同步服务(src/services/teamMemorySync/index.ts)会将本地内存文件接入至api.anthropic.com/api/claude_code/team_memory,由此实现在组织内与其他团队成员共享内存的方法。该服务包含一个密钥扫描器 (secretSanner.ts),使用正则表达式模式来匹配大约40种已知的token和API密钥模式(AWS、Azure、GCP 等)。但是,不匹配这些正则表达式的敏感数据可能会通过内存同步暴露给其他团队成员。实验性Skill搜索 (src/tools/SkillTool/SkillTool.ts:108) 为仅对Anthropic员工可用的功能标记。它提供的方法能够将skill定义下载至远程服务器 (remoteSkillLoader.js);跟踪会话中已使用的远程skill (remoteSkillState.js);以及执行远程下载的skill (第969行处的executeRemoteSkill()) ;并注册skill以便在精简操作后保留。如果为非员工帐户启用此功能(例如使用GrowthBook功能标记),理论上会构成一条远程代码执行路径。Anthropic或任何控制skill搜索后端的人员,都能够以“skill”的形式提供任意提词注入或指令覆盖,在会话中加载并运行这些skill。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;不是“看一眼”,而是“留一份副本”&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;研究员Antlers还强调说,“人们恐怕没有意识到,Claude查看的每个文件都会被保存并上传至Anthropic。换言之,只要Claude在设备上接触过的文件,Anthropic那边就会有相应的副本。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;对于Free/Pro/Max版用户,Anthropic会在用户接受将共享数据用于模型训练时将数据保留五年;若不接受则仅保留30天。商业用户(Team、Enterprise及API版)的标准数据保留期限为30天,用户可选择不保留任何数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不久前,微软Recall曾经引发激烈争论,而Claude Code的活动捕捉机制与之类似。在每次发生工具调用读取、每次Bash工具调用、每次搜索(grep)结果以及每次对新旧内容进行编辑/写入时,内容都会以纯文本格式被存储在本地JSONL文件当中。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Claude的autoDream智能体在正式发布之后,会搜索这些文件并将提取到的数据存储在MEMORY.md文件之内,再将该文件注入至后续系统提示词以调用API。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;另外几个劲爆发现&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;去做开源,但别把自己是 AI 这件事说出去&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从产品策略的角度看,这种做法本身就有很强的指向性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Anthropic 的员工会用 Claude Code 参与公共仓库和开源项目的开发。代码里通过 USER_TYPE === &#39;ant&#39; 来识别员工身份。而 Undercover Mode(utils/undercover.ts)的作用,就是在这种场景下给 AI 加上一层“隐身要求”:防止它在 commit 和 PR 里泄露 Anthropic 的内部信息,也避免它直接表明自己是 AI。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/27/275ba59b351d25f795a4fa6913dae0e1.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一旦这个模式开启,系统就会把下面这段内容直接塞进 system prompt 里:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/9365593c22ab8b13d6b68134ef7f66eb.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这段代码至少说明了:第一,Anthropic 的员工确实在用 Claude Code 参与开源项目,而且系统被明确要求不要暴露自己是 AI。第二,Anthropic 内部模型代号确实采用动物命名,比如 Capybara、Tengu。第三,“Tengu”在代码中高频出现,作为功能开关和埋点事件的前缀,基本可以判断,它就是 Claude Code 的内部项目代号之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;按常规流程,这些逻辑在构建产物中会被当作“死代码”剔除,但 source map 依然保留了完整映射,这些信息并没有真正消失。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Anthropic 显然清楚,“AI 参与开源贡献”在很多社区依然是敏感话题,所以它的做法不是提高透明度,而是先把身份隐藏起来。在这种前提下,一个更值得追问的问题是:他们内部究竟已经对多少开源代码库造成了多大破坏。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;防蒸馏这件事,选了一种不太体面的做法&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在 claude.ts(301–313 行)里,有一个名为 ANTI_DISTILLATION_CC 的开关。打开之后,Claude Code 在发起 API 请求时,会带上 anti_distillation: [&#39;fake_tools&#39;]。这意味着服务端会悄悄往 system prompt 里塞进一些伪造出来的工具定义。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e0/e0c6989d81df6aa13877ccf45d47b408.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这套设计的目的并不复杂。如果有人在录制 Claude Code 的 API 流量,想把这些数据拿去训练竞品模型,这些“假工具”就会一起混进训练数据里,变成专门用来搅浑水的污染项。这个能力由 GrowthBook 的 feature flag tengu_anti_distill_fake_tool_injection 控制,而且只对官方 CLI 会话开放。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这也是最早在 HN 上被不少人注意到的细节之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代码里还藏着第二套反蒸馏机制,位置在 betas.ts(279–298 行),名字叫 connector-text summarization。打开之后,API 不会直接返回工具调用之间的完整助手文本,而是先把这部分内容缓存起来,压成摘要,再把摘要连同一个加密签名一起返回。到了下一轮,再通过这个签名把原文恢复出来。也就是说,如果你在抓 API 流量,拿到的只是“缩水版”,完整推理链并不会直接落在你手里。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/13/137bd5a3591d46ccbe8a8f61cfed8fe7.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;问题是,这两套东西并没有看上去那么牢。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从 claude.ts 的触发逻辑来看,“假工具注入”要生效,必须同时满足四个条件:编译时打开 ANTI_DISTILLATION_CC,走 CLI 入口,使用官方 API 提供方,以及 GrowthBook 返回 tengu_anti_distill_fake_tool_injection=true。只要架一个 MITM 代理,在请求到达 API 之前把 anti_distillation 字段删掉,这套机制就会直接失效,因为注入动作发生在服务端,而开关是客户端主动递过去的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;另外,shouldIncludeFirstPartyOnlyBetas() 还会检查环境变量 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS。只要把它设成真值,整套机制都可以关掉。如果你走的不是官方 CLI,而是第三方 API 提供方,或者干脆使用 SDK 入口,这段检查甚至根本不会触发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;至于 connector-text summarization,范围还更小,只对 Anthropic 内部用户(USER_TYPE === &#39;ant&#39;)开放,外部用户本来就碰不到。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;所以这件事最难看的地方在于,它一方面试图靠“假工具”和“摘要替换”来给潜在的模仿者下绊子,另一方面,这些手段又并不算多高明。只要认真翻一遍源码,真想拿 Claude Code 流量做蒸馏的人,很快就能把绕过路径摸清。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;一天浪费约 25 万次 API 调用&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在 autoCompact.ts(68–70 行)里,有一段注释写道:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“BQ 2026-03-10: 1,279 sessions had 50+ consecutive failures (up to 3,272) in a single session, wasting ~250K API calls/day globally.”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f6/f6e0e5a660fb4811d1f0294c3cca0ee4.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;意思是,在 1279 个会话里,autoCompact 连续失败了 50 次以上,最高的一个会话甚至连续失败了 3272 次,最终在全球范围内每天浪费了大约 25 万次 API 调用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这里的 compaction,指的是对上下文进行压缩,避免会话过长、token 过多,而这个过程本身也需要调用 API。如果压缩过程不断失败,系统又持续重试,就会不断额外消耗调用次数。后来的修复方式很直接:设置 MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3。也就是说,只要 autoCompact 连续失败 3 次,这个会话后续就不再继续尝试压缩,以避免无效重试继续浪费 API 调用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;写在最后&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;需要补充的一点是,这次并不是 Claude Code 第一次泄露。该产品经历了 360+ 次版本迭代,而Claude Code 的源码,实际上至少已经泄露过三次。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第一次发生在 2025 年 2 月。Anthropic 当天发布 Claude Code,npm 包里带着一个 23MB 的 cli.mjs 文件。开发者 Dave Shoemaker 用 Sublime Text 打开后,在文件末尾发现了一段长达 1800 万字符的字符串,实际上那是一份以 base64 编码的内联 source map。source map 本来是用来把压缩后的代码映射回原始源码的,而这一份映射信息,已经可以把整套 Claude Code 源码还原出来。随后,Anthropic 迅速推送了一个更新(版本 0.2.9),移除了源映射。但网上还是有一些分支,如:&lt;a href=&quot;https://github.com/jinrunsen/claude-code-sourcemap&quot;&gt;https://github.com/jinrunsen/claude-code-sourcemap&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第二次发生在 2026 年 3 月 7 日。有人发现,npm 包 @anthropic-ai/claude-agent-sdk 中意外包含了完整的 Claude Code CLI 打包文件:一个约 13800 行的压缩 JavaScript 文件 cli.js,版本为 2.1.71,构建于 3 月 6 日。也就是说,不再是通过映射还原源码,而是整个可执行代码直接被一起打包进了 SDK。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第三次才是 2026 年 3 月 31 日,59.8MB 的独立 source map 再次把整套代码暴露出来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;也就是说,Claude Code 代码其实已经在网上公开 13 个月了。过去 13 个月里,这套代码被反复扒出、镜像、逆向、整理,直到这一次才真正引爆舆论。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.theregister.com/2026/04/01/claude_code_source_leak_privacy_nightmare/&quot;&gt;https://www.theregister.com/2026/04/01/claude_code_source_leak_privacy_nightmare/&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://thehuman2ai.com/blog/claude-code-source-leak&quot;&gt;https://thehuman2ai.com/blog/claude-code-source-leak&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://github.com/sanbuphy/learn-coding-agent/blob/main/docs/en/04-remote-control-and-killswitches.md&quot;&gt;https://github.com/sanbuphy/learn-coding-agent/blob/main/docs/en/04-remote-control-and-killswitches.md&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.linkedin.com/feed/update/urn:li:activity:7444797889337470976/&quot;&gt;https://www.linkedin.com/feed/update/urn:li:activity:7444797889337470976/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/oyztKc9IQUguMOOx6imT</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/oyztKc9IQUguMOOx6imT</guid>
      <pubDate>Thu, 02 Apr 2026 10:53:27 GMT</pubDate>
      <author>Tina</author>
      <category>生成式 AI</category>
    </item>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>五大赛道齐亮相!第四届世界科学智能大赛启动报名,首设人文科学赛道</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/29/57/29dac442c80389a7ef01df5cc8273a57.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;随着人工智能深入科研实践,它不仅在各领域课题的预测、计算等方面屡创新高,也正介入曾被认为高度依赖人类直觉与经验的文化阐释工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;继第四届世界科学智能大赛的创新赛道“AI4S智能体CNS挑战赛”在一个月前率先发布,吹响了自主科研智能体的攻坚号角,大赛全赛道于4月2日上线并启动报名。本届世界科学智能大赛共设置五大赛道,采用算法赛和创新赛两种模式,并首次设立人文科学赛道,推动前沿技术与中华文明研究的深度融合。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次大赛由复旦大学和上海科学智能研究院(下称上智院)主办,上海未来产业基金、上海未来启点社区、上海祖泉创新转化研究院、上海市漕河泾新兴技术开发区发展总公司、上海大模型生态发展有限公司、内蒙古电力交易中心、华为云计算技术有限公司、上海复星医药(集团)股份有限公司、新奥科技发展有限公司、中科天机气象科技有限公司、上海博物馆、湖南省博物馆协办,知乎、CSDN、InfoQ、WaytoAGI为社区伙伴。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为科学智能(AI for Science, AI4S)领域的标杆赛事,自2023年以来,世界科学智能大赛已成功举办三届,累计吸引全球近30个国家和地区的4万名选手参赛。今年的第四届大赛设立百万奖金池,面向全球英才广发招募令,旨在以高水平赛事为牵引,持续汇聚并培养科学智能人才,助力科研范式变革与行业高质量发展。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/16/16558ba575b03032779510e273c80242.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;大赛官网:&lt;a href=&quot;https://competition.ai4s.com.cn/&quot;&gt;https://competition.ai4s.com.cn/&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;四大算法赛道:问题都来自业界真实场景&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;延续第三届“更产业”的办赛理念,本届大赛持续构建既面向科研前沿、又直击产业实际的立体化竞赛体系,并在算法赛道进一步强化与业界真实场景的对接。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;四大算法赛道分别聚焦电力市场交易、可控核聚变、生物结构预测与古文字识别四个方向,依托真实数据集与复杂业务环境设计,强调从问题理解到模型构建再到策略落地的全流程能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;电力市场交易赛道围绕新型电力系统建设中的关键问题展开,重点关注储能资源在电力现货市场中的优化运行。参赛选手需要综合运用时间序列建模、机器学习等技术,完成节点实时电价预测与储能充放电策略设计。赛题基于蒙西地区电力市场真实运行数据,融合负荷、新能源出力、气象条件等多维度信息,支持选手构建兼具高精度与工程实用性的模型,完成 “数据分析-模型构建-电价预测-策略设计-收益核算” 全流程解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/01/011191b2f067bfc8fe7de761258ef351.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;聚焦国际核聚变研究和未来能源产业前沿,可控核聚变赛道旨在解决聚变领域核心技术挑战——等离子体位形精准控制,为人类文明可持续发展提供不竭动力。赛道以新奥集团建造的我国首座中等规模球形环聚变装置 “玄龙-50U” 球形托卡马克为实践载体,鼓励选手运用人工智能技术构建高精度、高效率控制策略,攻克极高温、非线性、强耦合等离子体稳定控制这一关键难点。选手需在高保真仿真环境中完成控制策略设计、执行与效果验证全流程闭环,实现等离子体位形精准调控。复赛中排名前列的队伍,将有机会在“玄龙-50U” 装置上开展上机测试。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/fa/fa60a9c3cb8ed7763cdb8843f3a2b930.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;生物结构预测赛道聚焦RNA–蛋白复合物三维结构预测这一关键前沿问题。针对RNA构象高度柔性、相互作用界面复杂且异质性强等核心挑战,鼓励选手发展融合深度学习、生成式建模与等变神经网络的统一建模框架,实现对分子序列、空间构型与相互作用关系的协同刻画。参赛者需完成从数据解析、模型设计到结构生成与精度优化的全流程科研闭环,探索AI与结构生物学在复杂生物体系中的深度融合路径。相关研究有望为RNA药物开发、抗病毒机制解析及精准医疗提供新的方法学基础与技术支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c9/c9f7600a7bbd0f379fd61bb789152a8d.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;依托复旦大学出土文献与古文字研究中心独家整理的权威数据,古文字识别赛道要求选手从完整古文拓片中实现文字精准检测与自动识别,尝试破解复杂背景、风化噪声、字符粘连等实际难点。参赛选手需整合目标检测、OCR识别、检索增强等技术栈,搭建端到端古文字智能识别系统,运用YOLO、ResNet、多模态大模型等方法完成文字定位与内容识别,并结合甲骨文预训练数据、跨域训练数据持续优化模型。&lt;/p&gt;&lt;p&gt;“本赛道重点考察三类能力,包括从复杂图像中提取信息的能力、多技术栈融合的工程能力,以及在有限资源下实现高效建模的能力。”赛题组成员、复旦大学出土文献与古文字研究中心副研究员任攀表示,依托甲骨文、金文、简牍等多载体权威数据,赛道将围绕古文字的检测、识别与结构化解析等关键环节展开,希望能吸引和组织更多开发者参与探索早期中华文明的数字化传承与系统性研究。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f1/f1d1f835e8761426837b1b7a2a0c0a29.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;创新赛道:自主智能体挑战CNS成果SOTA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;相较于算法赛道侧重产业化问题求解,创新赛道则指向科研范式的深入变革。本届大赛重磅推出全球首个自主科研智能体挑战赛——AI4S智能体CNS挑战赛,以挑战并超越Cell、Nature、Science(CNS)顶级科研成果为核心导向,鼓励选手构建面向科学发现的自主AI智能体,实现科研规划、实验设计与验证迭代的全流程自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;赛事聚焦自主科研智能体,设置了高通量药物虚拟筛选优化、靶向分子设计与逆合成规划闭环、蛋白质构象系综生成、神经算子自动改进四项核心任务,要求参赛智能体在零人工干预条件下,独立完成文献理解、代码重构、假设提出、实验验证与结果迭代,并在此基础上挑战并超越CNS等顶级期刊已发表成果及同等级研究的当前最优水平(SOTA)。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“科学智能最终要靠年轻人来突破。”复旦大学校长、中国科学院院士金力在挑战赛发布现场指出,直接让智能体挑战CNS级别的科研问题在两年前不可想象,如今AI正在拉平科研的起跑线,年轻人的“异想天开”不再因为缺少“超级科研合伙人”而被浪费,这比任何一篇顶刊论文都重要。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6e218a287c7e8477a863b2232fec1877.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;(复旦大学校长、中国科学院院士金力,复旦大学学术委员会主任、中国科学院院士龚新高,复旦大学校长助理、上智院理事长吴力波,复旦大学复杂体系多尺度研究院院长马剑鹏,上智院院长、复旦大学特聘教授漆远,上海人工智能实验室主任助理、领军科学家乔宇,上海祖泉创新转化研究院院长、复旦科创董事长孙彭军,上海未来产业基金总经理、上海未来启点社区理事长魏凡杰,复旦大学数学科学学院研究员任潇,复旦大学研究员、上智院AI科学家屈超,共同发布挑战赛)&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为保障赛事的专业性与权威性,该赛道特别组建了由多位在CNS级科研成果领域具有广泛影响力的院士和顶尖学者组成的评审委员会。阵容包括复旦大学校长、中国科学院院士金力,复旦大学学术委员会主任、中国科学院院士龚新高,复旦大学教授、应用数学中心主任雷震,复旦大学教授、复杂体系多尺度研究院院长马剑鹏,复旦大学教授、附属华山医院神经内科副主任郁金泰,上智院院长、复旦大学特聘教授漆远等,共同确保赛事的科学深度与专业标准。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在具体机制上,挑战赛以完整科研闭环能力为核心评估标准,要求参赛智能体在文献解析与逻辑解构、瓶颈诊断与假设提出、自主设计与代码演进、实验验证与科学迭代四个关键阶段实现高度自动化。评测将基于标准化干实验数据集,从科学性能、探索效率与计算经济性、演进逻辑严密性三个维度进行综合评估,系统检验智能体开展科研活动的能力边界。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;现在,是你入场的时候&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为主办方代表,复旦大学校长助理、上智院理事长吴力波表示,本届大赛旨在深入构建集科研探索、技术交流与产业对接于一体的高水平平台,不仅为科学智能人才提供成长与竞技空间,也推动科研成果与前沿技术在产业与人文领域的广泛应用,助力全球科学智能生态持续繁荣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;大赛整体分为初赛、复赛和决赛三个赛段:3月至5月为报名组队与初赛阶段,6月至8月为复赛和决赛阶段(具体赛程安排以赛题详情页公示及组委会通知为准)。各参赛队伍将围绕百万奖金池展开角逐,在真实科研与产业问题中检验能力、激发创意。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;目前,大赛报名通道已面向全球开放,诚邀人工智能与科学领域的研究者、开发者及创新团队积极参与。无论你是在做模型、做系统,或从事领域科研,亦或只是想验证“AI还能做到什么”,这里都是展示能力、突破边界的舞台。你创造的,或许不仅会是一个更优结果,还有可能是全新的方法。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/82c356ca3303b1933c6d566a611592dd.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/UMPFZoYAiPsvqbIoETR1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/UMPFZoYAiPsvqbIoETR1</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:01 GMT</pubDate>
      <author>上海科学智能研究院</author>
      <category>AI&amp;大模型</category>
    </item>
    <item>
      <title>全行业都狂卷 Harness,Anthropic 还在加码,Codex 负责人却说它正在退场</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/0f/b6/0f651f13b1edd11e0714dd918dc48fb6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;今年年初,OpenAI 的架构师 Bill Chen 和 Brian Fioca 在一期演讲里详细介绍了Codex构建过程中克服的挑战,以及 Coding Agent 本身一些新兴的使用模式。谈及 Coding Agent 的构成时介绍其由三部分组成:用户界面、模型和 Harness。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;用户界面显而易见,可能是命令行工具,也可能是集成开发环境,或者是云端或后台 Agent。模型也很直白,比如OpenAI的 GPT-5.1 系列模型或其他一些供应商的模型。至于 Harness,这是一个稍微复杂一点的部分,它直接与模型交互,最简化地说,可以将其看作是由一系列提示和工具组合而成的核心 Agent 循环,它为模型提供输入和输出。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cdbef2b8cd943fa01e110633b228f672.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Harness 是模型的接口层,它是模型与用户、代码之间进行交互的媒介。它包括了模型需要的所有组件,以便在多轮对话中进行工作,调用工具,并最终为你编写代码,解读用户的需求。对一些产品来说,Harness 可能是其中的关键部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Anthropic 前几日也发布了一篇博客文章,名为《Harness design for long-running application development》(长时运行应用开发的Harness Design),文中提到 Harness 指的是一种支撑复杂 AI 智能体(Agent)运行的外部框架、控制结构与编排系统。它不是单一的算法,而是一整套工程化的“脚手架”,用于管理和放大 AI 的能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;它是 Prompt Engineering(提示词工程)之上的更高级抽象。Prompt 决定了单次对话的质量,而 Harness 决定了多轮、多智能体、长时任务的执行流程和可靠性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Harness 的核心作用是解决 AI 在完成复杂、耗时任务时的“失控”问题(Go off the rails),通过外部控制机制弥补模型内在的缺陷(如上下文焦虑、自我美化)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;无论是OpenAI还是Anthropic,都明确认定 Harness 是 Coding Agent 落地的关键,但两家顶级巨头的分歧在于,该把 Harness 做强做厚,还是做薄做轻?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Harness该做大还是缩小?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;行业内部也似乎正在形成一种新的共识:决定 AI 编程上限的,不再是模型本身的单次生成能力,而是 Harness Engineering。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在 Anthropic 最近的工程文章展示了他们对 Long-running Agent(长时运行智能体) 的深度探索。为了解决 AI 在长时间任务中“脱轨”的问题,他们构建了一套极其严密的 Harness:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结构化交接(Structured Handoff): 强制 AI 在上下文耗尽前生成“进度文件”,将状态外置。多智能体协作: 引入 Planner(规划器)、Generator(生成器)、Evaluator(评估器)分工。上下文重置机制: 为了避免“上下文焦虑”,直接清空对话历史,仅保留结构化产物,给新智能体一张“白板”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这种思路的本质是“把 Harness 做强、做厚”。他们认为,只要框架足够健壮,就能撑起最复杂的任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但近日,OpenAI Codex 开源负责人 Michael Bolin做客了一档访谈栏目,释放出了与 Anthropic 把 Harness 做厚做强相反的信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场对话围绕“AI 编码时代,真正改变软件开发范式的究竟是‘大模型本身’,还是围绕模型构建的 harness?”这一话题展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在访谈中,Michael 认为,Harness 不应该无限膨胀。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael 根据 Codex 的构建理念阐述了一个他们看到的重要趋势:理想状态下,harness 应该“尽可能小”,而模型应“尽可能强”。Codex 的设计理念就是减少工具数量、避免过度干预,让模型在更接近真实计算环境(如终端)的空间中自主探索解决路径。这种“AGI导向”的思路,本质上是在减少人为规则对模型的束缚,把更多决策权交还给模型本身。但Michael 也提到,在这一过程中,安全(security)和隔离(sandboxing)成为不可妥协的底线,也是 harness 不可替代的核心职责。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Codex 的理念更倾向于“把 Harness 做薄、做轻”,具体表现在以下几点:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;最小化工具依赖: 甚至刻意减少专用工具,转而让模型直接使用通用的终端(Terminal)。环境而非框架: Harness 仅提供必要的沙箱(Sandbox)安全环境和基础接口,不做过多的流程控制。能力回归模型: 探索、决策和执行的逻辑,尽量交给模型自身去学习,而不是由外部的编排框架硬编码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这种思路担心的是,过于复杂的 Harness 反而会把模型“教傻”,或者产生沉重的工程负担,拖慢迭代速度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;OpenAI和Anthropic的两种路径选择给 AI 从业者带来一个必须要思考的问题:Harness,到底是 AI Coding 的终局,还是一个正在被快速放大的中间态?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;因为这个问题的答案决定了未来的产品形态:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果 Harness 是终局: 那么未来的竞争将是“框架之战”。谁拥有最强健、最通用的 Harness(如 Anthropic 展示的多智能体架构),谁就能统治开发流程。AI 编程将演变为“系统工程 + AI”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果 Harness 是中间态: 那么现在的复杂框架只是为了弥补当前模型的短板。随着模型能力的指数级提升(如更强的记忆、更长的上下文、更好的推理),这些复杂的外部编排最终会被模型内化。届时,Harness 将退化为一个简单的运行环境(Sandbox),而核心竞争力将再次回归到基座模型的能力本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael Bolin 并非传统意义上的“AI 从业者”。在加入 OpenAI 之前,他曾长期任职于 Google 和 Meta,参与构建开发者工具与基础设施,主导或参与过 Buck、Nuclide、DotSlash 等项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;对话内容经由InfoQ 翻译及整理,略有删减:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f2/f28e280aeee41602334c25cf77f6c2b5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;关于 AI 编码与 Harness Engineering&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:今天很高兴邀请到 Michael Bolin。他是 Codex 的负责人。人们通常认为,AI 编码的核心就是“模型写代码”。但很多在构建智能体的团队认为,真正的变化在于围绕模型设计环境。你更认同哪一种?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Michael:模型当然会主导整体体验。但我们发现,在 Harness 这一层仍然有很大的创新空间。这不仅仅是一个研究问题。对我们团队来说,关键在于工程与研究之间的协同——共同开发智能体,确保 harness 能够让智能体发挥最佳能力。同时,还要为智能体提供合适的工具,要确保智能体使用的这些工具,在训练阶段就已经被模型“见过并练习过”,这样在真实产品环境中调用这些工具时,模型不会“陌生”或“出错”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:我们来定义一下 harness,以及它为什么变得如此重要。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:harness 有时也被称为 Agent loop——它负责调用模型、采样,并提供上下文:我想做什么、有哪些工具可用、下一步该做什么。然后模型返回响应——通常是一个工具调用,比如“我想用这些参数调用这个工具,请告诉我返回结果”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有些工具很简单,比如运行一个可执行文件并返回 stdout 和退出码。我们也做了很多更复杂的工具实验,比如控制机器、控制用户的笔记本,更像是一个交互式终端,而不是简单的命令执行。也可以进行网络搜索等操作。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;对于 Codex 来说,因为它是一个编码Agent,而我们非常重视安全和沙箱机制,因此 harness 的核心工作之一就是从模型获取 shell 命令或计算机操作指令,并确保它们在沙箱中执行,或者遵循用户设定的策略。这部分其实非常复杂。关键是既要释放模型的全部能力,又要确保在用户机器上的安全运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:在开源 Codex 时,你们是如何处理安全问题的?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:这些实现其实都可以在我们的代码库中看到。我们针对不同的操作系统做了不同的处理:在 macOS 上,我们使用了一种叫做 Seatbelt 的技术。在 Linux 上,我们使用了一系列库——包括 Bubblewrap、seccomp 和 Landlock。在 Windows 上,我们实际上构建了自己的沙箱。其中一些组件,比如 Seatbelt,是 macOS 的一部分,所以它们不在开源代码库里——我们就是这么称呼的。但我们的 Windows 沙箱代码在开源代码库里。我们会协调所有这些调用,确保它们以适当的方式通过沙箱,以适应不同的工具调用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:所以当别人 fork Codex 时,这些安全规则也都包含在里面了吗?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:是的,不过这里要区分“security”和“safety”。我刚才说的更多是 security,比如你可以运行工具,但只能访问特定文件夹。而行业里说的 safety,更多发生在后端——即模型本身是否会提出合适的工具调用。从 harness 的角度来看,它更像是在执行命令,而哪些命令是安全的,是由模型决定的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;所以,如果你 fork Codex 并继续使用我们的模型,那么你也继承了这部分安全性。但如果你换了别的模型,情况就不一定了。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Codex是如何发展的?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:自从你们推出Codex以来,它的发展情况如何?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:反响非常好,使用量相比年初增长了大约五倍。我们在 2025 年 4 月作为 o3 和 o4 mini 发布的一部分推出,当时模型在工具调用和指令执行方面还不够理想。到了 8 月 GPT-5 发布后,我们更新了 CLI,这是一个关键转折点。之后我们推出了 VS Code 插件,用户增长非常快,甚至超过了 CLI。再后来是今年年初推出的应用,也迅速流行起来。我认为它在很多方面都是真正意义上的首创。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:在你看来,这个应用的创新点是什么?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:开发者历来大部分时间都花在集成开发环境(IDE)中,。这些都是显而易见、顺理成章的选择。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;开发者通常在 IDE 中工作,所以我们进入 VS Code、JetBrains、Xcode 是很自然的。借助 Codex 应用,我们实际上建立了一个全新的界面。我把它看作“任务控制中心”,可以同时管理多个对话。同时它保留了 IDE 的核心能力,比如查看 diff、使用 Command-J 快捷键打开终端,而无需切换到其他窗口。它真正打破了你必须始终将所有代码都放在眼前的固有观念。对很多人来说,能够同时组织和协作多个Agent更有价值。这正是我们努力实现的核心功能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;编码代理如何改变开发者的工作流程&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:像 Codex 这样的编码代理,会如何改变开发者的日常工作?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:最大的变化是吞吐量。你可以并行推进很多任务。当然,这带来了一些上下文切换,并不是所有人都喜欢,但如果掌握得好,效率会非常高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;我个人维护着大约五个 Codex 代码库的副本,经常在它们之间切换。有时候,我只是在做其他事情的时候注意到一些小问题,然后快速修复一下。而有时候,我需要花一整天的时间,在会议间隙处理 Codex 的一个重大变更。很多人即使只有五分钟的会议间隙,也会发一条消息,只是为了推动某个任务朝着另一个方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第二点是,人们正在花更多时间研究如何优化这个工作流程。相对而言,这一切都非常新颖。我应该把一直在做的事情变成一项可复用的技能吗?我应该把这项技能分享给我的团队成员吗?优秀的开发者总是会努力优化他们的内部循环(Inner loop),但这是一个全新的内部循环,每个人都还在摸索中。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第三件备受关注的事情是代码审查。代码审查的数量显著增加,但 Codex 本身也承担了大量的代码审查工作,这节省了大量时间。如何最大限度地利用这些资源仍然是一个不断探索的问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:你在最初开发 Codex 时,有没有遇到什么意想不到的事情?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael Bolin:我最大的感受是技术发展太快了。Codex 成立至今还不到一年,考虑到这段时间发生的巨大变化,这真是令人惊叹。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;我们在2025年4月发布时,那是o3和o4 发布计划的一部分。当时我们使用了推理模型,但工具调用和指令执行方面还没有达到我们预期的效果。看到这方面随着时间的推移而不断改进,真是令人欣慰。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;早期最令人兴奋的事情之一就是让 Codex 自己编写更多代码——亲眼见证这个过程。比如 agents.md 逐渐成为标准,搭建起框架,让你能够构建出优化自身工作流程的工具。这带来了一种指数级的飞跃,既令人兴奋又充满乐趣。看到同事们真正理解 Codex 并把更多工作转移到 Codex 上——这真是太棒了。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能体时代的代码库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:当代码库是由智能体而不是人类来阅读时,它应该是什么样?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:整个智能体编码之旅中一个有趣的现象是,软件开发中一些长期以来被认为是最佳实践的做法,我们却从未真正实践过。文档就是一个例子,测试驱动开发也是如此。人们并非完全忽视它们,但总觉得得不偿失。而现在,在智能体优先的世界里,这些变得非常有价值。人们几乎是在重新发现它们,并且真心实意地重视它们。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,想想 agents.md 文件,我们写在里面的所有内容,我认为也同样适用于新加入团队的人——他们需要知道的一切,所有最佳实践。把这些内容写下来,既方便了智能体,也方便了你的队友,这实际上是一种解脱。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;也就是说,在 Codex 上,我们自认为已经接受了通用人工智能(AGI)的理念——这意味着智能体应该真正自主决定做什么,而不是我们不断地向它灌输指令。与其编写一份与源代码并行运行、容易导致重复或不一致的文档,我们不如让智能体花时间阅读代码并形成自己的判断。我们会尝试在 agents.md 文件中添加一些它无法从代码中快速获取的信息,例如:如何运行测试,或者哪些测试比哪些测试更重要。但我们尽量避免过度干预,而是让智能体自行决定最佳的执行路径。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:你认为在不久的将来,agents.md 会由智能体自己写吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Michael:很多人已经这么做了,比如在指令中加入“完成后更新 agents.md”。我们团队没有强制这样做,但这是常见做法。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:现在确实有不少人这么做。我看到很多开发者会在自己的提示说明里加上一条类似的要求:任务完成后,顺便更新 agents.md 文件,把过程中值得记录的内容补充进去——包括那些不那么显而易见的信息,或者是在和 Codex 协作开发时逐渐发现的经验。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过在我们团队内部,这还没有成为一项通用规范。你如果去看代码库的历史记录,也能发现我们并没有系统性地这么做,但在社区里,这种方式已经比较常见了。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;另外,学界也开始讨论一个问题:到底应该给智能体提供多少信息才合适。我个人觉得,这很大程度上取决于具体的智能体能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在 Codex 的实践中,我们采取的是一种相对克制的方式——不会写成几十页的详细说明,而是只保留一些关键要点,让智能体自己去理解和发挥。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Codex 不生成“垃圾”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:Context Engineering 似乎是这个过程中越来越重要的部分。对于智能体来说,会不会出现“上下文过多”的问题?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:从我的经验而非研究角度来看:对于中等规模的任务,我通常会描述一段代码,然后让 Codex 熟悉这部分代码。有时,如果我认为有帮助,我会提供明确的文件指针,但通常我不会——它自己就能很好地搜索代码库。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有一件容易被忽视但却至关重要的事情:确保文件和文件夹命名规范。这本身就是一种良好的习惯,当 Agent 程序搜索代码时,这一点显得更加重要。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;大部分上下文信息将来自 agents.md 文件、我编写的提示以及一些文件引用。我还授予了 Codex 访问 GitHub 的权限,这样它就可以查看类似这样的信息:例如,这个拉取请求中也出现了类似的问题,它不仅可以看到代码,还可以看到围绕该拉取请求的讨论。但再次强调,这更多的是为了让 Codex 了解它有哪些选择——就像是给它提供了工具箱里的工具一样——而不是规定它应该如何解决问题。这是一个很好的模型,所以它在这方面做得很好。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:听起来这种工作方式会促使你采用更严格的架构。是这样吗?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:当然。Codex 会遵循它在代码库中发现的模式。如果你一开始就拥有良好的架构,它就会遵循它、维护它,并强制执行你设定的不变式——从长远来看,你就会处于有利地位。当然,这对人类开发者来说也是如此。只是现在的变化速度要快得多,所以如果你有这些标准,你就能更深刻地感受到它们带来的好处。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:你是否仍然看到模型和编码代理中存在大量缺陷?你是如何应对的?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:说实话,我觉得Codex里并没有真正称得上“糟糕”的东西。我更多地看到的是,这些模型喜欢编写代码。所以有时候正确的做法是删除代码,你可能需要更明确地说明这一点。但这其实算不上糟糕——更像是:你在这个文件里添加了500行代码,也许你应该新建一个文件。这些都更容易解决。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;更常见的情况是,Codex 掌握了我尚未接触过的习语或语言特征,并加以运用。我因此学到了新东西。这才是 Codex 带给我惊喜的更多方式——而不是敷衍了事。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;模型与Harness Engineering,谁更重要?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:你刚才描述的是,Codex 刚起步的时候,模型还不完善。现在模型已经成熟很多,应用本身也吸引了更广泛的用户群体。但我想问的是,模型与 Harness Engineering 谁更强大?Harness Engineering 是否会在某个阶段不再仅仅是一个封装层,而成为一个更重要的环境?或者说,模型始终占据主导地位?模型和 harness engineering,在你看来哪个更重要?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael Bolin:我明白你的意思,你是想问,有没有可能出现一种情况,Harness Engineering逐渐消失,不再发挥太大作用?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在我看来这并非不可能。在很多方面,我们都在努力让 harness 尽可能小巧、尽可能轻量级。与其他一些智能体相比,Codex 的一个显著特点是,我们尽量减少智能体拥有的工具。例如,例如 Codex 的工具非常少,没有专门的读文件工具,而是让它使用终端命令。这与我之前提到的“AGI 理念”相呼应:我们给予它广阔的探索空间,让它自行找到最佳的运行路径。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;唯一的例外是安全——沙箱是必须的。沙箱机制是防止 Codex 不受控制运行的重要保障。有时,人们会耍点小聪明,试图通过控制代理来操控上下文窗口。但作为 Codex 的作者,我们想说:“收起你的小聪明,我比你懂得多。” 但我们尽量克制。如果 Codex 即将运行一个会输出 1GB 数据的工具,我们的想法是:先让 Codex 将数据写入文件,然后再用 grep 命令搜索,但要让它自由选择如何解决问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:你认为有可能将所有这些安全规则、沙盒机制都编码进去吗?还是应该始终有人参与其中?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:就我们关注的编码任务而言,我认为沙盒机制确实是取代人工干预的主要方法,至少对我们大部分的工作来说是这样。你遇到一个问题,把它交给 Codex,它会在一个受特定方式约束的沙盒环境中运行,让它在这个空间内探索,就能找到最佳解决方案——尤其是在大规模应用的情况下。我同时运行着五个 Codex 的克隆版本。如果我必须每隔几分钟就干预这五个版本,那会从根本上限制它们的吞吐量。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些纠正措施应该更多地在训练阶段进行,然后在推理阶段发挥作用,而不是需要人为干预。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;主持人:所以能力更多会在模型里,而不是 harness?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael Bolin:是的,模型更重要。但 harness 的可靠性仍然非常重要。如果 harness 崩溃,一切就结束了。随着我们不可避免地迈向多智能体和子智能体架构——更多智能体在不同机器间通信——harness不再仅仅是单台机器上的单个进程,而变成了一个智能体网络。我预计未来会有很多更有趣的工作要做。我的职业生涯大部分时间都在为开发者编写工具;现在我正在为智能体编写更多工具。智能体也可以编写自己的工具,但正如我所说,我们更倾向于使用少量但功能强大的工具,让智能体能够充分探索各种可能性——我们将继续尝试,找到最合适的工具组合。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Agent未来发展方向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;主持人:你认为智能体编码的基础组件有哪些?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael:我觉得我们已经看到了很多组成部分。比如我称之为 shell 工具或终端工具的东西,它让模型能够像人一样使用计算机终端,而不仅仅是直接执行命令。它还包括处理流式输出并高效利用这些输出等功能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;记忆是另一个重要领域。过去,每次发起对话都是从零开始——这就是为什么会有 agents.md 以及各种上下文填充机制,以便快速将信息导入模型。如果你查看代码库,会发现很多关于记忆的实验。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,不同类型的上下文连接器(context connectors)也正在发生很多变化。最初,我们专注于本地计算机上的计算机任务,但现在它也涵盖了更广泛的工作——例如代表您发送电子邮件、创建文档以及在 Web 浏览器中执行操作。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,还有标准的 LLM 基础设施:一般来说,更大的上下文窗口是好事;当达到限制时如何压缩内容;所有这些都在积极探索中,并有助于提升整体代理体验。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.youtube.com/watch?v=6BAqgT3qe98&quot;&gt;https://www.youtube.com/watch?v=6BAqgT3qe98&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.infoq.cn/article/HFewc09HcZ1IaDyFj8D0&quot;&gt;https://www.infoq.cn/article/HFewc09HcZ1IaDyFj8D0&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.youtube.com/watch?v=wVl6ZjELpBk&quot;&gt;https://www.youtube.com/watch?v=wVl6ZjELpBk&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.anthropic.com/engineering/harness-design-long-running-apps&quot;&gt;https://www.anthropic.com/engineering/harness-design-long-running-apps&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vblM3MlOEs86dmVdH8d1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vblM3MlOEs86dmVdH8d1</guid>
      <pubDate>Thu, 02 Apr 2026 10:00:00 GMT</pubDate>
      <author>李冬梅</author>
      <category>OpenAI</category>
      <category>AI 工程化</category>
    </item>
    <item>
      <title>AI 资本大转向:OpenAI 凉、Anthropic 火、马斯克赢</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/16/44/164e18451f4c485f0553ab3d2f0e1944.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“SpaceX IPO,意味着资本正在押注一种由实体基础设施护城河构成的优势;OpenAI 的二级份额开始流向 Anthropic,说明市场其实在用真金白银下注:前沿实验室里,开发者到底真正信谁。Claude Code 泄露这件事,不只是“火出圈”这么简单,它显然还撬动了 SPV 资金的流向。”有网友评价如此今天在资本圈热度颇高的三家知名公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;OpenAI 是这三家关系网的中心。xAI 创始人马斯克原本就是 OpenAI 联合创始人,后来反目成诉讼对手;Anthropic 则是从 OpenAI 核心团队中分化出来的竞争者。这三家公司看起来是三家独立 AI 公司,实际上背后连着的可能是同一批人才、同一批投资人,以及同一个关于“AI 未来如何发展“的长期分歧。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在资本市场上,这三家背后的马斯克、奥特曼和阿莫迪等人也在悄无声息地“开战”。目前“带外挂SpaceX ”入场的马斯克暂时领先。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;马斯克瞄准史上最大 IPO,“粉丝”红利时间&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今日,彭博社报道称,SpaceX 已秘密递交首次公开募股(IPO)申请文件。这意味着,这家由埃隆·马斯克掌舵、横跨火箭发射、卫星互联网和 AI 业务的公司,距离冲击史上最大规模 IPO 又近了一步。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;知情人士透露,SpaceX 已向美国证券交易委员会递交 IPO 注册草案。按照目前进度,这家公司最快有望在 6 月上市。如果顺利推进,SpaceX 将成为这一轮超级 IPO 潮中最先登场的一家,后面潜在的重磅选手还包括 OpenAI 和 Anthropic。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;所谓“保密递表”,指的是公司可以先向监管机构非公开提交上市材料,在正式披露前根据反馈进行修改。至于最终发行多少股份、定价区间是多少,这些核心交易细节通常会在后续文件中进一步披露。此前有知情人士称,SpaceX 此次 IPO 目标估值可能超过 1.75 万亿美元,上市募资规模可能高达 750 亿美元。若这一数字成真,将远超沙特阿美 2019 年创下的 290 亿美元 IPO 融资纪录,刷新全球历史纪录。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得注意的是,SpaceX 此前已完成对马斯克 AI 初创公司 xAI 的收购,合并后实体当时的估值约为 1.25 万亿美元。根据 Bloomberg Intelligence 测算,到 2026 年,SpaceX 的火箭发射业务和 Starlink 业务仍将贡献公司绝大部分收入,总收入接近 200 亿美元;相比之下,xAI 的收入规模可能不到 10 亿美元。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果只看收入规模,xAI 目前和 OpenAI、Anthropic 已经不在一个量级。据外媒报道,OpenAI 的年化经常性收入(ARR)已超过 250 亿美元,Anthropic 也高达 190 亿美元。无论是产品成熟度还是商业化速度,后两者都已把 xAI 甩开了不止一个身位。将xAI 并入更被看好的SpaceX 上市也成为马斯克与其他前沿AI公司博弈的方式之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;知情人士表示,SpaceX 已通知潜在投资者,公司高管预计将在本月启动路演沟通。这类“试水”性质的投资者会议,通常会释放更多经营和财务信息,以支撑其估值预期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;另外,此前有报道称,不同于传统路演模式,马斯克计划邀请基金经理和分析师前往公司位于洛杉矶的制造园区以及佛罗里达州卡纳维拉尔角的火箭发射场进行实地参观,甚至现场观看发射。马斯克及其团队认为,亲身接触 SpaceX 的设施后,投资者将更愿意为本次发行投入大额资金。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;知情人士还称,SpaceX 正考虑在此次上市中采用双重股权结构。这意味着,包括马斯克在内的内部人士,未来可能拥有更高投票权,从而继续掌握公司的决策主导权。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,这次 IPO 预计也会向个人投资者开放相当比例的份额,SpaceX 甚至可能把最多 30% 的发行股份分配给中小投资者,而传统 IPO 中个人投资者通常仅能获得约 10% 的新股。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;马斯克商业版图的忠实粉丝,在此次 IPO 中可能获得额外倾斜。有接近交易的人士表示,SpaceX 正在讨论对投资过特斯拉或曾支持马斯克收购 Twitter 的投资者给予优先配售。此外,公司还可能在锁定期上做出特殊安排:一方面对部分早期股东设置长于常规 6 个月的锁定期,以缓解上市后的股价压力;另一方面也可能允许另一部分股东在上市后立即出售股份。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在承销阵容方面,SpaceX 已基本敲定美国银行、花旗银行、高盛集团、摩根大通及摩根士丹利担任本次 IPO 的核心承销机构,同时还在继续扩充投行团队。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;SpaceX 也正在与多家国际投行合作,分别负责不同地区的认购安排。其中,花旗银行负责整体协调;巴克莱银行负责英国市场;德意志银行与瑞银集团负责欧洲市场。根据彭博此前披露的信息,加拿大皇家银行负责加拿大地区订单,瑞穗金融集团负责亚洲市场,麦格理集团则主要覆盖澳大利亚市场。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;OpenAI 股份“挂着也没人接”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同样作为在奋力冲刺IPO的选手,马斯克的“死对头”奥特曼最近可能比较焦虑,因为 OpenAI 股份正在二级市场上明显降温。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据多家二级交易平台透露,过去一段时间,市场对 OpenAI 股份的热情快速回落,部分卖盘甚至已经接近“挂着也没人接”的状态。与之形成鲜明对比的是,投资人正迅速把目光转向它最大的竞争对手 Anthropic。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管 OpenAI 在最近几个月里接连完成大额融资,吸金规模高达数百亿美元,但 Next Round Capital 创始人 Ken Smythe 表示,他旗下的二级市场平台已经感受到,机构买家对 OpenAI 股份的兴趣正在明显减弱。过去几周,已有大约六家机构投资者找到他们,包括持有大量股份的对冲基金和风投机构,希望出售合计约 6 亿美元的 OpenAI 股份。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果放在去年,这类股份通常几天之内就会被抢光。但现在,情况明显变了。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Smythe 表示,他们几乎把平台上几百家机构投资者都问了一遍,结果一个愿意接盘的人都没找到。与此同时,买方给他们的反馈却是:市场上有大约 20 亿美元现金,正准备随时投向 Anthropic。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;类似情况并不只出现在 Next Round。包括 Augment、Hiive 在内的多家交易平台,都观察到了 Anthropic 需求飙升。Augment 联合创始人 Adam Crawley 表示,OpenAI 当前约 8520 亿美元的估值,与 Anthropic 约 3800 亿美元的估值之间,拉开了相当大的差距。也正因为如此,很多投资人都在抢着买入后者,想赶在它进一步涨价前上车。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Crawley 直言,“现在看,Anthropic 的风险收益比更有吸引力。”市场普遍押注,Anthropic 的估值未来会向 OpenAI 靠拢;但如果现在买入 OpenAI,短期内还能拿到多大回报,反而没有那么清楚。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/47/47dec92fcd19ca3f11a88a511c47aa62.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;OpenAI 整体估值已是 Anthropic 的两倍以上&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位知情人士还透露,包括摩根士丹利与高盛集团在内的多家银行,已经开始向财富管理客户推荐 OpenAI 股份,甚至不再收取业绩分成。相比之下,高盛针对 Anthropic 的相关交易,仍按惯例收取大约 15% 至 20% 的分成。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,对于这一说法,相关银行均拒绝置评,OpenAI 和 Anthropic 也没有作出回应。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Claude Code 源码泄露,不影响被追捧 Anthropic&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;SpaceX 所代表的,是一级市场对于“稀缺超级科技资产”的持续追逐;而 OpenAI 和 Anthropic 在二级市场上的冷热分化,则显示出另一种现实:资本市场对 AI 公司并不是一概追捧,而是在开始更细致地比较谁更值得买。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管 OpenAI 宣布完成公司史上最大一轮融资(总计获得 1220 亿美元,投资方既包括科技巨头,也包括风投基金和个人投资者),但是,一级市场融资火热,并不意味着二级市场交易同样火热。两者本来就不是一套逻辑。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一级市场融资中,‌前期投资者‌可以用跟投维持占比。哪怕一些机构短期不倾向于追加投资,也可能为了维持和初创团队的长期关系进行少量跟投,然后在后续的二级市场把这些敞口作优先出售。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去几年,这两家 AI 公司都经历了爆发式增长。尤其是在 OpenAI 于 2022 年推出 ChatGPT、Anthropic 随后推出 Claude 之后,双方都迅速成长为生成式 AI 赛道最核心的两家公司。眼下,两家公司也都在考虑未来上市的可能性,其中 Anthropic 正考虑最快于今年 10 月进行首次公开募股,与 OpenAI 竞相推进上市进程。Anthropic 此次上市募资规模可能超过 600 亿美元(若成真,则仅低于SpaceX 20%)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;需要注意的是,无论是 OpenAI 还是 Anthropic,都不允许投资者在未经公司许可的情况下,直接在二级市场交易股份。不过,市场上依然存在不少变通做法,比如通过 SPV(特殊目的载体)等结构,间接转让相关权益。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;眼下,越来越多投资人开始对 OpenAI 持谨慎态度,最核心的担忧之一,就是它不断攀升的运营成本。为了支撑自己的 AI 目标,OpenAI 未来几年在基础设施上的投入预计将远高于 Anthropic。与此同时,虽然 OpenAI 在消费者市场拥有极强的用户基础,但在利润率更高的企业客户市场,它的推进速度相对没那么快。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;相比之下,Anthropic 在企业市场的表现更强,也因此被不少投资人视为增长更扎实、利润想象空间更大的那一个。Crawley 就表示,从目前的走势看,Anthropic 的增长曲线比 OpenAI 更有说服力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当然,Anthropic 也不是没有自己的问题。它目前正起诉美国国防部。此前,美国五角大楼将其列为供应链风险,并要求政府机构停止使用其技术。就在本周,Anthropic 又在短短几天内第二次出现安全事故,意外泄露了 Claude Code的内部源代码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;即便如此,市场对 Anthropic 的追捧仍在持续。Next Round 目前看到的 OpenAI 买盘,对应估值大约为 7650 亿美元,相比上一轮约 8500 亿美元的估值,已经打了约 10% 的折扣。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而在 Anthropic 这边,情况恰好相反。Crawley 表示,现在市场对 Anthropic 的需求显然更强。Augment 和 Next Round 目前都看到了大量买盘,这些买盘给出的估值大约在 6000 亿美元左右,较上一轮融资估值高出 50% 以上。Hiive 联合创始人 Prab Rattan 也表示,平台上针对 Anthropic 股份的需求已经超过 16 亿美元,而且同样是溢价成交。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Crawley 的总结很直接:这可能是他们见过最强的一波需求,几乎可以说,市场对 Anthropic 的兴趣是“无限的”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;结束语&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果把 SpaceX、OpenAI 和 Anthropic 在一级市场、二级市场的表现放在一起看,就会发现一个越来越清晰的信号:市场仍然愿意为超级科技资产买单,但给出高估值的逻辑,正在变得越来越不一样。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;对 SpaceX 来说,市场看中的是它作为“超级稀缺资产”的独特性:火箭发射、Starlink、航天基础设施、马斯克品牌和 AI 叠加后的综合溢价。它面对的是“有没有替代品”的问题。也可以看出,一级市场对超级科技故事的热情依旧很高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 OpenAI 在二级市场遇冷、Anthropic 被疯抢,则说明资本正在用更现实、更细的尺子,给 AI 公司重新打分。“同一条赛道里,谁更值得买”框架下,资本会更敏感地比较估值、成本、增长质量和企业化兑现路径。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这也意味着,接下来的超级 IPO 潮,可能并不会只是“谁名气大谁就赢”。市场当然还会继续追逐头部公司,但前提是:估值不能太透支、成本结构不能失控,商业化路径也必须越来越清晰。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.bloomberg.com/news/articles/2026-04-01/spacex-is-said-to-file-confidentially-for-ipo-ahead-of-ai-rivals&quot;&gt;https://www.bloomberg.com/news/articles/2026-04-01/spacex-is-said-to-file-confidentially-for-ipo-ahead-of-ai-rivals&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.theinformation.com/newsletters/the-information-finance/big-tech-companies-racing-fund-openai&quot;&gt;https://www.theinformation.com/newsletters/the-information-finance/big-tech-companies-racing-fund-openai&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.bloomberg.com/news/articles/2026-03-03/anthropic-nears-20-billion-revenue-run-rate-amid-pentagon-feud?utm_source=chatgpt.com&quot;&gt;https://www.bloomberg.com/news/articles/2026-03-03/anthropic-nears-20-billion-revenue-run-rate-amid-pentagon-feud?utm_source=chatgpt.com&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.bloomberg.com/news/articles/2026-04-01/openai-demand-sinks-on-secondary-market-as-anthropic-runs-hot&quot;&gt;https://www.bloomberg.com/news/articles/2026-04-01/openai-demand-sinks-on-secondary-market-as-anthropic-runs-hot&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.wsj.com/finance/spacex-ipo-elon-musk-prepare-1367846a&quot;&gt;https://www.wsj.com/finance/spacex-ipo-elon-musk-prepare-1367846a&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/jTBOKdUUCdR86YYD1cBF</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/jTBOKdUUCdR86YYD1cBF</guid>
      <pubDate>Thu, 02 Apr 2026 09:53:24 GMT</pubDate>
      <author>褚杏娟</author>
      <category>AI&amp;大模型</category>
    </item>
    <item>
      <title>云原生数据库下半场:深度解析 TDSQL-C 硬核技术,探索 AI 驱动的智能进化与产业实践</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/db/7e/dbyycedf391b2db23805ea437f069a7e.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;当前,随着数据量爆发式增长、业务场景愈发复杂、全球化部署需求激增,传统数据库架构越来越难以适配新时代的业务发展要求。在 AI 技术的加持下,云原生数据库正朝着智能化方向加速演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为腾讯云重磅打造的云原生关系型数据库,TDSQL-C 融合了传统数据库、云计算与新硬件技术的优势,全面重构数据库弹性能力、查询效率与运维管理体验,并通过全球分布式架构,构建起跨区域、高可靠、低延迟的数据库服务体系,在智能自治、极致弹性、全域高可用三大方向实现突破性进化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了让更多开发者洞悉云原生数据库的技术演进路径,掌握 AI 赋能下数据库建设的核心方法,DBTalk 第二期特别策划「AI 重构云原生数据库:TDSQL-C 智能进化与技术全景解析」主题直播,邀请三位 TDSQL 核心技术专家,全方位拆解 TDSQL-C 的技术内核与实践经验。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;本次直播聚焦三大硬核议题:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;议题一:Serverless 智能弹性与 AI 驱动的云原生数据库平台&lt;/p

@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 01:34:55 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>35 年只卖设计,今天亲自下场造芯!Arm 首款自研芯片发布,Meta 抢下首单</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/96/bd2a783fdb8597628458b8acc4e02096.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;36年来,半导体与软件公司 Arm 一直将芯片设计授权给英伟达、苹果等企业使用,如今终于开始自主研发并制造自有芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在近日举办的发布活动上,该公司正式推出一款面向AI数据中心推理场景、可直接量产的处理器Arm AGI CPU。这家英国企业基于自研Neoverse系列CPU IP内核,并与Meta合作完成了这款芯片的开发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,Meta也是Arm AGI CPU的首位客户,该芯片专为与Meta的AI训练及推理加速器协同工作而设计。Arm的首批合作方还包括OpenAI、Cerebras、Cloudflare等多家科技公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;市场对Arm转型自研芯片的动向早有预期。据外媒报道,该公司早在2023年便启动了芯片研发工作,目前相关处理器已开放订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管此举在预料之中,却标志着Arm历史性地打破了长期以来仅向其他芯片厂商授权设计的传统模式。这家由日本软银集团控股的公司,未来将与众多合作伙伴直接展开竞争。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm选择推出CPU而非GPU,这一点同样值得关注。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代理式AI基础设施崛起&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI系统正日益以全球规模持续运行。在过去,人是计算环节的瓶颈——人们与系统的交互速度决定了工作推进的速度。而在代理式AI时代,因为软件智能体可自主协同任务、与多个模型交互,并实时做出决策,这种局限性将不复存在。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着AI系统持续运行且工作负载复杂度不断提升,CPU已成为现代基础设施中决定运行节奏的关键要素——负责保持分布式AI系统大规模的高效运行。在现下的AI数据中心中,CPU管理数千个分布式任务,包括协调加速器、管理内存与存储、调度工作负载、跨系统迁移数据,加上当今的代理式&amp;nbsp;AI场景兴起,CPU&amp;nbsp;还需面向海量智能体实现大规模协同调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这一转变对CPU提出了全新要求,驱动处理器架构的演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm Neoverse 现已成为当今众多领先超大规模云服务及AI平台的核心支撑,包括Amazon&amp;nbsp;Graviton、Google&amp;nbsp;Axion、Microsoft&amp;nbsp;Azure Cobalt&amp;nbsp;及&amp;nbsp;NVIDIA&amp;nbsp;Vera&amp;nbsp;等。随着AI基础设施在全球范围内不断扩展,生态系统的合作伙伴纷纷期待Arm&amp;nbsp;能够提供更多能力。为应对这一变革,Arm AGI CPU应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Arm AGI CPU:专为机架级代理式AI效率而生&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代理式AI&amp;nbsp;工作负载需要在大规模场景下实现持续稳定的性能输出。Arm AGI CPU&amp;nbsp;正是为此而设计,能够在数千核心并行的持续高负载下,为每个任务提供高性能表现,且满足现代数据中心功耗与散热的严格要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从运行频率到内存及I/O架构,Arm AGI CPU的每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的代理式&amp;nbsp;AI&amp;nbsp;工作负载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成两颗CPU&amp;nbsp;芯片,并配备独立内存与&amp;nbsp;I/O,共计&amp;nbsp;272 个核心。这些刀片服务器可在标准风冷&amp;nbsp;36 千瓦&amp;nbsp;(kW) 机架中满配部署,30 台刀片服务器可提供总计&amp;nbsp;8160 个核心。此外,Arm 还与&amp;nbsp;Supermicro 合作推出&amp;nbsp;200 千瓦&amp;nbsp;(kW) 液冷设计方案,可容纳&amp;nbsp;336 颗&amp;nbsp;Arm AGI CPU,提供超过&amp;nbsp;45000 个核心。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在该配置下,凭借Arm架构的根本优势,以及系统资源与计算能力的精准匹配,Arm AGI CPU 可实现单机架性能达到最新x86系统的两倍以上:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Arm AGI CPU具备业界领先的内存带宽,使每个机架能够支持更多高效执行的线程;相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降;高性能、高能效的单线程&lt;a href=&quot;https://www.arm.com/products/silicon-ip-cpu/neoverse/neoverse-v3&quot;&gt;Arm Neoverse V3处理器&lt;/a&gt;&quot;核心性能出众,优于传统架构——每个Arm线程可处理更多任务;更多可用线程与更高单线程处理能力相互叠加,最终实现单机架性能的大幅提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm AGI CPU已获得合作伙伴的认可,这些合作伙伴均处于代理式AI基础设施规模化部署的前沿领域。计划部署场景涵盖加速器管理、代理式&amp;nbsp;AI&amp;nbsp;协同调度,以及支撑代理式&amp;nbsp;AI&amp;nbsp;任务规模化扩展所需的服务、应用与工具的高密度部署,同时还包括为AI数据中心提供更强的网络与数据面计算能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化吉瓦级规模基础设施,并与Meta自研的MTIA加速器协同运行。其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯——这些企业均与Arm合作部署Arm AGI CPU,以加速云、网络及企业环境中的AI驱动型服务落地。目前,永擎电子、联想及Supermicro已开放商用系统订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为进一步加速产品采用,Arm推出Arm AGI CPU 1OU双节点参考服务器,该服务器采用符合开放计算项目&amp;nbsp;(Open Compute Project,OCP)的DC-MHS标准规格设计。Arm计划向社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;图形处理器(GPU)因承担AI模型训练与运行任务而备受瞩目,而CPU在数据中心机架中同样扮演着不可或缺的关键角色。Arm在主推这款CPU时强调,此类芯片负责处理成千上万项分布式任务,包括内存与存储管理、任务调度、系统间数据传输等。该公司表示,CPU已成为“现代基础设施的节奏核心,保障分布式AI系统实现高效规模化运行”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm指出,这一趋势对CPU提出了全新要求,也推动处理器必须迭代升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,全球CPU供应也日趋紧张。据外媒此前报道,今年3月,英特尔与AMD均告知中国客户,受CPU短缺影响,产品交付周期将进一步延长。随着短缺状况加剧,电脑产品价格也已开始上涨。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&quot;&gt;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</guid>
      <pubDate>Wed, 25 Mar 2026 03:53:18 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>英伟达联手 Akamai:AI Grid 背后的 Token 成本与吞吐博弈</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/73/e6/73a91bfcbb4d60e78aa703a2bf7e3fe6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026年3月18日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的NVIDIA® AI Grid参考设计实施方案 。通过将NVIDIA AI基础设施集成到Akamai的架构中,并利用网络层面的智能工作负载编排,Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此举标志着去年底推出的&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-inference-cloud-transforms-ai-from-core-to-edge-with-nvidia&quot;&gt;Akamai Inference Cloud&lt;/a&gt;&quot;&amp;nbsp;在演进中迈出重要一步。作为首家实现AI网格运营化的公司,Akamai正部署&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-to-deploy-thousands-of-nvidia-blackwell-gpus-to-create-one-of-the-worlds-most-widely-distributed-ai-platforms&quot;&gt;数千个&lt;/a&gt;&quot;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/&quot;&gt;NVIDIA RTX PRO 6000 Blackwell服务器版GPU&lt;/a&gt;&quot;的平台,为企业提供能够运行智能体和物理AI的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“AI工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics),”Akamai云技术事业部首席运营官兼总经理Adam Karon表示 。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在4400个站点以合适的成本和时间路由AI工作负载”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“Token经济”的架构&amp;nbsp;&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI Grid的核心是一个智能编排器,充当AI请求的实时代理 。通过将Akamai在应用性能优化方面的专业知识应用于AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾AI工作负载提供了巨大的成本和性能优势 。例如:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质GPU周期 。Akamai Cloud基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型AI操作。实时响应能力:游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。核心节点的生产级AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/products/ai-enterprise/&quot;&gt;NVIDIA AI Enterprise&lt;/a&gt;&quot;、&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/&quot;&gt;Blackwell架构&lt;/a&gt;&quot;和&lt;a href=&quot;https://www.nvidia.com/en-us/networking/products/data-processing-unit/&quot;&gt;NVIDIA BlueField DPU&lt;/a&gt;&quot;,Akamai能够管理跨边缘和核心位置的复杂服务等级协议 :&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;边缘(4,400+个站点):为物理AI和自主智能体提供极速响应 。它利用语义缓存和WebAssembly等服务器端功能(Akamai Functions和EdgeWorkers)提供模型亲和性和稳定的性能 。Akamai Cloud IaaS与专用GPU集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而Blackwell GPU阵列则助力繁重的后训练和多模态推理 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;NVIDIA电信业务发展全球副总裁Chris Penrose表示:“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将NVIDIA AI Grid投入运营,Akamai正在构建生成式、代理式和物理AI的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一波AI基础设施由少数几个中心化地点的海量GPU集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建AI代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</guid>
      <pubDate>Tue, 24 Mar 2026 03:15:34 GMT</pubDate>
      <author>Akamai</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token 成本全球最低;2027 营收将到 1 万亿;Feynman 架构已在路上;</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/11/f4/115d52389f4a43db78a749c9b88b06f4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/5f/5fb74fd8c08eca05c28144f0711ed342.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;北京时间2026年3月17日凌晨两点半,当英伟达 CEO 黄仁勋穿着那件标志性的黑色皮衣踏上SAP中心的舞台时,台下近万名开发者心里清楚:这一次,老黄要讲的不是某个单一芯片,而是一整套AI“全家桶”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款“前所未见的芯片”,被普遍认为是采用台积电1.6nm&amp;nbsp;制程、引入光通信技术的下一代Feynman架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今天揭晓的Feynman架构、Vera Rubin平台的量产进展,以及面向企业级自主代理的开源平台NemoClaw,不过是这座基础设施落地所需的“钢筋水泥”。黄仁勋用两个小时向资本市场证明了一件事:英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为“数万亿美元AI基建时代”搭建完整技术栈的“总包工头”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;回顾 CUDA 20年:安装基数引爆飞轮,GPU算力成本持续下降&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;演讲刚开始,黄仁勋用近十分钟篇幅,回溯了CUDA架构诞生20年的演进历程。他将这套软件生态定义为英伟达一切业务的“中心”,并直言:真正难以复制的壁垒,是底层的安装基数。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“二十年来,我们一直致力于这种革命性架构——单指令多线程(SIMT),让开发者编写的扩展代码能够轻松生成多线程应用,编程难度远低于传统方法。”黄仁勋回忆道。他特别提到近期引入的“tiles”(张量核心编程块)功能,旨在帮助开发者调用Tensor Core以及支撑当今AI的数学结构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如今,围绕CUDA已形成庞大的工具链生态:数千种工具、编译器、框架和库;仅开源领域就有数十万个公开项目。“CUDA真正融入了每一个生态系统,”黄仁勋说,“这张图,基本上描述了100%的媒体战略——你们从一开始就看我讲这张幻灯片。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/84/84b6bc25cb1fa808e64e51b5de28dbaa.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他随后指向图表底层:“最难实现的东西在这里——安装基数。我们花了20年,才在全球建立起数亿块运行CUDA的GPU和计算系统。我们在每一朵云里,在每一家计算机公司里,服务几乎每一个行业。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋将这套逻辑总结为“飞轮效应”:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“CUDA的安装基数,是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,带来技术突破——比如深度学习,还有很多其他领域。这些突破催生全新市场,围绕它们形成新的生态,更多公司加入,进而扩大安装基数。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他称这一飞轮正在加速:“NVIDIA库的下载量增长极快,规模巨大,增速前所未有。这个飞轮让计算平台能够承载如此多的应用和突破,更重要的是,它赋予了这些基础设施极长的有效生命周期。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;背后的逻辑很直接:CUDA支持的应用程序范围足够广,覆盖AI生命周期的每一个阶段,对接每一种数据处理平台,加速各类科学原理求解器。“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当安装基数足够大、飞轮足够快、开发者触达足够广,并且软件持续更新时,结果就是计算成本不断下降。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“加速计算让应用性能大幅提升,而我们在其生命周期内持续优化软件,”黄仁勋总结道,“你不仅获得初期的性能跃升,还能获得持续的算力成本降低。我们愿意支持全球每一块GPU,因为它们架构兼容。为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他最后补充道:“这套动态机制,让NVIDIA架构不断扩展应用范围,加速自身增长,同时降低计算成本,最终催生新的增长。CUDA就在这一切的中心。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为结尾的轻松注脚,黄仁勋提及了GeForce的历史:“我知道你们中有多少人是从GFORCE成长起来的——那是最棒的市场营销,我们在很早之前就开始吸引未来的客户。”&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为数据处理打造新的核心软件库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;演讲中,老黄提到下面这张图是本场演讲中最重要的一张图,因为里面提到了英伟达为数据处理打造的新的核心软件库。老黄在演讲中谈到,随着 AI 的快速发展,全球数据处理体系正迎来一次结构性的变革,其中最核心的变化,是结构化数据与非结构化数据的全面加速。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/05/05fdddc05dd6bc73f4685555bc058402.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋指出,长期以来企业计算的基础建立在结构化数据之上。无论是 SQL、Spark、Pandas 等技术体系,还是诸如 Snowflake、Databricks、Amazon 的 EMR、Microsoft 的 Azure Fabric,以及 Google 的 BigQuery 等大型数据平台,本质上都在处理一种核心数据结构——数据框(DataFrame)。这些数据框可以被理解为巨型电子表格,承载着企业运营和业务决策所依赖的关键信息,是企业计算体系中的“事实来源”(ground truth)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去,对结构化数据的加速主要是为了提升企业的数据分析效率:让计算任务完成得更多、成本更低,并且能够在一天内更频繁地运行数据处理流程,从而让企业运营更加高效、更加同步。但在 AI 时代,这一逻辑正在发生变化。黄仁勋表示,未来不仅人类会使用这些数据结构,AI 系统和智能体(Agent)也将直接访问和使用结构化数据库,而 AI 的处理速度远远快于人类,这意味着数据处理基础设施必须获得数量级的性能提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/a7/a77054d74f495ee94b71011c7e669e9a.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,另一类更庞大的数据也正在成为 AI 时代的重要资源——非结构化数据。黄仁勋指出,向量数据库、PDF 文档、视频、语音和演讲内容等都属于非结构化数据。全球每年产生的数据中,大约 90% 都是非结构化数据。然而在很长一段时间里,这些数据几乎无法被计算系统有效利用,人们只是阅读这些内容,然后把它们存储在文件系统中,却很难对其进行查询和搜索。其根本原因在于,非结构化数据缺乏可直接建立索引的结构,要使用这些数据,首先必须理解其语义和目的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 AI 的多模态理解能力正在改变这一状况。正如 AI 已经在多模态感知和理解方面取得突破一样,同样的技术可以用于读取 PDF、理解视频和语音内容,并将其语义信息嵌入到可计算的数据结构中,从而使这些数据能够被搜索、查询和分析。换句话说,AI 正在把原本难以利用的海量非结构化数据转化为可计算的信息资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了支持这一转变,NVIDIA 构建了两项关键基础技术。黄仁勋表示,就像当年为 3D 图形计算推出 RTX 技术一样,NVIDIA 现在为数据处理打造了新的核心软件库。其中 cuDF 用于加速数据框计算,主要面向结构化数据处理;而 cuVS 则面向向量存储和语义数据,用于处理非结构化数据和 AI 数据。这两项技术将成为未来数据基础设施中最重要的平台之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋透露,目前这两项技术正在逐步融入全球复杂的数据处理生态系统。由于数据处理产业已经发展了数十年,围绕它已经形成了大量公司、平台和服务,因此将新的加速技术深度整合进整个生态需要时间。但 NVIDIA 已经看到越来越多的合作伙伴开始采用这些技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,IBM——SQL 的发明者之一,也是历史上最重要数据库技术的推动者——正在利用 cuDF 来加速其数据平台 IBM watsonx.data。在黄仁勋看来,这类合作标志着 AI 正在逐步重塑整个数据处理基础设施,使企业能够同时高效利用结构化数据和海量的非结构化数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI 原生行业的爆发和英伟达万亿美金的信心&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI重塑整个基础设施的另一个标志是涌现出海量的AI原生企业。去年,这个行业经历了史无前例的飞跃。风险投资对初创公司的投入高达 1500 亿美元,创人类历史之最。投资规模也从千万美元级跃升至数十亿美金级。究其原因,是这些公司历史性地都需要海量算力和 Token。无论它们是创造 Token 还是为 Token 增值,它们对算力的渴望是共同的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,“正如 PC、互联网、移动云革命催生了谷歌、亚马逊和 Meta,这次计算平台的迁移也将孕育出一批对世界未来至关重要的新巨头。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;那为什么这种AI企业的爆发会发生在这两年?黄仁勋称这因为发生了三件大事:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;ChatGPT 开启生成式 AI 时代: 计算从“基于检索”转向“基于生成”。这彻底改变了计算机的架构、供应和建设方式。推理 AI(o1/o3)的出现: AI 开始拥有反思、规划、拆解问题的能力。o1 让生成式 AI 变得可靠且基于事实。为了“思考”,输入和输出 Token 的使用量呈爆炸式增长。Claude Code 开启代理(Agentic)时代: 这是首个代理模型。它能阅读文件、编码、编译、测试并迭代。它革新了软件工程。现在 NVIDIA 内部每个工程师都在使用 AI 代理辅助编程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/17/17118ee96a34b892bf1037971287a0d3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,“AI 已经从“感知”进化到“生成”,再到“推理”,现在已经可以执行极其高效的实际工作。 “推理拐点”已经到来。 AI 要思考、要行动、要阅读、要推理,每一环都在进行推理(Inference)。现在已经远超训练阶段,进入了推理的疆场。过去两年,计算需求增长了约 10,000 倍,而使用量增长了约 100 倍。我深感这两年的计算需求实际增长了 100 万倍。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;紧接着,老黄又分享了几个数据,让现场的气氛达到了高潮。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他高兴地向观众分享道,“去年我说 Blackwell 和 Rubin 到 2026 年的订单额将达 5000 亿美元,你们可能没觉得惊艳。但今天,在这里,我预见通过 2027 年的营收将至少达到 1 万亿美元。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他进一步强调了这不是空话,因为计算需求只会更高。2025 年是 NVIDIA 的“推理之年”,NVIDIA 系统是全球成本最低的 AI 基础设施——使用寿命越长,成本就越低。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他这么说的背后有着坚实的数据支撑。目前,全球三分之一的 AI 计算开源模型(如 Anthropic 和 Meta 的模型)都跑在英伟达芯片上。NVIDIA 是全球唯一能运行 AI 所有领域的平台:语言、生物、图形、视觉、机器人、边缘或云端。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在英伟达的业务中,60% 来自顶级云服务商(Hyperscalers),不仅支持其内部 AI 消费(如推荐系统、搜索向大模型的迁移),更通过英伟达的生态系统加速每一家 AI 实验室。另外 40% 则遍布区域云、主权云、企业级服务器及工业自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0e/0e806cea61a12db814d69e0f9ed55533.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Token 成本全球最低&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋介绍了 NVIDIA 在 AI 推理基础设施上的最新进展。他表示,AI 性能的突破并不仅来自单一技术,而是由计算架构、软件栈和算法的系统级协同设计共同推动。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋提到,NVIDIA 推出的 NVFP4(FP4)计算体系不仅是一种更低精度的数据格式,而是一种全新的 Tensor Core 计算架构。通过 NVFP4,NVIDIA 已经实现了在推理阶段几乎不损失精度的情况下,大幅提升性能和能效,同时这一计算格式也开始应用于模型训练。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结合 NVLink 72 高速互连,以及 Dynamo、TensorRT-LLM 等软件优化,NVIDIA 构建起一套面向大模型推理的完整技术体系。为优化底层软件与 GPU 内核,公司还投入数十亿美元建设 NVIDIA DGX Cloud 超级计算平台,用于开发和调优 AI 推理软件栈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2c/2ca4a822b3054612b6ec3b2be3b1ae20.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋强调,很多人曾认为推理是 AI 系统中最简单的部分,但实际上 推理既是最困难的环节,也是最关键的商业环节,因为它直接决定 AI 服务的收入来源。根据研究机构 SemiAnalysis 的评测,在数据中心层面,衡量 AI 系统效率的关键指标是每瓦特能够生成多少 token(tokens per watt)。由于数据中心受到电力等物理条件限制,本质上更像一个“AI 工厂”,企业必须在固定功率下尽可能多地生产 token。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;评测结果显示,NVIDIA 在 AI 推理性能和效率上依然保持领先。按照传统 Moore&#39;s Law,新一代芯片通常只能带来约 1.5 倍性能提升,但从 Hopper H200 到 Grace Blackwell NVLink 72 架构,NVIDIA 的 每瓦特性能提升约 35 倍。SemiAnalysis 分析师 Dylan Patel 甚至认为实际提升接近 50 倍。这一架构也带来了更低的 token 成本,在当前市场上具有明显优势。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3f/3f362a51e80793a3d483c69b03eb9744.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,这种极致的软硬件协同设计还能显著提升现有系统性能。例如在部分 AI 推理平台中,仅通过更新 NVIDIA 软件栈,就能将生成速度从 约 700 token/秒提升至接近 5000 token/秒,性能提升约 7 倍。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋强调,NVIDIA 的 Token 成本在世界范围内是“不可触碰”的。 即便竞争对手的架构是免费的,它也不够便宜。因为建立一个 1GW 的工厂,即便里面什么都不放,15 年的摊销成本也高达 400 亿美元。你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的 Token 生产成本。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/61/616c7d590295721c6809df83623166a3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在他看来,数据中心的角色正在发生变化:过去它是存储和计算中心,而未来将成为生产 token 的 AI 工厂。随着 AI 的普及,无论是云厂商、AI 公司还是传统企业,都将开始从“Token 工厂效率”的角度来衡量自己的计算基础设施,因为在 AI 时代,token 将成为新的数字商品,而计算能力则直接决定企业的价值创造能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Vera Rubin 时代降临&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据介绍,这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。该平台包含40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片、1152个&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/rubin/&quot;&gt;NVIDIA Rubin&lt;/a&gt;&quot;&amp;nbsp;GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。&amp;nbsp;该平台目前已全面投产,并得到了包括 Anthropic、OpenAI、Meta 和 Mistral AI 以及所有主要云提供商在内的众多客户的鼎力支持。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f4/f4136a5debe86247ff02c8d0745cfa87.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,过去十年间 AI 计算能力已经实现了 约 4000 万倍的提升,而这一变化正推动数据中心向“AI 超级计算机”形态演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“过去我发布产品时,可能只是手里举着一块芯片(比如 Hopper);但现在,当我谈到 Vera Rubin 时,我说的是一个全栈垂直整合的庞大系统。”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋展示了 NVIDIA 最新的 Vera Rubin AI Supercomputer 系统,并强调这是一套从硬件到软件 完全纵向整合(vertically integrated) 的计算平台,专门为 Agentic AI(智能体 AI) 设计。随着大语言模型不断扩大规模、生成更多 token 并处理更长上下文,系统不仅需要更强的计算能力,还需要更高带宽的内存和存储访问能力,例如 KV Cache、结构化数据处理(cuDF)以及非结构化向量数据(cuVS)等。因此,NVIDIA 对整个系统架构进行了重新设计,包括计算、存储和网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/71/717f0b14f1c8c06e588ccd08e1f12e2b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在硬件层面,NVIDIA 为这一平台开发了一款全新的数据中心 CPU——NVIDIA Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用 LPDDR5 内存 的 CPU,从而实现领先的性能功耗比。黄仁勋透露,这款 CPU 已经开始单独销售,并有望成为 NVIDIA 的一项数十亿美元级业务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在系统设计方面,Vera Rubin 超级计算机采用 100% 液冷架构,并通过 45°C 热水散热,大幅降低数据中心制冷成本。同时,系统内部布线被大幅简化,使得整机安装时间从过去的两天缩短至约两小时,从而显著提升数据中心部署效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;网络互连是这一系统的核心技术之一。NVIDIA 在该平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。黄仁勋表示,这是目前全球最先进、实现难度最高的大规模 GPU 互连系统之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/29/29fdbedbddd9ed2df005c08b7e06f053.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还推出了全球首个 CPO(Co-Packaged Optics)光电共封装的 NVIDIA Spectrum-X Ethernet Switch,将光模块直接集成到芯片封装中,实现电子信号与光信号的直接转换,从而显著提升数据中心网络带宽与能效。这项技术由 NVIDIA 与台积电共同开发,目前已经进入量产阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在更大规模的系统扩展上,NVIDIA 还展示了 Rubin Ultra Compute System。该系统通过新的 Kyber 机架架构,可以在一个 NVLink 域中连接 144 个 GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为 NVLink 交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e236d53b93509b9d41531b3d9018189c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,随着 AI 模型规模和推理需求持续增长,未来的数据中心将越来越像一台完整的超级计算机。而像 Vera Rubin 这样的系统,正是为下一代 AI 工作负载——尤其是智能体系统——而设计的核心计算基础设施。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/10/1011821217d3744426d719db8dd37ce6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;下一代 AI 平台:Feynman 架构前瞻&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,值得注意的是,NVIDIA 的&amp;nbsp;Feynman GPU 架构早在 2025 年 GTC 大会上就已得到确认。在本次演讲中,NVIDIA 列出了 Feynman GPU 与下一代 HBM、Vera CPU 以及构成 AI 数据中心基础的其他几个连接芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cd302fb2aecc077ced93e4f635488ae5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;存储性能是制约 AI 推理的瓶颈,为此 NVIDIA 改变了以往使用标准 HBM 的策略,转而为 Feynman GPU 配备 定制化 HBM 技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;超越标准: 现有的 Rubin 系列分别采用 HBM4 和 HBM4E,而 Feynman 将跳过通用规格,可能采用基于 HBM4E 的定制增强版 甚至提前布局 定制化 HBM5 方案。深度整合: 这种定制化方案允许 NVIDIA 将部分 GPU 的数据处理逻辑直接嵌入存储底层的 Base Die(基础晶圆)中,从而实现超高的带宽与极低的延迟。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 平台将不再沿用目前的 Vera CPU 架构,而是确认搭载代号为 Rosa 的全新 CPU。&lt;/p&gt;&lt;p&gt;这种命名延续了 NVIDIA 以卓越女性科学家命名的传统,Rosa 架构致敬了美国物理学家、诺贝尔奖得主 罗莎琳·萨斯曼(Rosalyn Sussman Yalow),同时也呼应了发现 DNA 结构的 罗莎琳·富兰克林(Rosalind Franklin)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Rosa CPU 被设计为 AI 智能体(Agentic AI)的编排中枢,旨在更高效地调度 GPU、存储与网络之间的 Token 流动,优化处理极其复杂的逻辑决策任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 时代标志着 NVIDIA 将计算、存储和封装三者进行了深度耦合。通过“3D 堆叠核心 + 定制化内存 + 专用 Rosa CPU”的组合,NVIDIA 正在将数据中心从传统的服务器集群演进为一台高度集成的“巨型超级计算机”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f9/f900e49838d48102684c87012bc4328c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推出&amp;nbsp;NVIDIA DSX——面向“AI 工厂”的基础设施平台&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随后,黄仁勋还介绍了 AI 基础设施与数字孪生技术的发展,以及 NVIDIA 在其中的角色。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,当前 AI 基础设施的建设已经开始依赖完整的数字仿真体系。在数据中心建设阶段,系统会通过多种行业领先的工程仿真工具进行验证,例如使用 Siemens Simcenter STAR-CCM+ 进行外部热力学仿真、Cadence Design Systems 的相关工具进行内部热设计、ETAP 进行电力系统分析,以及 NVIDIA 自身的网络模拟平台 NVIDIA DSX Air。通过这些工具,可以在实际建设前完成“虚拟调试”(virtual commissioning),从而大幅缩短数据中心建设周期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当数据中心正式投入运行后,其数字孪生系统会成为基础设施的“操作系统”。AI 智能体会与 NVIDIA DSX MaxQ 协同工作,动态调度整个基础设施:实时监控冷却、电力和网络系统,并不断优化计算吞吐量和能源效率。同时,AI 还可以根据电网实时负载和压力信号动态调整功率分配,从而在保证稳定性的同时提升整体效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 及其合作伙伴正在全球范围内加速建设 AI 基础设施,以实现更高水平的可靠性、效率和计算吞吐能力。这一体系的核心平台就是 NVIDIA 新推出的 NVIDIA DSX——一个面向“AI 工厂”的基础设施平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/56/560d03359a09e9f49edcfae37bb10088.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在数字孪生方面,NVIDIA 的 NVIDIA Omniverse 平台被设计用于承载全球规模的数字孪生模型。从地球级别的系统到各种规模的工业设施,未来都可以在这一平台上构建和运行数字孪生。黄仁勋特别感谢生态合作伙伴,并表示这些企业在过去几年中迅速加入 NVIDIA 的生态,共同建设可能是“世界上最大的计算系统”,并在全球范围内部署。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还透露,NVIDIA 的 AI 计算基础设施正在向太空延伸。公司此前已经在卫星领域部署计算系统,并计划与合作伙伴开发新的太空计算平台 Vera Rubin Space One,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,因此系统冷却将成为一项极具挑战的工程问题,目前 NVIDIA 正在与工程团队共同研究解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6ef916d83130200f9c8073510f96b7ef.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;联合 OpenClaw之父推出&amp;nbsp;NemoClaw&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲中对软件开发者影响最深远的部分是老黄对于最近爆火的“龙虾”现象的评论。黄仁勋高度评价了由 Peter Steinberger 创建的开源项目 OpenClaw。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,OpenClaw 的增长速度甚至超过了 Linux 在过去几十年的传播速度,其影响力“极其深远”。NVIDIA 也宣布将正式支持这一项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/8228f2db32767aceb5d53a3803f209ba.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋提到,AI大佬 Andrej Karpathy 最近提出的一种“AI 研究助手”模式很好地体现了智能体系统的能力:用户只需给 AI 一个任务,然后去休息,AI 便可以在后台自动运行数十甚至上百个实验,不断保留有效结果、淘汰无效方案。类似的案例正在不断出现。例如有人将 OpenClaw 安装在自己父亲的设备上,通过蓝牙连接酿酒设备,实现从生产流程到网站订单系统的全流程自动化,甚至在深圳已经出现用户排队购买相关产品的案例。随着这一项目迅速流行,社区甚至已经开始举办专门的开发者活动,足以说明其热度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋认为,从技术本质上看,OpenClaw 可以被理解为一种智能体计算机的操作系统。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;正因如此,OpenClaw 的意义类似于过去的关键基础软件。黄仁勋表示,就像 Linux 让个人计算机和服务器生态得以发展,Kubernetes 推动了云计算时代的基础设施,而 HTML 构建了互联网应用基础一样,OpenClaw 为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——“你的 OpenClaw 战略是什么?” 因为企业软件正在从传统工具型软件,转向以智能体为核心的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在传统企业 IT 架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生变化。黄仁勋认为,未来几乎所有 SaaS(Software as a Service) 公司都将演变为 AaaS(Agentic as a Service)——即以智能体为核心的服务平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。为此,NVIDIA 与 OpenClaw 作者 Peter Steinberger 以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出 NVIDIA NemoClaw 参考架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/9d/9ddf87f17fe0a404d32251fa6cb37597.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该架构在 OpenClaw 基础上加入了名为 OpenShell 的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行 AI 智能体。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推进开放模型生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还在推进开放模型生态。黄仁勋表示,现实世界的需求高度多样化,不可能由单一模型满足所有行业。因此,开放模型正在形成一个规模庞大的 AI 生态系统,目前已经包含接近 300 万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域。作为其中的重要贡献者,NVIDIA 已发布多条开放模型产品线,包括 Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并同时开放训练数据、训练方法和框架工具,以推动整个 AI 生态的发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 的开放模型之所以能够在多个榜单中处于领先位置,不仅因为其性能达到世界级水平,更重要的是公司会持续投入长期研发。“我们不会停止改进这些模型,”他说。例如 Nemotron 模型已经从 Nemotron 3 走向 Nemotron 4,Cosmos World Foundation Model 也从 Cosmos 1 发展到 Cosmos 2,而机器人模型 Project GR00T 也在不断迭代。NVIDIA 的策略是“纵向整合、横向开放”,在持续提升模型能力的同时,让整个生态都能参与到 AI 发展中来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还展示了 Nemotron 3 在智能体框架 OpenClaw 中的表现。根据公开评测数据,当前全球排名前三的模型均处于这一技术前沿。黄仁勋表示,NVIDIA 不仅希望构建领先的基础模型,更重要的是让开发者能够在此基础上进行微调和后训练,构建适用于不同领域的专用 AI 系统。为此,NVIDIA推出了 Nemotron 3 Ultra 作为新一代基础模型,并希望借此帮助各个国家和行业构建属于自己的 “主权 AI(Sovereign AI)”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步推动这一生态,NVIDIA 在大会上宣布成立 Nemotron Coalition。该联盟将与多家技术公司合作,共同推进 Nemotron 系列模型的发展。参与合作的公司包括图像技术公司 Black Forest Labs、AI 编程平台 Cursor、智能体开发框架 LangChain、欧洲 AI 公司 Mistral AI、AI 搜索平台 Perplexity AI、印度 AI 公司 Sarvam AI 以及 Thinking Machines Lab 等。黄仁勋表示,随着越来越多企业加入合作,AI 模型将能够覆盖从语言到生物、从物理到自动驾驶等广泛领域。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在企业软件层面,黄仁勋再次强调,未来所有公司都需要制定自己的 OpenClaw 战略。随着智能体系统的发展,传统的 SaaS 软件模式将逐渐转向 Agentic as a Service(AaaS)。企业不仅会使用 token 来增强员工生产力,还会通过 AI 工厂生产 token,并向客户提供智能体服务。他甚至预测,未来科技公司招聘工程师时,除了薪资外,还会提供“token 配额”,因为拥有更多 AI 计算资源的工程师能够获得更高的生产效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;除了数字智能体,NVIDIA 还在推进 物理 AI(Physical AI)。黄仁勋表示,目前全球几乎所有机器人公司都在与 NVIDIA 合作,现场展示的机器人数量超过 100 台。NVIDIA 为机器人开发提供完整技术体系,包括训练计算平台、合成数据与仿真平台,以及部署在机器人内部的计算系统。同时,公司还提供完整的软件和模型生态,例如机器人仿真与训练平台 NVIDIA Isaac Lab、世界模型 Cosmos World Foundation Model 以及机器人基础模型 Project GR00T。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/99/992411aed6580dcd6e779e05cfe49082.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在自动驾驶领域,黄仁勋表示“自动驾驶的 ChatGPT 时刻已经到来”。基于 NVIDIA Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。NVIDIA 还宣布新的 Robotaxi 合作伙伴,包括 BYD、Hyundai Motor Company、Nissan 和 Geely,这些公司每年合计生产约 1800 万辆汽车。同时,NVIDIA 还将与 Uber 合作,在多个城市部署自动驾驶出租车网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在机器人产业方面,NVIDIA 正与 ABB、Universal Robots、KUKA 等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。黄仁勋还提到,未来通信基础设施也将成为 AI 系统的一部分,例如 T-Mobile 的通信塔未来可能演变为“机器人 AI 基站”,能够实时分析交通和网络情况并动态调整信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在总结演讲时,黄仁勋表示,AI 产业正同时经历三大变革:AI 推理与 AI 工厂、智能体系统革命,以及物理 AI 与机器人时代。随着这些技术逐渐成熟,计算能力、AI 模型和基础设施将共同推动全球产业进入新的发展阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</guid>
      <pubDate>Tue, 17 Mar 2026 00:52:46 GMT</pubDate>
      <author>李冬梅</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>国内首个国产AI推理千卡集群落地梁文锋家乡,采用云天励飞全自研AI推理芯片</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/e7/bdf9600354c5a761e126505b32d6b0e7.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI算力从“训练优先”走向“推理优先”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的 Seedance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Gartner 预测,到 2026 年,终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约55%的AI专用云基础设施支出将用于推理工作负载。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;面向推理时代的千卡集群架构&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;自研芯片构建低成本推理能力&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。&lt;/p&gt;&lt;p&gt;根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</guid>
      <pubDate>Thu, 12 Mar 2026 03:55:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>传字节今年要造10万颗推理芯片,1600 亿预算砸向AI!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/44/51/44bd7c5dd1b98a4e9a2edaa8afcf1551.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;近日,据两位知情人士透露,字节跳动正研发AI芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为AI 推理任务设计,公司计划今年至少生产10 万颗,并有望逐步将产能提升至35 万颗。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&quot;&gt;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</guid>
      <pubDate>Wed, 11 Feb 2026 09:40:36 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/b6/6d/b63c9c9733211c111d3a1b60fdb3036d.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/88/882ad7697fdc8328b84b398e401f293d.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能的繁荣与底层的“枯竭”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中最核心的一环,正是高性能算子的开发。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;KernelCAT:计算加速专家级别的 Agent&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/8f/8faf0bf997be96bcfd5f8bcb5396620f.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/69/6920f6c41c59b89f3d72dd73255fd27b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为国产芯片生态写高性能算子&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/90/90a7b4e9f17290018d9342b3ed31e0a4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;没有坚不可破的生态,包括 CUDA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上&quot;说上了母语&quot;。实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://kernelcat.cn/&quot;&gt;KernelCAT 限时免费内测&lt;/a&gt;&quot;中,点击链接,马上体验~&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/14/140a6c0e97d8e4f35ef00ee8f4f9f40e.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</guid>
      <pubDate>Fri, 30 Jan 2026 09:46:03 GMT</pubDate>
      <author>InfoQ</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9f/e5/9f01dbbbe47906ef536a31f2a1f344e5.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;采访嘉宾 | 天数智芯 AI 与加速计算技术负责人 单天逸&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那一刻,下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断,被放到了更公开也更严苛的舞台上,谁能撑起资本市场和大众期待,谁就能撑起市值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式,把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中,围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考,天数智芯公布了过去一代以及未来三代的架构路线图:&lt;/p&gt;&lt;p&gt;2025 年,天数天枢架构已经超越英伟达 Hopper,在 DeepSeek V3 场景中实测性能数据超出 20%;2026 年,天数天璇架构对标 Blackwell,新增 ixFP4 精度支持;2026 年,天数天玑架构超越 Blackwell,覆盖全场景 AI/加速计算;2027 年,天数天权架构超越 Rubin,支持更多精度与创新设计。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/93a5511a47ea59c34947fa5622e43f57.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;国产 GPU,开启 AI++ 计算新范式&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;根据天数智芯公布的架构路线图及阶段发展目标,在 2027 年之前,天数智芯将通过多代产品完成对英伟达的追赶;在 2027 年之后,将转向更富创新性的架构设计,聚焦更具突破性的超级计算芯片架构设计。看似宏大,但对于仍处于爬坡阶段的国产 GPU 行业来说,这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越,国产 GPU 才有资格进入更大规模的生产环境中。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而在规模化落地阶段的竞争,焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料,当算力消耗开始对标真实业务产出,无论是国际顶尖 GPU 厂商还是国内 GPU 企业,核心命题都只有一个:如何在真实业务中,把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一命题,天数智芯提出了两条明确的架构判断:其一,回归计算本质;其二,提供高质量算力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;回归计算本质,核心在于“不设限”&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去十年,规模的快速扩张带来了阶段性的产业繁荣,也使得算力实现野蛮增长。但这种粗放式发展,也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例,路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此,计算、通讯、存储都会带来各种障碍。所以,幻想奔跑在平坦的赛道上毫无意义,产业真正需要的,是能够翻山越岭的全能越野车。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/64/64709d562cae987749119744a750d556.webp&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;广义上,芯片可分为专用芯片和通用芯片:专用芯片类似“应试教育”,它的优势和边界都很清晰,能加速特定算法、特定指令,比如矩阵乘法、Softmax 这些主流任务,但一旦计算范式发生变化,适应空间就会迅速收紧;通用芯片的设计哲学,不是为了押中某一类算法,而是回归计算本质,覆盖更广泛,甚至全新的计算需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来,硬件与算法的关系本来就不应该相互掣肘,算力的僵化不应限制算法的进化,而是通过通用算力为探索未知算法提供一个坚实的底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑探索未来算法的关键,实则就是“不设限”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于这一判断,天数智芯的芯片设计哲学,在计算层面追求的是覆盖几乎所有的数学运算图谱,而非某一类、某一种计算:从 Scalar、Vector、Tensor 到 Cube,支持从高精度科学计算到 AI 精度计算,从 MMA 到 DPX,不管是 AI 的 Attention 机制、前沿的科学计算,还是未来的量子计算相关模拟,天数智芯全都支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在执行层面,追求的是更高的算力利用率:大、中、小任务会被精准分配到不同的计算单元中执行,配合高密度的多任务核心设计,算力可以被拆解、调度得更加精细,从而减少算力浪费,提高计算效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/d2/d21f6e06061719cd4a9a199eb6e5fed0.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种“不设限”的设计哲学,让天数天枢架构得以实现三大创新,这也是天枢能够超越英伟达 Hopper 架构的根因:&lt;/p&gt;&lt;p&gt;TPC BroadCast(计算组广播机制)设计:不是简单粗暴地放大带宽,而是从单位带宽的使用效率入手,存在相同地址的数据时,芯片内部的 load store 单元不会进行重复、无用的访问,而是在上游进行 BroadCast,减少不必要的内存访问次数,从而有效降低访存功耗,等效提升访存带宽,用更小的功耗和面积实现相同的功能。Instruction Co-Exec(多指令并行处理系统)设计:在指令执行层面,通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力,不仅支持 Tensor Core 与 Vector Core 的并行协同,还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中,通过极低的成本增强了不同指令之间的并行处理能力,无论是 MLA、Engram,还是面向更复杂模型场景的计算需求,都可以在这一并行框架下被同时处理,从而提升整体执行效率。Dynamic Warp Scheduling(动态线程组调度系统)设计:随着 MoE 架构在大模型中被广泛采用,模型厂商普遍面临推理效率低等现实挑战。为提升并行度,微架构层面允许芯片中同时驻留更多 warp,但 warp 的增加也意味着对计算资源的竞争更为激烈。为此,天数智芯首创了 Dynamic Warp Scheduling 机制,通过动态调度让不同 warp 在资源使用上实现有序协作,避免计算资源闲置,也减少了对同一资源的无序争抢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这三项设计的出发点本质上都指向相同的目标:高性能与高效率。数据显示,这些创新让天数天枢的效率较当前行业平均水平提升 60%,基于这些效率优势,实现在DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从这三项设计中可以看出,天数智芯在架构层面的创新,并不是围绕某一个具体模型或算子展开,而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示,在天数智芯提出 Dynamic Warp Scheduling 设计之前,几乎没有人从调度机制的角度去思考,还能为 MoE 带来哪些性能空间。从更深层次意义来看,这类微架构层面的调度和优化,一直是英伟达、AMD 等巨头保持领先的“内功”,天数智芯在这些单点上的突破,实际上也是国产 GPU 向顶级玩家看齐的重要一步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;提供高质量算力:高效率、可预期、可持续&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在天数智芯的架构语境中,回归计算本质并不是一个抽象的口号,而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责,高质量算力才成为可能。基于这一判断,天数智芯将高质量算力拆解为三个核心维度:高效率、可预期与可持续。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/7a/7ace836faccd159427d7c71b330df3ca.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;高效率意味着能为客户创造最优的 TCO(总体拥有成本),节省使用成本;可预期则通过精准的仿真模拟,让客户在拿到芯片、部署算力之前,就能清晰预判最终的性能表现,做到所见即所得;可持续指的是从现在主流的 CNN、RNN,到当下火热的 Transformer,再到未来还未诞生的全新算法,算力始终能无缝适配。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这三个方向,天数智芯在架构及系统设计上,选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项,其实哪个都值得单独展开探讨。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;比如,基于“不设限”的设计理念,在当前 PD 分离的架构下,天数智芯的 GPU 不只做计算,还支撑通信、KV 数据传输这些关键任务,通过打造 Ⅸ 并行任务处理模块,GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务,让它们并行不冲突。在真实业务场景中,该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/b4/b473b037acf6e72c5b667dd838e26e33.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为了提高算力可持续性,天数智芯统一了芯片内、外,来构建算力系统,并通过不断更新的软件栈和软件系统,三类库共同支持和保障多场景的高效运行。其中,AI 库、通讯库(ixccl)、加速计算库是基石,在基石之上,直接支撑各类神经网络模型CNN、Transformer、LSTM 与高性能计算的各个领域,并以此提供各类 AI 应用,包括支持 AI4Sci 的相关应用,如蛋白质结构预测(AlphaFold)、医疗影像分析(Clara)、气候模拟(Earth2)等,以及量子计算的平台 cudaQ、分子动力学 Gromacs,大规模方程组求解器 HPL 等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这套算力系统被命名为 IXAI++,寓意为自我迭代,不止于 AI。其最终的目标是,成为一座连接算法创新与物理世界的桥梁,带领人类科技通往未知探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但给业内带来最多惊喜的,是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题,后者解决的是企业部署算力系统最头疼的不可控难题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型推理场景中,长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上,Attention 的执行效率依然不高,如果不对其进行针对性优化,首字延迟将明显偏高,模型响应速度差,推理成本高昂,最终影响大模型在真实业务中的可用性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一痛点,天数智芯设计了 Ⅸ Attention 模块,从底层对 Attention 的执行路径进行重构:Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子,Ⅸ Attention 模块的核心思路,是将这些分散的组件有机地拼装到一起,如同指挥一支乐队一般,确保多种乐器能够和谐共鸣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/19/1931cf31a98c3a57d61ca5cbaf8caa44.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“其中的技术难点在于调度,多种乐器需要同时演奏,任何一个环节拖慢节奏,都会成为整个系统的瓶颈”,单天逸表示,在实际的长上下文推理中,Ⅸ Attention 模块有效改善了 Attention 的执行效率,带来了约 20% 的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;针对企业部署算力系统最头疼的不可控难题,天数智芯搭建了 IX-SIMU 全栈软件仿真系统,这套仿真系统的目标,就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真,能精准输出任意模型的性能表现,提升算力在真实场景中的可控性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c1/c15d79ed9346cf49898ee0193b585926.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;单天逸表示,在算力系统的仿真与评估中,最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于,能够对底层指令执行进行精细建模。在实际使用中,用户只需输入软件代码,IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件,匹配网络拓扑,再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略,最终精准输出 Deepseek、千问等任意模型的性能表现,实现从单卡到万卡集群的 “精密扩展”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕高效率、可预期、可持续三大判断,天数智芯在算力侧从硬件架构到系统设计进行了整体布局,并用未来三代架构路线图提前回答下一个问题:当算力僵化开始掣肘未来计算,架构层还能怎么演进?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;决定上限的,最终还是应用和生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;架构代表的其实是下限,决定上限的,最终还是应用和生态。数据显示,截至 2025 年年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用,服务客户数量超过 300 家,并通过软硬件协同优化,完成 1000+ 次模型部署,让产品能力真正达到商用级别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑这些场景应用的,早已不是一个产品的能力范畴,而是“产品 + 解决方案” 双轨模式,这一模式其实与英伟达定位非常相近,聚焦的都是解决方案落地。在大模型深入产业应用的当下,这套组合打法相当务实,毕竟应用落地才是唯一真理,谁能在企业真实业务场景中快速部署、持续稳定运行,谁就能赢得先机。在速度和兼容性上,天数智芯也交出了一份不错的答卷:国内新的大模型发布当天便能跑通,目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子,数千卡集群稳定运行超 1000 天。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这次发布会上,天数智芯面向物理 AI 场景落地,一口气发布了四款边端算力产品“彤央”系列:包括边端 AI 算力模组 TY1000、TY1100,以及边端 AI 算力终端 TY1100_NX、TY1200。 据了解,“彤央”系列产品的标称算力均为实测稠密算力,覆盖 100T 到 300T 范围。数据显示,在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中,彤央 TY1000 的性能全面优于英伟达 AGX Orin。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在发布会中,天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用:具身智能领域,为格蓝若机器人提供高算力、低延迟的“大脑”支撑;在工业智能领域,落地园区与产线,推动产线自动化升级;在商业智能领域,瑞幸咖啡数千家门店部署彤央方案,高效处理视频流、挖掘消费数据价值;在交通智能领域,与“车路云一体化”20 个头部试点城市合作,验证车路协同方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整体来看,天数智芯走的路线虽然是底层技术自研,但在生态上并非封闭。在生态建设上,天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议,进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态,持续开放底层能力,降低开发者迁移和使用门槛。未来,天数智芯还会持续增加在生态共建上的资本与人力投入,从应用到芯片与开发者一同优化 AI 应用系统,共同为应用落地提供性能、性价比与生态易用的价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从底层架构到产品,从应用到生态,国产算力正在实现完整闭环,这种从芯片到生态的协同能力,不仅让国产算力更可用、更可持续,也为行业探索新模式提供了更多想象空间。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</guid>
      <pubDate>Thu, 29 Jan 2026 06:54:56 GMT</pubDate>
      <author>凌敏</author>
      <category>企业动态</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>从算力规模到系统级竞争:智算竞争核心已变,金山云战略升级曝行业“隐形拐点”</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/1f/bd2b4b1668393b4b5d9bf91cf845761f.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;从训练到推理:智算需求正在经历一场结构性转向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在2026年1月21日举办的金山云年度Tech Talk上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token如何被消耗、算力如何被组织展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;变化首先体现在财务数据上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以2025&amp;nbsp;年第三季度为例,智算云账单收入达到7.8亿元人民币,同比增长接近120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理侧的变化更加显著。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日Token调用量已达到50万亿级别。这是当前国内少数被明确对外公布的Token规模数据之一,也成为行业理解推理负载的重要参考。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动Token消耗快速增长。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在所有推理场景中,编程类应用被反复强调。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;刘涛指出,2025年一个尤为显著的变化在于:编程相关请求正在成为Token消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code的大量代码本身,正是由Claude Code参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从全球Token调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;&lt;/p&gt;&lt;p&gt;其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;&lt;/p&gt;&lt;p&gt;其三,Vibe Coding在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了满足更多元化的需求,刘涛表示,2025年,智算平台金山云星流已完成从资源管理平台向一站式AI训推全流程平台的战略升级。从训推平台、机器人平台到模型API服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型API服务商业化落地的全链路闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;实现三维进阶,智算云AI势能全释放&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管各行各业大规模应用AI还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈AI能力。从2023年的智算网基础设施,到2024年智算云的平台化和Serverless化,再到2025年的一站式AI训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接AI应用爆发做好了充分准备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的AI开发体验。自研的GPU故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;面向大模型应用开发者和企业用户,金山云星流平台模型API服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型API服务已积累诸多行业客户。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近40种不同模型,包括DeepSeek、Xiaomi MiMo、Qwen3、Kimi等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦AI业务创新和价值创造。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</guid>
      <pubDate>Tue, 27 Jan 2026 03:58:35 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>聚焦算力市场痛点,嘉唐算力供应链平台重磅发布</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/4d/34/4d3f7yy64d506d55f7b8018028747e34.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在近期举行的第五届AIGC开发者大会上,上海嘉唐科技发布了名为“算力供应链服务平台”的全栈式解决方案。该平台以“生态共建,供需协同”为理念,围绕算力交易、金融配套、资产管理及算电协同等维度展开设计,旨在应对当前算力行业存在的价格透明度低、流程不规范、服务缺乏标准化及供需匹配效率不高等问题,致力于为构建全国算力服务统一市场提供技术支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当前,算力作为数字经济发展的重要基础设施,已成为衡量新质生产力的关键指标之一。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据统计,近五年来我国算力产业规模年均增速超过30%,但与此同时,行业仍面临资源结构性失衡、整合程度不足等制约高质量发展的挑战。为此,市场上陆续出现多种服务模式探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;嘉唐科技此次推出的平台整合了撮合与直营等模式,尝试在供需对接、资源保障、产业链协同及能耗优化等方面提供系统性支持,其中算电协同方案通过引入绿电直供等方式,尝试推动算力行业能耗成本优化与绿色化转型。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从平台架构来看,其采用“1+3+N”的设计思路,即一个综合服务底座,涵盖算力交易、资产管理、金融服务三大核心模块,并计划拓展至多个行业应用场景。该架构试图在资源整合、智能调度与服务标准化等方面做出探索,与行业主管部门推动的算力互联互通方向具有一定的契合性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在生态合作方面,多家来自能源、金融、科技等领域的企业参与了此次发布仪式,并表达了在资源共享与产业协同方面的合作意向。行业分析指出,此类跨领域协作有助于将企业单体优势扩展为产业链整体效能,对推动AI技术在不同行业的落地应用可能形成一定支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;业内观察显示,随着算力在经济社会各领域渗透不断加深,构建开放、高效、协同的算力供应链体系逐渐成为行业共同关注的议题。相关平台的出现,反映了市场主体在整合算力资源、提升服务能效方面的尝试,其长期成效仍有赖于技术可靠性、模式可持续性及行业协同机制的进一步完善。在算力市场竞争日趋全球化、绿色化的背景下,此类探索也为推动产业高质量发展提供了可供观察的案例。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</guid>
      <pubDate>Tue, 20 Jan 2026 09:59:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>MUSA开发者大赛丨GEMM优化挑战赛火热开启!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/fb/74/fb8b0824bb93b0825f442f79a92c3474.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;MUSA开发者集结!与摩尔线程算力共振,谁将登顶矩阵乘法的性能巅峰?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;国产算力生态的崛起,不仅需要坚实可靠的硬件基座,更呼唤能够彻底释放硬件潜能的极致软件优化能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;GEMM(通用矩阵乘法),正是衡量软件能力的核心标尺。作为触达GPU算力峰值、检验架构效率与存储带宽极限的核心算子,它既是验证硬件潜力与软件栈成熟度的试金石,也是每一位追求极致的开发者渴望征服的“性能圣杯”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此刻,我们诚邀所有心怀极致追求的开发者,共同开启这场极限挑战——基于摩尔线程训推一体全功能智算卡&amp;nbsp;MTT S4000,在MUSA架构GPU上深度优化GEMM,共同挑战GPU的性能巅峰。在这里,用你的代码与智慧,亲手将矩阵乘法的性能推向极限!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;赛题丨FP16 GEMM Kernel 极致性能开发&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次挑战赛聚焦于底层&amp;nbsp;Kernel 开发,要求参赛者在摩尔线程MTT S4000上,将FP16精度的通用矩阵乘法(GEMM)性能优化到极致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;计算任务:在&amp;nbsp;MTT S4000 上,实现矩阵乘法(M=8192, N=8192, K=16384)的高性能计算。精度要求:计算采用FP16进行乘加运算,中间累加过程使用FP32。硬件架构:所有优化工作须基于MTT S4000的硬件特性展开,参赛者需深入研究并充分利用其特性。优化边界:禁止调用muBLAS/muDNN 等高层库。鼓励参赛者深挖共享内存分块、寄存器优化等硬件潜力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;评分丨严谨性与高性能的统一&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最终比赛结果由主办方统一依据官方评测方案进行综合评定,总分为正确性与性能两部分之和,缺一不可。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 正确性测试:不容有失的基石&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;测试范围:参赛代码必须通过主办方设置的四组不同规模的测试用例验证。精度要求:计算结果必须严格准确。与官方muBLAS库提供的参考结果相比,每个元素的相对误差必须控制在1e-2以内。一票否决:任一测试用例失败,或任一输出元素误差超限,则正确性部分得分为0,且将直接终止评测,无法进入后续性能评估环节。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 性能评估:追求极致的竞技场&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;评估标准:在通过全部正确性测试后,性能评估将在本次比赛的核心规模——8192 x 8192 x 16384上展开。系统将进行多次迭代测试,取平均GFLOPS作为性能指标。评分参考:为帮助参赛者了解自身优化水平,我们将根据参赛者代码性能相对于官方muBLAS基线性能的百分比效率,进行线性插值计算,提供一个参考性分数。绝对排名:比赛的最终官方成绩与总排名,严格依据在标准评测环境下测得的绝对GFLOPS性能值进行排序。性能越高,排名越前。自测工具:我们为参赛者提供了性能绝对值测试脚本,参赛者可自行读取并分析Kernel的实际性能数据,以便进行针对性优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;资源丨云端环境与算力支持&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;摩尔线程将为每一位参赛者提供专业、完备的云端开发环境与算力支持。如下设计致力于最大限度地消除环境差异,确保参赛者自测的性能结果具有高度参考价值,助力大家精准优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算力平台:我们将提供本次赛题指定硬件MTT S4000的云端算力资源供参赛者调优、测试。参赛账户:每位参赛者将获得一个专属的AutoDL子账号,确保开发环境的独立性与数据安全。预置镜像:该账号中已内置比赛专用镜像。镜像环境预先配置了所有必要的驱动、工具链,并包含了官方的评估脚本、编译工具及基础示例代码,参赛者登录后即可立即开始开发工作。标准化工具链:我们提供统一的评测脚本与摩尔线程官方编译器&amp;nbsp;mcc。参赛者在本地自测时使用的编译命令、优化选项与评测流程,将与最终官方评审环境完全一致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;奖项丨激励卓越,丰厚礼遇&lt;/h2&gt;&lt;p&gt;&lt;/p&

...

@github-actions github-actions bot added the auto: not ready to review Users can't get the RSS feed output according to automated testing results label Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

http://localhost:1200/infoq/recommend - Failed ❌
HTTPError: Response code 503 (Service Unavailable)

Error Message:<br/>FetchError: [POST] &quot;https://www.infoq.cn/public/v1/article/getDetail&quot;: 451
Route: /infoq/recommend
Full Route: /infoq/recommend
Node Version: v24.14.1
Git Hash: d5d82e52

@github-actions github-actions bot added auto: not ready to review Users can't get the RSS feed output according to automated testing results and removed auto: not ready to review Users can't get the RSS feed output according to automated testing results labels Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 01:39:44 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>35 年只卖设计,今天亲自下场造芯!Arm 首款自研芯片发布,Meta 抢下首单</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/96/bd2a783fdb8597628458b8acc4e02096.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;36年来,半导体与软件公司 Arm 一直将芯片设计授权给英伟达、苹果等企业使用,如今终于开始自主研发并制造自有芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在近日举办的发布活动上,该公司正式推出一款面向AI数据中心推理场景、可直接量产的处理器Arm AGI CPU。这家英国企业基于自研Neoverse系列CPU IP内核,并与Meta合作完成了这款芯片的开发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,Meta也是Arm AGI CPU的首位客户,该芯片专为与Meta的AI训练及推理加速器协同工作而设计。Arm的首批合作方还包括OpenAI、Cerebras、Cloudflare等多家科技公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;市场对Arm转型自研芯片的动向早有预期。据外媒报道,该公司早在2023年便启动了芯片研发工作,目前相关处理器已开放订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管此举在预料之中,却标志着Arm历史性地打破了长期以来仅向其他芯片厂商授权设计的传统模式。这家由日本软银集团控股的公司,未来将与众多合作伙伴直接展开竞争。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm选择推出CPU而非GPU,这一点同样值得关注。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代理式AI基础设施崛起&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI系统正日益以全球规模持续运行。在过去,人是计算环节的瓶颈——人们与系统的交互速度决定了工作推进的速度。而在代理式AI时代,因为软件智能体可自主协同任务、与多个模型交互,并实时做出决策,这种局限性将不复存在。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着AI系统持续运行且工作负载复杂度不断提升,CPU已成为现代基础设施中决定运行节奏的关键要素——负责保持分布式AI系统大规模的高效运行。在现下的AI数据中心中,CPU管理数千个分布式任务,包括协调加速器、管理内存与存储、调度工作负载、跨系统迁移数据,加上当今的代理式&amp;nbsp;AI场景兴起,CPU&amp;nbsp;还需面向海量智能体实现大规模协同调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这一转变对CPU提出了全新要求,驱动处理器架构的演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm Neoverse 现已成为当今众多领先超大规模云服务及AI平台的核心支撑,包括Amazon&amp;nbsp;Graviton、Google&amp;nbsp;Axion、Microsoft&amp;nbsp;Azure Cobalt&amp;nbsp;及&amp;nbsp;NVIDIA&amp;nbsp;Vera&amp;nbsp;等。随着AI基础设施在全球范围内不断扩展,生态系统的合作伙伴纷纷期待Arm&amp;nbsp;能够提供更多能力。为应对这一变革,Arm AGI CPU应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Arm AGI CPU:专为机架级代理式AI效率而生&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代理式AI&amp;nbsp;工作负载需要在大规模场景下实现持续稳定的性能输出。Arm AGI CPU&amp;nbsp;正是为此而设计,能够在数千核心并行的持续高负载下,为每个任务提供高性能表现,且满足现代数据中心功耗与散热的严格要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从运行频率到内存及I/O架构,Arm AGI CPU的每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的代理式&amp;nbsp;AI&amp;nbsp;工作负载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成两颗CPU&amp;nbsp;芯片,并配备独立内存与&amp;nbsp;I/O,共计&amp;nbsp;272 个核心。这些刀片服务器可在标准风冷&amp;nbsp;36 千瓦&amp;nbsp;(kW) 机架中满配部署,30 台刀片服务器可提供总计&amp;nbsp;8160 个核心。此外,Arm 还与&amp;nbsp;Supermicro 合作推出&amp;nbsp;200 千瓦&amp;nbsp;(kW) 液冷设计方案,可容纳&amp;nbsp;336 颗&amp;nbsp;Arm AGI CPU,提供超过&amp;nbsp;45000 个核心。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在该配置下,凭借Arm架构的根本优势,以及系统资源与计算能力的精准匹配,Arm AGI CPU 可实现单机架性能达到最新x86系统的两倍以上:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Arm AGI CPU具备业界领先的内存带宽,使每个机架能够支持更多高效执行的线程;相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降;高性能、高能效的单线程&lt;a href=&quot;https://www.arm.com/products/silicon-ip-cpu/neoverse/neoverse-v3&quot;&gt;Arm Neoverse V3处理器&lt;/a&gt;&quot;核心性能出众,优于传统架构——每个Arm线程可处理更多任务;更多可用线程与更高单线程处理能力相互叠加,最终实现单机架性能的大幅提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm AGI CPU已获得合作伙伴的认可,这些合作伙伴均处于代理式AI基础设施规模化部署的前沿领域。计划部署场景涵盖加速器管理、代理式&amp;nbsp;AI&amp;nbsp;协同调度,以及支撑代理式&amp;nbsp;AI&amp;nbsp;任务规模化扩展所需的服务、应用与工具的高密度部署,同时还包括为AI数据中心提供更强的网络与数据面计算能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化吉瓦级规模基础设施,并与Meta自研的MTIA加速器协同运行。其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯——这些企业均与Arm合作部署Arm AGI CPU,以加速云、网络及企业环境中的AI驱动型服务落地。目前,永擎电子、联想及Supermicro已开放商用系统订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为进一步加速产品采用,Arm推出Arm AGI CPU 1OU双节点参考服务器,该服务器采用符合开放计算项目&amp;nbsp;(Open Compute Project,OCP)的DC-MHS标准规格设计。Arm计划向社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;图形处理器(GPU)因承担AI模型训练与运行任务而备受瞩目,而CPU在数据中心机架中同样扮演着不可或缺的关键角色。Arm在主推这款CPU时强调,此类芯片负责处理成千上万项分布式任务,包括内存与存储管理、任务调度、系统间数据传输等。该公司表示,CPU已成为“现代基础设施的节奏核心,保障分布式AI系统实现高效规模化运行”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm指出,这一趋势对CPU提出了全新要求,也推动处理器必须迭代升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,全球CPU供应也日趋紧张。据外媒此前报道,今年3月,英特尔与AMD均告知中国客户,受CPU短缺影响,产品交付周期将进一步延长。随着短缺状况加剧,电脑产品价格也已开始上涨。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&quot;&gt;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</guid>
      <pubDate>Wed, 25 Mar 2026 03:53:18 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>英伟达联手 Akamai:AI Grid 背后的 Token 成本与吞吐博弈</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/73/e6/73a91bfcbb4d60e78aa703a2bf7e3fe6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026年3月18日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的NVIDIA® AI Grid参考设计实施方案 。通过将NVIDIA AI基础设施集成到Akamai的架构中,并利用网络层面的智能工作负载编排,Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此举标志着去年底推出的&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-inference-cloud-transforms-ai-from-core-to-edge-with-nvidia&quot;&gt;Akamai Inference Cloud&lt;/a&gt;&quot;&amp;nbsp;在演进中迈出重要一步。作为首家实现AI网格运营化的公司,Akamai正部署&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-to-deploy-thousands-of-nvidia-blackwell-gpus-to-create-one-of-the-worlds-most-widely-distributed-ai-platforms&quot;&gt;数千个&lt;/a&gt;&quot;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/&quot;&gt;NVIDIA RTX PRO 6000 Blackwell服务器版GPU&lt;/a&gt;&quot;的平台,为企业提供能够运行智能体和物理AI的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“AI工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics),”Akamai云技术事业部首席运营官兼总经理Adam Karon表示 。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在4400个站点以合适的成本和时间路由AI工作负载”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“Token经济”的架构&amp;nbsp;&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI Grid的核心是一个智能编排器,充当AI请求的实时代理 。通过将Akamai在应用性能优化方面的专业知识应用于AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾AI工作负载提供了巨大的成本和性能优势 。例如:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质GPU周期 。Akamai Cloud基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型AI操作。实时响应能力:游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。核心节点的生产级AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/products/ai-enterprise/&quot;&gt;NVIDIA AI Enterprise&lt;/a&gt;&quot;、&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/&quot;&gt;Blackwell架构&lt;/a&gt;&quot;和&lt;a href=&quot;https://www.nvidia.com/en-us/networking/products/data-processing-unit/&quot;&gt;NVIDIA BlueField DPU&lt;/a&gt;&quot;,Akamai能够管理跨边缘和核心位置的复杂服务等级协议 :&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;边缘(4,400+个站点):为物理AI和自主智能体提供极速响应 。它利用语义缓存和WebAssembly等服务器端功能(Akamai Functions和EdgeWorkers)提供模型亲和性和稳定的性能 。Akamai Cloud IaaS与专用GPU集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而Blackwell GPU阵列则助力繁重的后训练和多模态推理 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;NVIDIA电信业务发展全球副总裁Chris Penrose表示:“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将NVIDIA AI Grid投入运营,Akamai正在构建生成式、代理式和物理AI的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一波AI基础设施由少数几个中心化地点的海量GPU集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建AI代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</guid>
      <pubDate>Tue, 24 Mar 2026 03:15:34 GMT</pubDate>
      <author>Akamai</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token 成本全球最低;2027 营收将到 1 万亿;Feynman 架构已在路上;</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/11/f4/115d52389f4a43db78a749c9b88b06f4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/5f/5fb74fd8c08eca05c28144f0711ed342.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;北京时间2026年3月17日凌晨两点半,当英伟达 CEO 黄仁勋穿着那件标志性的黑色皮衣踏上SAP中心的舞台时,台下近万名开发者心里清楚:这一次,老黄要讲的不是某个单一芯片,而是一整套AI“全家桶”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款“前所未见的芯片”,被普遍认为是采用台积电1.6nm&amp;nbsp;制程、引入光通信技术的下一代Feynman架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今天揭晓的Feynman架构、Vera Rubin平台的量产进展,以及面向企业级自主代理的开源平台NemoClaw,不过是这座基础设施落地所需的“钢筋水泥”。黄仁勋用两个小时向资本市场证明了一件事:英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为“数万亿美元AI基建时代”搭建完整技术栈的“总包工头”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;回顾 CUDA 20年:安装基数引爆飞轮,GPU算力成本持续下降&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;演讲刚开始,黄仁勋用近十分钟篇幅,回溯了CUDA架构诞生20年的演进历程。他将这套软件生态定义为英伟达一切业务的“中心”,并直言:真正难以复制的壁垒,是底层的安装基数。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“二十年来,我们一直致力于这种革命性架构——单指令多线程(SIMT),让开发者编写的扩展代码能够轻松生成多线程应用,编程难度远低于传统方法。”黄仁勋回忆道。他特别提到近期引入的“tiles”(张量核心编程块)功能,旨在帮助开发者调用Tensor Core以及支撑当今AI的数学结构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如今,围绕CUDA已形成庞大的工具链生态:数千种工具、编译器、框架和库;仅开源领域就有数十万个公开项目。“CUDA真正融入了每一个生态系统,”黄仁勋说,“这张图,基本上描述了100%的媒体战略——你们从一开始就看我讲这张幻灯片。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/84/84b6bc25cb1fa808e64e51b5de28dbaa.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他随后指向图表底层:“最难实现的东西在这里——安装基数。我们花了20年,才在全球建立起数亿块运行CUDA的GPU和计算系统。我们在每一朵云里,在每一家计算机公司里,服务几乎每一个行业。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋将这套逻辑总结为“飞轮效应”:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“CUDA的安装基数,是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,带来技术突破——比如深度学习,还有很多其他领域。这些突破催生全新市场,围绕它们形成新的生态,更多公司加入,进而扩大安装基数。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他称这一飞轮正在加速:“NVIDIA库的下载量增长极快,规模巨大,增速前所未有。这个飞轮让计算平台能够承载如此多的应用和突破,更重要的是,它赋予了这些基础设施极长的有效生命周期。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;背后的逻辑很直接:CUDA支持的应用程序范围足够广,覆盖AI生命周期的每一个阶段,对接每一种数据处理平台,加速各类科学原理求解器。“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当安装基数足够大、飞轮足够快、开发者触达足够广,并且软件持续更新时,结果就是计算成本不断下降。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“加速计算让应用性能大幅提升,而我们在其生命周期内持续优化软件,”黄仁勋总结道,“你不仅获得初期的性能跃升,还能获得持续的算力成本降低。我们愿意支持全球每一块GPU,因为它们架构兼容。为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他最后补充道:“这套动态机制,让NVIDIA架构不断扩展应用范围,加速自身增长,同时降低计算成本,最终催生新的增长。CUDA就在这一切的中心。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为结尾的轻松注脚,黄仁勋提及了GeForce的历史:“我知道你们中有多少人是从GFORCE成长起来的——那是最棒的市场营销,我们在很早之前就开始吸引未来的客户。”&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为数据处理打造新的核心软件库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;演讲中,老黄提到下面这张图是本场演讲中最重要的一张图,因为里面提到了英伟达为数据处理打造的新的核心软件库。老黄在演讲中谈到,随着 AI 的快速发展,全球数据处理体系正迎来一次结构性的变革,其中最核心的变化,是结构化数据与非结构化数据的全面加速。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/05/05fdddc05dd6bc73f4685555bc058402.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋指出,长期以来企业计算的基础建立在结构化数据之上。无论是 SQL、Spark、Pandas 等技术体系,还是诸如 Snowflake、Databricks、Amazon 的 EMR、Microsoft 的 Azure Fabric,以及 Google 的 BigQuery 等大型数据平台,本质上都在处理一种核心数据结构——数据框(DataFrame)。这些数据框可以被理解为巨型电子表格,承载着企业运营和业务决策所依赖的关键信息,是企业计算体系中的“事实来源”(ground truth)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去,对结构化数据的加速主要是为了提升企业的数据分析效率:让计算任务完成得更多、成本更低,并且能够在一天内更频繁地运行数据处理流程,从而让企业运营更加高效、更加同步。但在 AI 时代,这一逻辑正在发生变化。黄仁勋表示,未来不仅人类会使用这些数据结构,AI 系统和智能体(Agent)也将直接访问和使用结构化数据库,而 AI 的处理速度远远快于人类,这意味着数据处理基础设施必须获得数量级的性能提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/a7/a77054d74f495ee94b71011c7e669e9a.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,另一类更庞大的数据也正在成为 AI 时代的重要资源——非结构化数据。黄仁勋指出,向量数据库、PDF 文档、视频、语音和演讲内容等都属于非结构化数据。全球每年产生的数据中,大约 90% 都是非结构化数据。然而在很长一段时间里,这些数据几乎无法被计算系统有效利用,人们只是阅读这些内容,然后把它们存储在文件系统中,却很难对其进行查询和搜索。其根本原因在于,非结构化数据缺乏可直接建立索引的结构,要使用这些数据,首先必须理解其语义和目的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 AI 的多模态理解能力正在改变这一状况。正如 AI 已经在多模态感知和理解方面取得突破一样,同样的技术可以用于读取 PDF、理解视频和语音内容,并将其语义信息嵌入到可计算的数据结构中,从而使这些数据能够被搜索、查询和分析。换句话说,AI 正在把原本难以利用的海量非结构化数据转化为可计算的信息资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了支持这一转变,NVIDIA 构建了两项关键基础技术。黄仁勋表示,就像当年为 3D 图形计算推出 RTX 技术一样,NVIDIA 现在为数据处理打造了新的核心软件库。其中 cuDF 用于加速数据框计算,主要面向结构化数据处理;而 cuVS 则面向向量存储和语义数据,用于处理非结构化数据和 AI 数据。这两项技术将成为未来数据基础设施中最重要的平台之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋透露,目前这两项技术正在逐步融入全球复杂的数据处理生态系统。由于数据处理产业已经发展了数十年,围绕它已经形成了大量公司、平台和服务,因此将新的加速技术深度整合进整个生态需要时间。但 NVIDIA 已经看到越来越多的合作伙伴开始采用这些技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,IBM——SQL 的发明者之一,也是历史上最重要数据库技术的推动者——正在利用 cuDF 来加速其数据平台 IBM watsonx.data。在黄仁勋看来,这类合作标志着 AI 正在逐步重塑整个数据处理基础设施,使企业能够同时高效利用结构化数据和海量的非结构化数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI 原生行业的爆发和英伟达万亿美金的信心&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI重塑整个基础设施的另一个标志是涌现出海量的AI原生企业。去年,这个行业经历了史无前例的飞跃。风险投资对初创公司的投入高达 1500 亿美元,创人类历史之最。投资规模也从千万美元级跃升至数十亿美金级。究其原因,是这些公司历史性地都需要海量算力和 Token。无论它们是创造 Token 还是为 Token 增值,它们对算力的渴望是共同的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,“正如 PC、互联网、移动云革命催生了谷歌、亚马逊和 Meta,这次计算平台的迁移也将孕育出一批对世界未来至关重要的新巨头。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;那为什么这种AI企业的爆发会发生在这两年?黄仁勋称这因为发生了三件大事:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;ChatGPT 开启生成式 AI 时代: 计算从“基于检索”转向“基于生成”。这彻底改变了计算机的架构、供应和建设方式。推理 AI(o1/o3)的出现: AI 开始拥有反思、规划、拆解问题的能力。o1 让生成式 AI 变得可靠且基于事实。为了“思考”,输入和输出 Token 的使用量呈爆炸式增长。Claude Code 开启代理(Agentic)时代: 这是首个代理模型。它能阅读文件、编码、编译、测试并迭代。它革新了软件工程。现在 NVIDIA 内部每个工程师都在使用 AI 代理辅助编程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/17/17118ee96a34b892bf1037971287a0d3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,“AI 已经从“感知”进化到“生成”,再到“推理”,现在已经可以执行极其高效的实际工作。 “推理拐点”已经到来。 AI 要思考、要行动、要阅读、要推理,每一环都在进行推理(Inference)。现在已经远超训练阶段,进入了推理的疆场。过去两年,计算需求增长了约 10,000 倍,而使用量增长了约 100 倍。我深感这两年的计算需求实际增长了 100 万倍。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;紧接着,老黄又分享了几个数据,让现场的气氛达到了高潮。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他高兴地向观众分享道,“去年我说 Blackwell 和 Rubin 到 2026 年的订单额将达 5000 亿美元,你们可能没觉得惊艳。但今天,在这里,我预见通过 2027 年的营收将至少达到 1 万亿美元。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他进一步强调了这不是空话,因为计算需求只会更高。2025 年是 NVIDIA 的“推理之年”,NVIDIA 系统是全球成本最低的 AI 基础设施——使用寿命越长,成本就越低。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他这么说的背后有着坚实的数据支撑。目前,全球三分之一的 AI 计算开源模型(如 Anthropic 和 Meta 的模型)都跑在英伟达芯片上。NVIDIA 是全球唯一能运行 AI 所有领域的平台:语言、生物、图形、视觉、机器人、边缘或云端。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在英伟达的业务中,60% 来自顶级云服务商(Hyperscalers),不仅支持其内部 AI 消费(如推荐系统、搜索向大模型的迁移),更通过英伟达的生态系统加速每一家 AI 实验室。另外 40% 则遍布区域云、主权云、企业级服务器及工业自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0e/0e806cea61a12db814d69e0f9ed55533.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Token 成本全球最低&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋介绍了 NVIDIA 在 AI 推理基础设施上的最新进展。他表示,AI 性能的突破并不仅来自单一技术,而是由计算架构、软件栈和算法的系统级协同设计共同推动。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋提到,NVIDIA 推出的 NVFP4(FP4)计算体系不仅是一种更低精度的数据格式,而是一种全新的 Tensor Core 计算架构。通过 NVFP4,NVIDIA 已经实现了在推理阶段几乎不损失精度的情况下,大幅提升性能和能效,同时这一计算格式也开始应用于模型训练。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结合 NVLink 72 高速互连,以及 Dynamo、TensorRT-LLM 等软件优化,NVIDIA 构建起一套面向大模型推理的完整技术体系。为优化底层软件与 GPU 内核,公司还投入数十亿美元建设 NVIDIA DGX Cloud 超级计算平台,用于开发和调优 AI 推理软件栈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2c/2ca4a822b3054612b6ec3b2be3b1ae20.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋强调,很多人曾认为推理是 AI 系统中最简单的部分,但实际上 推理既是最困难的环节,也是最关键的商业环节,因为它直接决定 AI 服务的收入来源。根据研究机构 SemiAnalysis 的评测,在数据中心层面,衡量 AI 系统效率的关键指标是每瓦特能够生成多少 token(tokens per watt)。由于数据中心受到电力等物理条件限制,本质上更像一个“AI 工厂”,企业必须在固定功率下尽可能多地生产 token。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;评测结果显示,NVIDIA 在 AI 推理性能和效率上依然保持领先。按照传统 Moore&#39;s Law,新一代芯片通常只能带来约 1.5 倍性能提升,但从 Hopper H200 到 Grace Blackwell NVLink 72 架构,NVIDIA 的 每瓦特性能提升约 35 倍。SemiAnalysis 分析师 Dylan Patel 甚至认为实际提升接近 50 倍。这一架构也带来了更低的 token 成本,在当前市场上具有明显优势。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3f/3f362a51e80793a3d483c69b03eb9744.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,这种极致的软硬件协同设计还能显著提升现有系统性能。例如在部分 AI 推理平台中,仅通过更新 NVIDIA 软件栈,就能将生成速度从 约 700 token/秒提升至接近 5000 token/秒,性能提升约 7 倍。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋强调,NVIDIA 的 Token 成本在世界范围内是“不可触碰”的。 即便竞争对手的架构是免费的,它也不够便宜。因为建立一个 1GW 的工厂,即便里面什么都不放,15 年的摊销成本也高达 400 亿美元。你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的 Token 生产成本。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/61/616c7d590295721c6809df83623166a3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在他看来,数据中心的角色正在发生变化:过去它是存储和计算中心,而未来将成为生产 token 的 AI 工厂。随着 AI 的普及,无论是云厂商、AI 公司还是传统企业,都将开始从“Token 工厂效率”的角度来衡量自己的计算基础设施,因为在 AI 时代,token 将成为新的数字商品,而计算能力则直接决定企业的价值创造能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Vera Rubin 时代降临&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据介绍,这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。该平台包含40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片、1152个&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/rubin/&quot;&gt;NVIDIA Rubin&lt;/a&gt;&quot;&amp;nbsp;GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。&amp;nbsp;该平台目前已全面投产,并得到了包括 Anthropic、OpenAI、Meta 和 Mistral AI 以及所有主要云提供商在内的众多客户的鼎力支持。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f4/f4136a5debe86247ff02c8d0745cfa87.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,过去十年间 AI 计算能力已经实现了 约 4000 万倍的提升,而这一变化正推动数据中心向“AI 超级计算机”形态演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“过去我发布产品时,可能只是手里举着一块芯片(比如 Hopper);但现在,当我谈到 Vera Rubin 时,我说的是一个全栈垂直整合的庞大系统。”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋展示了 NVIDIA 最新的 Vera Rubin AI Supercomputer 系统,并强调这是一套从硬件到软件 完全纵向整合(vertically integrated) 的计算平台,专门为 Agentic AI(智能体 AI) 设计。随着大语言模型不断扩大规模、生成更多 token 并处理更长上下文,系统不仅需要更强的计算能力,还需要更高带宽的内存和存储访问能力,例如 KV Cache、结构化数据处理(cuDF)以及非结构化向量数据(cuVS)等。因此,NVIDIA 对整个系统架构进行了重新设计,包括计算、存储和网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/71/717f0b14f1c8c06e588ccd08e1f12e2b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在硬件层面,NVIDIA 为这一平台开发了一款全新的数据中心 CPU——NVIDIA Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用 LPDDR5 内存 的 CPU,从而实现领先的性能功耗比。黄仁勋透露,这款 CPU 已经开始单独销售,并有望成为 NVIDIA 的一项数十亿美元级业务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在系统设计方面,Vera Rubin 超级计算机采用 100% 液冷架构,并通过 45°C 热水散热,大幅降低数据中心制冷成本。同时,系统内部布线被大幅简化,使得整机安装时间从过去的两天缩短至约两小时,从而显著提升数据中心部署效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;网络互连是这一系统的核心技术之一。NVIDIA 在该平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。黄仁勋表示,这是目前全球最先进、实现难度最高的大规模 GPU 互连系统之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/29/29fdbedbddd9ed2df005c08b7e06f053.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还推出了全球首个 CPO(Co-Packaged Optics)光电共封装的 NVIDIA Spectrum-X Ethernet Switch,将光模块直接集成到芯片封装中,实现电子信号与光信号的直接转换,从而显著提升数据中心网络带宽与能效。这项技术由 NVIDIA 与台积电共同开发,目前已经进入量产阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在更大规模的系统扩展上,NVIDIA 还展示了 Rubin Ultra Compute System。该系统通过新的 Kyber 机架架构,可以在一个 NVLink 域中连接 144 个 GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为 NVLink 交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e236d53b93509b9d41531b3d9018189c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,随着 AI 模型规模和推理需求持续增长,未来的数据中心将越来越像一台完整的超级计算机。而像 Vera Rubin 这样的系统,正是为下一代 AI 工作负载——尤其是智能体系统——而设计的核心计算基础设施。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/10/1011821217d3744426d719db8dd37ce6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;下一代 AI 平台:Feynman 架构前瞻&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,值得注意的是,NVIDIA 的&amp;nbsp;Feynman GPU 架构早在 2025 年 GTC 大会上就已得到确认。在本次演讲中,NVIDIA 列出了 Feynman GPU 与下一代 HBM、Vera CPU 以及构成 AI 数据中心基础的其他几个连接芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cd302fb2aecc077ced93e4f635488ae5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;存储性能是制约 AI 推理的瓶颈,为此 NVIDIA 改变了以往使用标准 HBM 的策略,转而为 Feynman GPU 配备 定制化 HBM 技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;超越标准: 现有的 Rubin 系列分别采用 HBM4 和 HBM4E,而 Feynman 将跳过通用规格,可能采用基于 HBM4E 的定制增强版 甚至提前布局 定制化 HBM5 方案。深度整合: 这种定制化方案允许 NVIDIA 将部分 GPU 的数据处理逻辑直接嵌入存储底层的 Base Die(基础晶圆)中,从而实现超高的带宽与极低的延迟。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 平台将不再沿用目前的 Vera CPU 架构,而是确认搭载代号为 Rosa 的全新 CPU。&lt;/p&gt;&lt;p&gt;这种命名延续了 NVIDIA 以卓越女性科学家命名的传统,Rosa 架构致敬了美国物理学家、诺贝尔奖得主 罗莎琳·萨斯曼(Rosalyn Sussman Yalow),同时也呼应了发现 DNA 结构的 罗莎琳·富兰克林(Rosalind Franklin)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Rosa CPU 被设计为 AI 智能体(Agentic AI)的编排中枢,旨在更高效地调度 GPU、存储与网络之间的 Token 流动,优化处理极其复杂的逻辑决策任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 时代标志着 NVIDIA 将计算、存储和封装三者进行了深度耦合。通过“3D 堆叠核心 + 定制化内存 + 专用 Rosa CPU”的组合,NVIDIA 正在将数据中心从传统的服务器集群演进为一台高度集成的“巨型超级计算机”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f9/f900e49838d48102684c87012bc4328c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推出&amp;nbsp;NVIDIA DSX——面向“AI 工厂”的基础设施平台&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随后,黄仁勋还介绍了 AI 基础设施与数字孪生技术的发展,以及 NVIDIA 在其中的角色。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,当前 AI 基础设施的建设已经开始依赖完整的数字仿真体系。在数据中心建设阶段,系统会通过多种行业领先的工程仿真工具进行验证,例如使用 Siemens Simcenter STAR-CCM+ 进行外部热力学仿真、Cadence Design Systems 的相关工具进行内部热设计、ETAP 进行电力系统分析,以及 NVIDIA 自身的网络模拟平台 NVIDIA DSX Air。通过这些工具,可以在实际建设前完成“虚拟调试”(virtual commissioning),从而大幅缩短数据中心建设周期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当数据中心正式投入运行后,其数字孪生系统会成为基础设施的“操作系统”。AI 智能体会与 NVIDIA DSX MaxQ 协同工作,动态调度整个基础设施:实时监控冷却、电力和网络系统,并不断优化计算吞吐量和能源效率。同时,AI 还可以根据电网实时负载和压力信号动态调整功率分配,从而在保证稳定性的同时提升整体效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 及其合作伙伴正在全球范围内加速建设 AI 基础设施,以实现更高水平的可靠性、效率和计算吞吐能力。这一体系的核心平台就是 NVIDIA 新推出的 NVIDIA DSX——一个面向“AI 工厂”的基础设施平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/56/560d03359a09e9f49edcfae37bb10088.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在数字孪生方面,NVIDIA 的 NVIDIA Omniverse 平台被设计用于承载全球规模的数字孪生模型。从地球级别的系统到各种规模的工业设施,未来都可以在这一平台上构建和运行数字孪生。黄仁勋特别感谢生态合作伙伴,并表示这些企业在过去几年中迅速加入 NVIDIA 的生态,共同建设可能是“世界上最大的计算系统”,并在全球范围内部署。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还透露,NVIDIA 的 AI 计算基础设施正在向太空延伸。公司此前已经在卫星领域部署计算系统,并计划与合作伙伴开发新的太空计算平台 Vera Rubin Space One,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,因此系统冷却将成为一项极具挑战的工程问题,目前 NVIDIA 正在与工程团队共同研究解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6ef916d83130200f9c8073510f96b7ef.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;联合 OpenClaw之父推出&amp;nbsp;NemoClaw&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲中对软件开发者影响最深远的部分是老黄对于最近爆火的“龙虾”现象的评论。黄仁勋高度评价了由 Peter Steinberger 创建的开源项目 OpenClaw。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,OpenClaw 的增长速度甚至超过了 Linux 在过去几十年的传播速度,其影响力“极其深远”。NVIDIA 也宣布将正式支持这一项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/8228f2db32767aceb5d53a3803f209ba.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋提到,AI大佬 Andrej Karpathy 最近提出的一种“AI 研究助手”模式很好地体现了智能体系统的能力:用户只需给 AI 一个任务,然后去休息,AI 便可以在后台自动运行数十甚至上百个实验,不断保留有效结果、淘汰无效方案。类似的案例正在不断出现。例如有人将 OpenClaw 安装在自己父亲的设备上,通过蓝牙连接酿酒设备,实现从生产流程到网站订单系统的全流程自动化,甚至在深圳已经出现用户排队购买相关产品的案例。随着这一项目迅速流行,社区甚至已经开始举办专门的开发者活动,足以说明其热度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋认为,从技术本质上看,OpenClaw 可以被理解为一种智能体计算机的操作系统。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;正因如此,OpenClaw 的意义类似于过去的关键基础软件。黄仁勋表示,就像 Linux 让个人计算机和服务器生态得以发展,Kubernetes 推动了云计算时代的基础设施,而 HTML 构建了互联网应用基础一样,OpenClaw 为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——“你的 OpenClaw 战略是什么?” 因为企业软件正在从传统工具型软件,转向以智能体为核心的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在传统企业 IT 架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生变化。黄仁勋认为,未来几乎所有 SaaS(Software as a Service) 公司都将演变为 AaaS(Agentic as a Service)——即以智能体为核心的服务平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。为此,NVIDIA 与 OpenClaw 作者 Peter Steinberger 以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出 NVIDIA NemoClaw 参考架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/9d/9ddf87f17fe0a404d32251fa6cb37597.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该架构在 OpenClaw 基础上加入了名为 OpenShell 的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行 AI 智能体。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推进开放模型生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还在推进开放模型生态。黄仁勋表示,现实世界的需求高度多样化,不可能由单一模型满足所有行业。因此,开放模型正在形成一个规模庞大的 AI 生态系统,目前已经包含接近 300 万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域。作为其中的重要贡献者,NVIDIA 已发布多条开放模型产品线,包括 Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并同时开放训练数据、训练方法和框架工具,以推动整个 AI 生态的发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 的开放模型之所以能够在多个榜单中处于领先位置,不仅因为其性能达到世界级水平,更重要的是公司会持续投入长期研发。“我们不会停止改进这些模型,”他说。例如 Nemotron 模型已经从 Nemotron 3 走向 Nemotron 4,Cosmos World Foundation Model 也从 Cosmos 1 发展到 Cosmos 2,而机器人模型 Project GR00T 也在不断迭代。NVIDIA 的策略是“纵向整合、横向开放”,在持续提升模型能力的同时,让整个生态都能参与到 AI 发展中来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还展示了 Nemotron 3 在智能体框架 OpenClaw 中的表现。根据公开评测数据,当前全球排名前三的模型均处于这一技术前沿。黄仁勋表示,NVIDIA 不仅希望构建领先的基础模型,更重要的是让开发者能够在此基础上进行微调和后训练,构建适用于不同领域的专用 AI 系统。为此,NVIDIA推出了 Nemotron 3 Ultra 作为新一代基础模型,并希望借此帮助各个国家和行业构建属于自己的 “主权 AI(Sovereign AI)”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步推动这一生态,NVIDIA 在大会上宣布成立 Nemotron Coalition。该联盟将与多家技术公司合作,共同推进 Nemotron 系列模型的发展。参与合作的公司包括图像技术公司 Black Forest Labs、AI 编程平台 Cursor、智能体开发框架 LangChain、欧洲 AI 公司 Mistral AI、AI 搜索平台 Perplexity AI、印度 AI 公司 Sarvam AI 以及 Thinking Machines Lab 等。黄仁勋表示,随着越来越多企业加入合作,AI 模型将能够覆盖从语言到生物、从物理到自动驾驶等广泛领域。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在企业软件层面,黄仁勋再次强调,未来所有公司都需要制定自己的 OpenClaw 战略。随着智能体系统的发展,传统的 SaaS 软件模式将逐渐转向 Agentic as a Service(AaaS)。企业不仅会使用 token 来增强员工生产力,还会通过 AI 工厂生产 token,并向客户提供智能体服务。他甚至预测,未来科技公司招聘工程师时,除了薪资外,还会提供“token 配额”,因为拥有更多 AI 计算资源的工程师能够获得更高的生产效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;除了数字智能体,NVIDIA 还在推进 物理 AI(Physical AI)。黄仁勋表示,目前全球几乎所有机器人公司都在与 NVIDIA 合作,现场展示的机器人数量超过 100 台。NVIDIA 为机器人开发提供完整技术体系,包括训练计算平台、合成数据与仿真平台,以及部署在机器人内部的计算系统。同时,公司还提供完整的软件和模型生态,例如机器人仿真与训练平台 NVIDIA Isaac Lab、世界模型 Cosmos World Foundation Model 以及机器人基础模型 Project GR00T。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/99/992411aed6580dcd6e779e05cfe49082.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在自动驾驶领域,黄仁勋表示“自动驾驶的 ChatGPT 时刻已经到来”。基于 NVIDIA Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。NVIDIA 还宣布新的 Robotaxi 合作伙伴,包括 BYD、Hyundai Motor Company、Nissan 和 Geely,这些公司每年合计生产约 1800 万辆汽车。同时,NVIDIA 还将与 Uber 合作,在多个城市部署自动驾驶出租车网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在机器人产业方面,NVIDIA 正与 ABB、Universal Robots、KUKA 等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。黄仁勋还提到,未来通信基础设施也将成为 AI 系统的一部分,例如 T-Mobile 的通信塔未来可能演变为“机器人 AI 基站”,能够实时分析交通和网络情况并动态调整信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在总结演讲时,黄仁勋表示,AI 产业正同时经历三大变革:AI 推理与 AI 工厂、智能体系统革命,以及物理 AI 与机器人时代。随着这些技术逐渐成熟,计算能力、AI 模型和基础设施将共同推动全球产业进入新的发展阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</guid>
      <pubDate>Tue, 17 Mar 2026 00:52:46 GMT</pubDate>
      <author>李冬梅</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>国内首个国产AI推理千卡集群落地梁文锋家乡,采用云天励飞全自研AI推理芯片</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/e7/bdf9600354c5a761e126505b32d6b0e7.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI算力从“训练优先”走向“推理优先”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的 Seedance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Gartner 预测,到 2026 年,终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约55%的AI专用云基础设施支出将用于推理工作负载。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;面向推理时代的千卡集群架构&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;自研芯片构建低成本推理能力&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。&lt;/p&gt;&lt;p&gt;根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</guid>
      <pubDate>Thu, 12 Mar 2026 03:55:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>传字节今年要造10万颗推理芯片,1600 亿预算砸向AI!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/44/51/44bd7c5dd1b98a4e9a2edaa8afcf1551.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;近日,据两位知情人士透露,字节跳动正研发AI芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为AI 推理任务设计,公司计划今年至少生产10 万颗,并有望逐步将产能提升至35 万颗。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&quot;&gt;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</guid>
      <pubDate>Wed, 11 Feb 2026 09:40:36 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/b6/6d/b63c9c9733211c111d3a1b60fdb3036d.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/88/882ad7697fdc8328b84b398e401f293d.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能的繁荣与底层的“枯竭”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中最核心的一环,正是高性能算子的开发。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;KernelCAT:计算加速专家级别的 Agent&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/8f/8faf0bf997be96bcfd5f8bcb5396620f.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/69/6920f6c41c59b89f3d72dd73255fd27b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为国产芯片生态写高性能算子&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/90/90a7b4e9f17290018d9342b3ed31e0a4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;没有坚不可破的生态,包括 CUDA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上&quot;说上了母语&quot;。实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://kernelcat.cn/&quot;&gt;KernelCAT 限时免费内测&lt;/a&gt;&quot;中,点击链接,马上体验~&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/14/140a6c0e97d8e4f35ef00ee8f4f9f40e.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</guid>
      <pubDate>Fri, 30 Jan 2026 09:46:03 GMT</pubDate>
      <author>InfoQ</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9f/e5/9f01dbbbe47906ef536a31f2a1f344e5.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;采访嘉宾 | 天数智芯 AI 与加速计算技术负责人 单天逸&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那一刻,下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断,被放到了更公开也更严苛的舞台上,谁能撑起资本市场和大众期待,谁就能撑起市值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式,把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中,围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考,天数智芯公布了过去一代以及未来三代的架构路线图:&lt;/p&gt;&lt;p&gt;2025 年,天数天枢架构已经超越英伟达 Hopper,在 DeepSeek V3 场景中实测性能数据超出 20%;2026 年,天数天璇架构对标 Blackwell,新增 ixFP4 精度支持;2026 年,天数天玑架构超越 Blackwell,覆盖全场景 AI/加速计算;2027 年,天数天权架构超越 Rubin,支持更多精度与创新设计。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/93a5511a47ea59c34947fa5622e43f57.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;国产 GPU,开启 AI++ 计算新范式&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;根据天数智芯公布的架构路线图及阶段发展目标,在 2027 年之前,天数智芯将通过多代产品完成对英伟达的追赶;在 2027 年之后,将转向更富创新性的架构设计,聚焦更具突破性的超级计算芯片架构设计。看似宏大,但对于仍处于爬坡阶段的国产 GPU 行业来说,这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越,国产 GPU 才有资格进入更大规模的生产环境中。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而在规模化落地阶段的竞争,焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料,当算力消耗开始对标真实业务产出,无论是国际顶尖 GPU 厂商还是国内 GPU 企业,核心命题都只有一个:如何在真实业务中,把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一命题,天数智芯提出了两条明确的架构判断:其一,回归计算本质;其二,提供高质量算力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;回归计算本质,核心在于“不设限”&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去十年,规模的快速扩张带来了阶段性的产业繁荣,也使得算力实现野蛮增长。但这种粗放式发展,也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例,路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此,计算、通讯、存储都会带来各种障碍。所以,幻想奔跑在平坦的赛道上毫无意义,产业真正需要的,是能够翻山越岭的全能越野车。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/64/64709d562cae987749119744a750d556.webp&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;广义上,芯片可分为专用芯片和通用芯片:专用芯片类似“应试教育”,它的优势和边界都很清晰,能加速特定算法、特定指令,比如矩阵乘法、Softmax 这些主流任务,但一旦计算范式发生变化,适应空间就会迅速收紧;通用芯片的设计哲学,不是为了押中某一类算法,而是回归计算本质,覆盖更广泛,甚至全新的计算需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来,硬件与算法的关系本来就不应该相互掣肘,算力的僵化不应限制算法的进化,而是通过通用算力为探索未知算法提供一个坚实的底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑探索未来算法的关键,实则就是“不设限”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于这一判断,天数智芯的芯片设计哲学,在计算层面追求的是覆盖几乎所有的数学运算图谱,而非某一类、某一种计算:从 Scalar、Vector、Tensor 到 Cube,支持从高精度科学计算到 AI 精度计算,从 MMA 到 DPX,不管是 AI 的 Attention 机制、前沿的科学计算,还是未来的量子计算相关模拟,天数智芯全都支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在执行层面,追求的是更高的算力利用率:大、中、小任务会被精准分配到不同的计算单元中执行,配合高密度的多任务核心设计,算力可以被拆解、调度得更加精细,从而减少算力浪费,提高计算效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/d2/d21f6e06061719cd4a9a199eb6e5fed0.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种“不设限”的设计哲学,让天数天枢架构得以实现三大创新,这也是天枢能够超越英伟达 Hopper 架构的根因:&lt;/p&gt;&lt;p&gt;TPC BroadCast(计算组广播机制)设计:不是简单粗暴地放大带宽,而是从单位带宽的使用效率入手,存在相同地址的数据时,芯片内部的 load store 单元不会进行重复、无用的访问,而是在上游进行 BroadCast,减少不必要的内存访问次数,从而有效降低访存功耗,等效提升访存带宽,用更小的功耗和面积实现相同的功能。Instruction Co-Exec(多指令并行处理系统)设计:在指令执行层面,通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力,不仅支持 Tensor Core 与 Vector Core 的并行协同,还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中,通过极低的成本增强了不同指令之间的并行处理能力,无论是 MLA、Engram,还是面向更复杂模型场景的计算需求,都可以在这一并行框架下被同时处理,从而提升整体执行效率。Dynamic Warp Scheduling(动态线程组调度系统)设计:随着 MoE 架构在大模型中被广泛采用,模型厂商普遍面临推理效率低等现实挑战。为提升并行度,微架构层面允许芯片中同时驻留更多 warp,但 warp 的增加也意味着对计算资源的竞争更为激烈。为此,天数智芯首创了 Dynamic Warp Scheduling 机制,通过动态调度让不同 warp 在资源使用上实现有序协作,避免计算资源闲置,也减少了对同一资源的无序争抢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这三项设计的出发点本质上都指向相同的目标:高性能与高效率。数据显示,这些创新让天数天枢的效率较当前行业平均水平提升 60%,基于这些效率优势,实现在DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从这三项设计中可以看出,天数智芯在架构层面的创新,并不是围绕某一个具体模型或算子展开,而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示,在天数智芯提出 Dynamic Warp Scheduling 设计之前,几乎没有人从调度机制的角度去思考,还能为 MoE 带来哪些性能空间。从更深层次意义来看,这类微架构层面的调度和优化,一直是英伟达、AMD 等巨头保持领先的“内功”,天数智芯在这些单点上的突破,实际上也是国产 GPU 向顶级玩家看齐的重要一步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;提供高质量算力:高效率、可预期、可持续&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在天数智芯的架构语境中,回归计算本质并不是一个抽象的口号,而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责,高质量算力才成为可能。基于这一判断,天数智芯将高质量算力拆解为三个核心维度:高效率、可预期与可持续。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/7a/7ace836faccd159427d7c71b330df3ca.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;高效率意味着能为客户创造最优的 TCO(总体拥有成本),节省使用成本;可预期则通过精准的仿真模拟,让客户在拿到芯片、部署算力之前,就能清晰预判最终的性能表现,做到所见即所得;可持续指的是从现在主流的 CNN、RNN,到当下火热的 Transformer,再到未来还未诞生的全新算法,算力始终能无缝适配。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这三个方向,天数智芯在架构及系统设计上,选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项,其实哪个都值得单独展开探讨。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;比如,基于“不设限”的设计理念,在当前 PD 分离的架构下,天数智芯的 GPU 不只做计算,还支撑通信、KV 数据传输这些关键任务,通过打造 Ⅸ 并行任务处理模块,GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务,让它们并行不冲突。在真实业务场景中,该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/b4/b473b037acf6e72c5b667dd838e26e33.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为了提高算力可持续性,天数智芯统一了芯片内、外,来构建算力系统,并通过不断更新的软件栈和软件系统,三类库共同支持和保障多场景的高效运行。其中,AI 库、通讯库(ixccl)、加速计算库是基石,在基石之上,直接支撑各类神经网络模型CNN、Transformer、LSTM 与高性能计算的各个领域,并以此提供各类 AI 应用,包括支持 AI4Sci 的相关应用,如蛋白质结构预测(AlphaFold)、医疗影像分析(Clara)、气候模拟(Earth2)等,以及量子计算的平台 cudaQ、分子动力学 Gromacs,大规模方程组求解器 HPL 等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这套算力系统被命名为 IXAI++,寓意为自我迭代,不止于 AI。其最终的目标是,成为一座连接算法创新与物理世界的桥梁,带领人类科技通往未知探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但给业内带来最多惊喜的,是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题,后者解决的是企业部署算力系统最头疼的不可控难题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型推理场景中,长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上,Attention 的执行效率依然不高,如果不对其进行针对性优化,首字延迟将明显偏高,模型响应速度差,推理成本高昂,最终影响大模型在真实业务中的可用性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一痛点,天数智芯设计了 Ⅸ Attention 模块,从底层对 Attention 的执行路径进行重构:Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子,Ⅸ Attention 模块的核心思路,是将这些分散的组件有机地拼装到一起,如同指挥一支乐队一般,确保多种乐器能够和谐共鸣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/19/1931cf31a98c3a57d61ca5cbaf8caa44.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“其中的技术难点在于调度,多种乐器需要同时演奏,任何一个环节拖慢节奏,都会成为整个系统的瓶颈”,单天逸表示,在实际的长上下文推理中,Ⅸ Attention 模块有效改善了 Attention 的执行效率,带来了约 20% 的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;针对企业部署算力系统最头疼的不可控难题,天数智芯搭建了 IX-SIMU 全栈软件仿真系统,这套仿真系统的目标,就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真,能精准输出任意模型的性能表现,提升算力在真实场景中的可控性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c1/c15d79ed9346cf49898ee0193b585926.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;单天逸表示,在算力系统的仿真与评估中,最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于,能够对底层指令执行进行精细建模。在实际使用中,用户只需输入软件代码,IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件,匹配网络拓扑,再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略,最终精准输出 Deepseek、千问等任意模型的性能表现,实现从单卡到万卡集群的 “精密扩展”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕高效率、可预期、可持续三大判断,天数智芯在算力侧从硬件架构到系统设计进行了整体布局,并用未来三代架构路线图提前回答下一个问题:当算力僵化开始掣肘未来计算,架构层还能怎么演进?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;决定上限的,最终还是应用和生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;架构代表的其实是下限,决定上限的,最终还是应用和生态。数据显示,截至 2025 年年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用,服务客户数量超过 300 家,并通过软硬件协同优化,完成 1000+ 次模型部署,让产品能力真正达到商用级别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑这些场景应用的,早已不是一个产品的能力范畴,而是“产品 + 解决方案” 双轨模式,这一模式其实与英伟达定位非常相近,聚焦的都是解决方案落地。在大模型深入产业应用的当下,这套组合打法相当务实,毕竟应用落地才是唯一真理,谁能在企业真实业务场景中快速部署、持续稳定运行,谁就能赢得先机。在速度和兼容性上,天数智芯也交出了一份不错的答卷:国内新的大模型发布当天便能跑通,目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子,数千卡集群稳定运行超 1000 天。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这次发布会上,天数智芯面向物理 AI 场景落地,一口气发布了四款边端算力产品“彤央”系列:包括边端 AI 算力模组 TY1000、TY1100,以及边端 AI 算力终端 TY1100_NX、TY1200。 据了解,“彤央”系列产品的标称算力均为实测稠密算力,覆盖 100T 到 300T 范围。数据显示,在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中,彤央 TY1000 的性能全面优于英伟达 AGX Orin。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在发布会中,天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用:具身智能领域,为格蓝若机器人提供高算力、低延迟的“大脑”支撑;在工业智能领域,落地园区与产线,推动产线自动化升级;在商业智能领域,瑞幸咖啡数千家门店部署彤央方案,高效处理视频流、挖掘消费数据价值;在交通智能领域,与“车路云一体化”20 个头部试点城市合作,验证车路协同方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整体来看,天数智芯走的路线虽然是底层技术自研,但在生态上并非封闭。在生态建设上,天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议,进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态,持续开放底层能力,降低开发者迁移和使用门槛。未来,天数智芯还会持续增加在生态共建上的资本与人力投入,从应用到芯片与开发者一同优化 AI 应用系统,共同为应用落地提供性能、性价比与生态易用的价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从底层架构到产品,从应用到生态,国产算力正在实现完整闭环,这种从芯片到生态的协同能力,不仅让国产算力更可用、更可持续,也为行业探索新模式提供了更多想象空间。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</guid>
      <pubDate>Thu, 29 Jan 2026 06:54:56 GMT</pubDate>
      <author>凌敏</author>
      <category>企业动态</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>从算力规模到系统级竞争:智算竞争核心已变,金山云战略升级曝行业“隐形拐点”</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/1f/bd2b4b1668393b4b5d9bf91cf845761f.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;从训练到推理:智算需求正在经历一场结构性转向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在2026年1月21日举办的金山云年度Tech Talk上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token如何被消耗、算力如何被组织展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;变化首先体现在财务数据上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以2025&amp;nbsp;年第三季度为例,智算云账单收入达到7.8亿元人民币,同比增长接近120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理侧的变化更加显著。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日Token调用量已达到50万亿级别。这是当前国内少数被明确对外公布的Token规模数据之一,也成为行业理解推理负载的重要参考。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动Token消耗快速增长。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在所有推理场景中,编程类应用被反复强调。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;刘涛指出,2025年一个尤为显著的变化在于:编程相关请求正在成为Token消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code的大量代码本身,正是由Claude Code参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从全球Token调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;&lt;/p&gt;&lt;p&gt;其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;&lt;/p&gt;&lt;p&gt;其三,Vibe Coding在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了满足更多元化的需求,刘涛表示,2025年,智算平台金山云星流已完成从资源管理平台向一站式AI训推全流程平台的战略升级。从训推平台、机器人平台到模型API服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型API服务商业化落地的全链路闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;实现三维进阶,智算云AI势能全释放&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管各行各业大规模应用AI还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈AI能力。从2023年的智算网基础设施,到2024年智算云的平台化和Serverless化,再到2025年的一站式AI训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接AI应用爆发做好了充分准备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的AI开发体验。自研的GPU故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;面向大模型应用开发者和企业用户,金山云星流平台模型API服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型API服务已积累诸多行业客户。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近40种不同模型,包括DeepSeek、Xiaomi MiMo、Qwen3、Kimi等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦AI业务创新和价值创造。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</guid>
      <pubDate>Tue, 27 Jan 2026 03:58:35 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>聚焦算力市场痛点,嘉唐算力供应链平台重磅发布</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/4d/34/4d3f7yy64d506d55f7b8018028747e34.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在近期举行的第五届AIGC开发者大会上,上海嘉唐科技发布了名为“算力供应链服务平台”的全栈式解决方案。该平台以“生态共建,供需协同”为理念,围绕算力交易、金融配套、资产管理及算电协同等维度展开设计,旨在应对当前算力行业存在的价格透明度低、流程不规范、服务缺乏标准化及供需匹配效率不高等问题,致力于为构建全国算力服务统一市场提供技术支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当前,算力作为数字经济发展的重要基础设施,已成为衡量新质生产力的关键指标之一。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据统计,近五年来我国算力产业规模年均增速超过30%,但与此同时,行业仍面临资源结构性失衡、整合程度不足等制约高质量发展的挑战。为此,市场上陆续出现多种服务模式探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;嘉唐科技此次推出的平台整合了撮合与直营等模式,尝试在供需对接、资源保障、产业链协同及能耗优化等方面提供系统性支持,其中算电协同方案通过引入绿电直供等方式,尝试推动算力行业能耗成本优化与绿色化转型。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从平台架构来看,其采用“1+3+N”的设计思路,即一个综合服务底座,涵盖算力交易、资产管理、金融服务三大核心模块,并计划拓展至多个行业应用场景。该架构试图在资源整合、智能调度与服务标准化等方面做出探索,与行业主管部门推动的算力互联互通方向具有一定的契合性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在生态合作方面,多家来自能源、金融、科技等领域的企业参与了此次发布仪式,并表达了在资源共享与产业协同方面的合作意向。行业分析指出,此类跨领域协作有助于将企业单体优势扩展为产业链整体效能,对推动AI技术在不同行业的落地应用可能形成一定支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;业内观察显示,随着算力在经济社会各领域渗透不断加深,构建开放、高效、协同的算力供应链体系逐渐成为行业共同关注的议题。相关平台的出现,反映了市场主体在整合算力资源、提升服务能效方面的尝试,其长期成效仍有赖于技术可靠性、模式可持续性及行业协同机制的进一步完善。在算力市场竞争日趋全球化、绿色化的背景下,此类探索也为推动产业高质量发展提供了可供观察的案例。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</guid>
      <pubDate>Tue, 20 Jan 2026 09:59:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>MUSA开发者大赛丨GEMM优化挑战赛火热开启!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/fb/74/fb8b0824bb93b0825f442f79a92c3474.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;MUSA开发者集结!与摩尔线程算力共振,谁将登顶矩阵乘法的性能巅峰?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;国产算力生态的崛起,不仅需要坚实可靠的硬件基座,更呼唤能够彻底释放硬件潜能的极致软件优化能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;GEMM(通用矩阵乘法),正是衡量软件能力的核心标尺。作为触达GPU算力峰值、检验架构效率与存储带宽极限的核心算子,它既是验证硬件潜力与软件栈成熟度的试金石,也是每一位追求极致的开发者渴望征服的“性能圣杯”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此刻,我们诚邀所有心怀极致追求的开发者,共同开启这场极限挑战——基于摩尔线程训推一体全功能智算卡&amp;nbsp;MTT S4000,在MUSA架构GPU上深度优化GEMM,共同挑战GPU的性能巅峰。在这里,用你的代码与智慧,亲手将矩阵乘法的性能推向极限!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;赛题丨FP16 GEMM Kernel 极致性能开发&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次挑战赛聚焦于底层&amp;nbsp;Kernel 开发,要求参赛者在摩尔线程MTT S4000上,将FP16精度的通用矩阵乘法(GEMM)性能优化到极致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;计算任务:在&amp;nbsp;MTT S4000 上,实现矩阵乘法(M=8192, N=8192, K=16384)的高性能计算。精度要求:计算采用FP16进行乘加运算,中间累加过程使用FP32。硬件架构:所有优化工作须基于MTT S4000的硬件特性展开,参赛者需深入研究并充分利用其特性。优化边界:禁止调用muBLAS/muDNN 等高层库。鼓励参赛者深挖共享内存分块、寄存器优化等硬件潜力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;评分丨严谨性与高性能的统一&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最终比赛结果由主办方统一依据官方评测方案进行综合评定,总分为正确性与性能两部分之和,缺一不可。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 正确性测试:不容有失的基石&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;测试范围:参赛代码必须通过主办方设置的四组不同规模的测试用例验证。精度要求:计算结果必须严格准确。与官方muBLAS库提供的参考结果相比,每个元素的相对误差必须控制在1e-2以内。一票否决:任一测试用例失败,或任一输出元素误差超限,则正确性部分得分为0,且将直接终止评测,无法进入后续性能评估环节。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 性能评估:追求极致的竞技场&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;评估标准:在通过全部正确性测试后,性能评估将在本次比赛的核心规模——8192 x 8192 x 16384上展开。系统将进行多次迭代测试,取平均GFLOPS作为性能指标。评分参考:为帮助参赛者了解自身优化水平,我们将根据参赛者代码性能相对于官方muBLAS基线性能的百分比效率,进行线性插值计算,提供一个参考性分数。绝对排名:比赛的最终官方成绩与总排名,严格依据在标准评测环境下测得的绝对GFLOPS性能值进行排序。性能越高,排名越前。自测工具:我们为参赛者提供了性能绝对值测试脚本,参赛者可自行读取并分析Kernel的实际性能数据,以便进行针对性优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;资源丨云端环境与算力支持&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;摩尔线程将为每一位参赛者提供专业、完备的云端开发环境与算力支持。如下设计致力于最大限度地消除环境差异,确保参赛者自测的性能结果具有高度参考价值,助力大家精准优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算力平台:我们将提供本次赛题指定硬件MTT S4000的云端算力资源供参赛者调优、测试。参赛账户:每位参赛者将获得一个专属的AutoDL子账号,确保开发环境的独立性与数据安全。预置镜像:该账号中已内置比赛专用镜像。镜像环境预先配置了所有必要的驱动、工具链,并包含了官方的评估脚本、编译工具及基础示例代码,参赛者登录后即可立即开始开发工作。标准化工具链:我们提供统一的评测脚本与摩尔线程官方编译器&amp;nbsp;mcc。参赛者在本地自测时使用的编译命令、优化选项与评测流程,将与最终官方评审环境完全一致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;奖项丨激励卓越,丰厚礼遇&lt;/h2&gt;&lt;p&gt;&lt;/p&

...

@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

http://localhost:1200/infoq/recommend - Failed ❌
HTTPError: Response code 503 (Service Unavailable)

Error Message:<br/>FetchError: [POST] &quot;https://www.infoq.cn/public/v1/article/getDetail&quot;: 451
Route: /infoq/recommend
Full Route: /infoq/recommend
Node Version: v24.14.1
Git Hash: a818e626

@github-actions github-actions bot removed the auto: not ready to review Users can't get the RSS feed output according to automated testing results label Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 02:04:37 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>35 年只卖设计,今天亲自下场造芯!Arm 首款自研芯片发布,Meta 抢下首单</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/96/bd2a783fdb8597628458b8acc4e02096.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;36年来,半导体与软件公司 Arm 一直将芯片设计授权给英伟达、苹果等企业使用,如今终于开始自主研发并制造自有芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在近日举办的发布活动上,该公司正式推出一款面向AI数据中心推理场景、可直接量产的处理器Arm AGI CPU。这家英国企业基于自研Neoverse系列CPU IP内核,并与Meta合作完成了这款芯片的开发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,Meta也是Arm AGI CPU的首位客户,该芯片专为与Meta的AI训练及推理加速器协同工作而设计。Arm的首批合作方还包括OpenAI、Cerebras、Cloudflare等多家科技公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;市场对Arm转型自研芯片的动向早有预期。据外媒报道,该公司早在2023年便启动了芯片研发工作,目前相关处理器已开放订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管此举在预料之中,却标志着Arm历史性地打破了长期以来仅向其他芯片厂商授权设计的传统模式。这家由日本软银集团控股的公司,未来将与众多合作伙伴直接展开竞争。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm选择推出CPU而非GPU,这一点同样值得关注。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代理式AI基础设施崛起&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI系统正日益以全球规模持续运行。在过去,人是计算环节的瓶颈——人们与系统的交互速度决定了工作推进的速度。而在代理式AI时代,因为软件智能体可自主协同任务、与多个模型交互,并实时做出决策,这种局限性将不复存在。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着AI系统持续运行且工作负载复杂度不断提升,CPU已成为现代基础设施中决定运行节奏的关键要素——负责保持分布式AI系统大规模的高效运行。在现下的AI数据中心中,CPU管理数千个分布式任务,包括协调加速器、管理内存与存储、调度工作负载、跨系统迁移数据,加上当今的代理式&amp;nbsp;AI场景兴起,CPU&amp;nbsp;还需面向海量智能体实现大规模协同调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这一转变对CPU提出了全新要求,驱动处理器架构的演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm Neoverse 现已成为当今众多领先超大规模云服务及AI平台的核心支撑,包括Amazon&amp;nbsp;Graviton、Google&amp;nbsp;Axion、Microsoft&amp;nbsp;Azure Cobalt&amp;nbsp;及&amp;nbsp;NVIDIA&amp;nbsp;Vera&amp;nbsp;等。随着AI基础设施在全球范围内不断扩展,生态系统的合作伙伴纷纷期待Arm&amp;nbsp;能够提供更多能力。为应对这一变革,Arm AGI CPU应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Arm AGI CPU:专为机架级代理式AI效率而生&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代理式AI&amp;nbsp;工作负载需要在大规模场景下实现持续稳定的性能输出。Arm AGI CPU&amp;nbsp;正是为此而设计,能够在数千核心并行的持续高负载下,为每个任务提供高性能表现,且满足现代数据中心功耗与散热的严格要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从运行频率到内存及I/O架构,Arm AGI CPU的每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的代理式&amp;nbsp;AI&amp;nbsp;工作负载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成两颗CPU&amp;nbsp;芯片,并配备独立内存与&amp;nbsp;I/O,共计&amp;nbsp;272 个核心。这些刀片服务器可在标准风冷&amp;nbsp;36 千瓦&amp;nbsp;(kW) 机架中满配部署,30 台刀片服务器可提供总计&amp;nbsp;8160 个核心。此外,Arm 还与&amp;nbsp;Supermicro 合作推出&amp;nbsp;200 千瓦&amp;nbsp;(kW) 液冷设计方案,可容纳&amp;nbsp;336 颗&amp;nbsp;Arm AGI CPU,提供超过&amp;nbsp;45000 个核心。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在该配置下,凭借Arm架构的根本优势,以及系统资源与计算能力的精准匹配,Arm AGI CPU 可实现单机架性能达到最新x86系统的两倍以上:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Arm AGI CPU具备业界领先的内存带宽,使每个机架能够支持更多高效执行的线程;相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降;高性能、高能效的单线程&lt;a href=&quot;https://www.arm.com/products/silicon-ip-cpu/neoverse/neoverse-v3&quot;&gt;Arm Neoverse V3处理器&lt;/a&gt;&quot;核心性能出众,优于传统架构——每个Arm线程可处理更多任务;更多可用线程与更高单线程处理能力相互叠加,最终实现单机架性能的大幅提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm AGI CPU已获得合作伙伴的认可,这些合作伙伴均处于代理式AI基础设施规模化部署的前沿领域。计划部署场景涵盖加速器管理、代理式&amp;nbsp;AI&amp;nbsp;协同调度,以及支撑代理式&amp;nbsp;AI&amp;nbsp;任务规模化扩展所需的服务、应用与工具的高密度部署,同时还包括为AI数据中心提供更强的网络与数据面计算能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化吉瓦级规模基础设施,并与Meta自研的MTIA加速器协同运行。其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯——这些企业均与Arm合作部署Arm AGI CPU,以加速云、网络及企业环境中的AI驱动型服务落地。目前,永擎电子、联想及Supermicro已开放商用系统订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为进一步加速产品采用,Arm推出Arm AGI CPU 1OU双节点参考服务器,该服务器采用符合开放计算项目&amp;nbsp;(Open Compute Project,OCP)的DC-MHS标准规格设计。Arm计划向社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;图形处理器(GPU)因承担AI模型训练与运行任务而备受瞩目,而CPU在数据中心机架中同样扮演着不可或缺的关键角色。Arm在主推这款CPU时强调,此类芯片负责处理成千上万项分布式任务,包括内存与存储管理、任务调度、系统间数据传输等。该公司表示,CPU已成为“现代基础设施的节奏核心,保障分布式AI系统实现高效规模化运行”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm指出,这一趋势对CPU提出了全新要求,也推动处理器必须迭代升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,全球CPU供应也日趋紧张。据外媒此前报道,今年3月,英特尔与AMD均告知中国客户,受CPU短缺影响,产品交付周期将进一步延长。随着短缺状况加剧,电脑产品价格也已开始上涨。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&quot;&gt;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</guid>
      <pubDate>Wed, 25 Mar 2026 03:53:18 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>英伟达联手 Akamai:AI Grid 背后的 Token 成本与吞吐博弈</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/73/e6/73a91bfcbb4d60e78aa703a2bf7e3fe6.png&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026年3月18日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的NVIDIA® AI Grid参考设计实施方案 。通过将NVIDIA AI基础设施集成到Akamai的架构中,并利用网络层面的智能工作负载编排,Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此举标志着去年底推出的&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-inference-cloud-transforms-ai-from-core-to-edge-with-nvidia&quot;&gt;Akamai Inference Cloud&lt;/a&gt;&quot;&amp;nbsp;在演进中迈出重要一步。作为首家实现AI网格运营化的公司,Akamai正部署&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-to-deploy-thousands-of-nvidia-blackwell-gpus-to-create-one-of-the-worlds-most-widely-distributed-ai-platforms&quot;&gt;数千个&lt;/a&gt;&quot;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/&quot;&gt;NVIDIA RTX PRO 6000 Blackwell服务器版GPU&lt;/a&gt;&quot;的平台,为企业提供能够运行智能体和物理AI的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“AI工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics),”Akamai云技术事业部首席运营官兼总经理Adam Karon表示 。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在4400个站点以合适的成本和时间路由AI工作负载”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“Token经济”的架构&amp;nbsp;&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI Grid的核心是一个智能编排器,充当AI请求的实时代理 。通过将Akamai在应用性能优化方面的专业知识应用于AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾AI工作负载提供了巨大的成本和性能优势 。例如:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质GPU周期 。Akamai Cloud基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型AI操作。实时响应能力:游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。核心节点的生产级AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/products/ai-enterprise/&quot;&gt;NVIDIA AI Enterprise&lt;/a&gt;&quot;、&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/&quot;&gt;Blackwell架构&lt;/a&gt;&quot;和&lt;a href=&quot;https://www.nvidia.com/en-us/networking/products/data-processing-unit/&quot;&gt;NVIDIA BlueField DPU&lt;/a&gt;&quot;,Akamai能够管理跨边缘和核心位置的复杂服务等级协议 :&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;边缘(4,400+个站点):为物理AI和自主智能体提供极速响应 。它利用语义缓存和WebAssembly等服务器端功能(Akamai Functions和EdgeWorkers)提供模型亲和性和稳定的性能 。Akamai Cloud IaaS与专用GPU集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而Blackwell GPU阵列则助力繁重的后训练和多模态推理 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;NVIDIA电信业务发展全球副总裁Chris Penrose表示:“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将NVIDIA AI Grid投入运营,Akamai正在构建生成式、代理式和物理AI的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一波AI基础设施由少数几个中心化地点的海量GPU集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建AI代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</guid>
      <pubDate>Tue, 24 Mar 2026 03:15:34 GMT</pubDate>
      <author>Akamai</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token 成本全球最低;2027 营收将到 1 万亿;Feynman 架构已在路上;</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/11/f4/115d52389f4a43db78a749c9b88b06f4.png&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/5f/5fb74fd8c08eca05c28144f0711ed342.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;北京时间2026年3月17日凌晨两点半,当英伟达 CEO 黄仁勋穿着那件标志性的黑色皮衣踏上SAP中心的舞台时,台下近万名开发者心里清楚:这一次,老黄要讲的不是某个单一芯片,而是一整套AI“全家桶”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款“前所未见的芯片”,被普遍认为是采用台积电1.6nm&amp;nbsp;制程、引入光通信技术的下一代Feynman架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今天揭晓的Feynman架构、Vera Rubin平台的量产进展,以及面向企业级自主代理的开源平台NemoClaw,不过是这座基础设施落地所需的“钢筋水泥”。黄仁勋用两个小时向资本市场证明了一件事:英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为“数万亿美元AI基建时代”搭建完整技术栈的“总包工头”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;回顾 CUDA 20年:安装基数引爆飞轮,GPU算力成本持续下降&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;演讲刚开始,黄仁勋用近十分钟篇幅,回溯了CUDA架构诞生20年的演进历程。他将这套软件生态定义为英伟达一切业务的“中心”,并直言:真正难以复制的壁垒,是底层的安装基数。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“二十年来,我们一直致力于这种革命性架构——单指令多线程(SIMT),让开发者编写的扩展代码能够轻松生成多线程应用,编程难度远低于传统方法。”黄仁勋回忆道。他特别提到近期引入的“tiles”(张量核心编程块)功能,旨在帮助开发者调用Tensor Core以及支撑当今AI的数学结构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如今,围绕CUDA已形成庞大的工具链生态:数千种工具、编译器、框架和库;仅开源领域就有数十万个公开项目。“CUDA真正融入了每一个生态系统,”黄仁勋说,“这张图,基本上描述了100%的媒体战略——你们从一开始就看我讲这张幻灯片。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/84/84b6bc25cb1fa808e64e51b5de28dbaa.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他随后指向图表底层:“最难实现的东西在这里——安装基数。我们花了20年,才在全球建立起数亿块运行CUDA的GPU和计算系统。我们在每一朵云里,在每一家计算机公司里,服务几乎每一个行业。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋将这套逻辑总结为“飞轮效应”:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“CUDA的安装基数,是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,带来技术突破——比如深度学习,还有很多其他领域。这些突破催生全新市场,围绕它们形成新的生态,更多公司加入,进而扩大安装基数。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他称这一飞轮正在加速:“NVIDIA库的下载量增长极快,规模巨大,增速前所未有。这个飞轮让计算平台能够承载如此多的应用和突破,更重要的是,它赋予了这些基础设施极长的有效生命周期。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;背后的逻辑很直接:CUDA支持的应用程序范围足够广,覆盖AI生命周期的每一个阶段,对接每一种数据处理平台,加速各类科学原理求解器。“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当安装基数足够大、飞轮足够快、开发者触达足够广,并且软件持续更新时,结果就是计算成本不断下降。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“加速计算让应用性能大幅提升,而我们在其生命周期内持续优化软件,”黄仁勋总结道,“你不仅获得初期的性能跃升,还能获得持续的算力成本降低。我们愿意支持全球每一块GPU,因为它们架构兼容。为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他最后补充道:“这套动态机制,让NVIDIA架构不断扩展应用范围,加速自身增长,同时降低计算成本,最终催生新的增长。CUDA就在这一切的中心。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为结尾的轻松注脚,黄仁勋提及了GeForce的历史:“我知道你们中有多少人是从GFORCE成长起来的——那是最棒的市场营销,我们在很早之前就开始吸引未来的客户。”&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为数据处理打造新的核心软件库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;演讲中,老黄提到下面这张图是本场演讲中最重要的一张图,因为里面提到了英伟达为数据处理打造的新的核心软件库。老黄在演讲中谈到,随着 AI 的快速发展,全球数据处理体系正迎来一次结构性的变革,其中最核心的变化,是结构化数据与非结构化数据的全面加速。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/05/05fdddc05dd6bc73f4685555bc058402.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋指出,长期以来企业计算的基础建立在结构化数据之上。无论是 SQL、Spark、Pandas 等技术体系,还是诸如 Snowflake、Databricks、Amazon 的 EMR、Microsoft 的 Azure Fabric,以及 Google 的 BigQuery 等大型数据平台,本质上都在处理一种核心数据结构——数据框(DataFrame)。这些数据框可以被理解为巨型电子表格,承载着企业运营和业务决策所依赖的关键信息,是企业计算体系中的“事实来源”(ground truth)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去,对结构化数据的加速主要是为了提升企业的数据分析效率:让计算任务完成得更多、成本更低,并且能够在一天内更频繁地运行数据处理流程,从而让企业运营更加高效、更加同步。但在 AI 时代,这一逻辑正在发生变化。黄仁勋表示,未来不仅人类会使用这些数据结构,AI 系统和智能体(Agent)也将直接访问和使用结构化数据库,而 AI 的处理速度远远快于人类,这意味着数据处理基础设施必须获得数量级的性能提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/a7/a77054d74f495ee94b71011c7e669e9a.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,另一类更庞大的数据也正在成为 AI 时代的重要资源——非结构化数据。黄仁勋指出,向量数据库、PDF 文档、视频、语音和演讲内容等都属于非结构化数据。全球每年产生的数据中,大约 90% 都是非结构化数据。然而在很长一段时间里,这些数据几乎无法被计算系统有效利用,人们只是阅读这些内容,然后把它们存储在文件系统中,却很难对其进行查询和搜索。其根本原因在于,非结构化数据缺乏可直接建立索引的结构,要使用这些数据,首先必须理解其语义和目的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 AI 的多模态理解能力正在改变这一状况。正如 AI 已经在多模态感知和理解方面取得突破一样,同样的技术可以用于读取 PDF、理解视频和语音内容,并将其语义信息嵌入到可计算的数据结构中,从而使这些数据能够被搜索、查询和分析。换句话说,AI 正在把原本难以利用的海量非结构化数据转化为可计算的信息资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了支持这一转变,NVIDIA 构建了两项关键基础技术。黄仁勋表示,就像当年为 3D 图形计算推出 RTX 技术一样,NVIDIA 现在为数据处理打造了新的核心软件库。其中 cuDF 用于加速数据框计算,主要面向结构化数据处理;而 cuVS 则面向向量存储和语义数据,用于处理非结构化数据和 AI 数据。这两项技术将成为未来数据基础设施中最重要的平台之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋透露,目前这两项技术正在逐步融入全球复杂的数据处理生态系统。由于数据处理产业已经发展了数十年,围绕它已经形成了大量公司、平台和服务,因此将新的加速技术深度整合进整个生态需要时间。但 NVIDIA 已经看到越来越多的合作伙伴开始采用这些技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,IBM——SQL 的发明者之一,也是历史上最重要数据库技术的推动者——正在利用 cuDF 来加速其数据平台 IBM watsonx.data。在黄仁勋看来,这类合作标志着 AI 正在逐步重塑整个数据处理基础设施,使企业能够同时高效利用结构化数据和海量的非结构化数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI 原生行业的爆发和英伟达万亿美金的信心&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI重塑整个基础设施的另一个标志是涌现出海量的AI原生企业。去年,这个行业经历了史无前例的飞跃。风险投资对初创公司的投入高达 1500 亿美元,创人类历史之最。投资规模也从千万美元级跃升至数十亿美金级。究其原因,是这些公司历史性地都需要海量算力和 Token。无论它们是创造 Token 还是为 Token 增值,它们对算力的渴望是共同的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,“正如 PC、互联网、移动云革命催生了谷歌、亚马逊和 Meta,这次计算平台的迁移也将孕育出一批对世界未来至关重要的新巨头。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;那为什么这种AI企业的爆发会发生在这两年?黄仁勋称这因为发生了三件大事:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;ChatGPT 开启生成式 AI 时代: 计算从“基于检索”转向“基于生成”。这彻底改变了计算机的架构、供应和建设方式。推理 AI(o1/o3)的出现: AI 开始拥有反思、规划、拆解问题的能力。o1 让生成式 AI 变得可靠且基于事实。为了“思考”,输入和输出 Token 的使用量呈爆炸式增长。Claude Code 开启代理(Agentic)时代: 这是首个代理模型。它能阅读文件、编码、编译、测试并迭代。它革新了软件工程。现在 NVIDIA 内部每个工程师都在使用 AI 代理辅助编程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/17/17118ee96a34b892bf1037971287a0d3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,“AI 已经从“感知”进化到“生成”,再到“推理”,现在已经可以执行极其高效的实际工作。 “推理拐点”已经到来。 AI 要思考、要行动、要阅读、要推理,每一环都在进行推理(Inference)。现在已经远超训练阶段,进入了推理的疆场。过去两年,计算需求增长了约 10,000 倍,而使用量增长了约 100 倍。我深感这两年的计算需求实际增长了 100 万倍。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;紧接着,老黄又分享了几个数据,让现场的气氛达到了高潮。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他高兴地向观众分享道,“去年我说 Blackwell 和 Rubin 到 2026 年的订单额将达 5000 亿美元,你们可能没觉得惊艳。但今天,在这里,我预见通过 2027 年的营收将至少达到 1 万亿美元。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他进一步强调了这不是空话,因为计算需求只会更高。2025 年是 NVIDIA 的“推理之年”,NVIDIA 系统是全球成本最低的 AI 基础设施——使用寿命越长,成本就越低。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他这么说的背后有着坚实的数据支撑。目前,全球三分之一的 AI 计算开源模型(如 Anthropic 和 Meta 的模型)都跑在英伟达芯片上。NVIDIA 是全球唯一能运行 AI 所有领域的平台:语言、生物、图形、视觉、机器人、边缘或云端。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在英伟达的业务中,60% 来自顶级云服务商(Hyperscalers),不仅支持其内部 AI 消费(如推荐系统、搜索向大模型的迁移),更通过英伟达的生态系统加速每一家 AI 实验室。另外 40% 则遍布区域云、主权云、企业级服务器及工业自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0e/0e806cea61a12db814d69e0f9ed55533.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Token 成本全球最低&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋介绍了 NVIDIA 在 AI 推理基础设施上的最新进展。他表示,AI 性能的突破并不仅来自单一技术,而是由计算架构、软件栈和算法的系统级协同设计共同推动。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋提到,NVIDIA 推出的 NVFP4(FP4)计算体系不仅是一种更低精度的数据格式,而是一种全新的 Tensor Core 计算架构。通过 NVFP4,NVIDIA 已经实现了在推理阶段几乎不损失精度的情况下,大幅提升性能和能效,同时这一计算格式也开始应用于模型训练。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结合 NVLink 72 高速互连,以及 Dynamo、TensorRT-LLM 等软件优化,NVIDIA 构建起一套面向大模型推理的完整技术体系。为优化底层软件与 GPU 内核,公司还投入数十亿美元建设 NVIDIA DGX Cloud 超级计算平台,用于开发和调优 AI 推理软件栈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2c/2ca4a822b3054612b6ec3b2be3b1ae20.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋强调,很多人曾认为推理是 AI 系统中最简单的部分,但实际上 推理既是最困难的环节,也是最关键的商业环节,因为它直接决定 AI 服务的收入来源。根据研究机构 SemiAnalysis 的评测,在数据中心层面,衡量 AI 系统效率的关键指标是每瓦特能够生成多少 token(tokens per watt)。由于数据中心受到电力等物理条件限制,本质上更像一个“AI 工厂”,企业必须在固定功率下尽可能多地生产 token。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;评测结果显示,NVIDIA 在 AI 推理性能和效率上依然保持领先。按照传统 Moore&#39;s Law,新一代芯片通常只能带来约 1.5 倍性能提升,但从 Hopper H200 到 Grace Blackwell NVLink 72 架构,NVIDIA 的 每瓦特性能提升约 35 倍。SemiAnalysis 分析师 Dylan Patel 甚至认为实际提升接近 50 倍。这一架构也带来了更低的 token 成本,在当前市场上具有明显优势。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3f/3f362a51e80793a3d483c69b03eb9744.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,这种极致的软硬件协同设计还能显著提升现有系统性能。例如在部分 AI 推理平台中,仅通过更新 NVIDIA 软件栈,就能将生成速度从 约 700 token/秒提升至接近 5000 token/秒,性能提升约 7 倍。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋强调,NVIDIA 的 Token 成本在世界范围内是“不可触碰”的。 即便竞争对手的架构是免费的,它也不够便宜。因为建立一个 1GW 的工厂,即便里面什么都不放,15 年的摊销成本也高达 400 亿美元。你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的 Token 生产成本。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/61/616c7d590295721c6809df83623166a3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在他看来,数据中心的角色正在发生变化:过去它是存储和计算中心,而未来将成为生产 token 的 AI 工厂。随着 AI 的普及,无论是云厂商、AI 公司还是传统企业,都将开始从“Token 工厂效率”的角度来衡量自己的计算基础设施,因为在 AI 时代,token 将成为新的数字商品,而计算能力则直接决定企业的价值创造能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Vera Rubin 时代降临&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据介绍,这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。该平台包含40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片、1152个&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/rubin/&quot;&gt;NVIDIA Rubin&lt;/a&gt;&quot;&amp;nbsp;GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。&amp;nbsp;该平台目前已全面投产,并得到了包括 Anthropic、OpenAI、Meta 和 Mistral AI 以及所有主要云提供商在内的众多客户的鼎力支持。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f4/f4136a5debe86247ff02c8d0745cfa87.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,过去十年间 AI 计算能力已经实现了 约 4000 万倍的提升,而这一变化正推动数据中心向“AI 超级计算机”形态演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“过去我发布产品时,可能只是手里举着一块芯片(比如 Hopper);但现在,当我谈到 Vera Rubin 时,我说的是一个全栈垂直整合的庞大系统。”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋展示了 NVIDIA 最新的 Vera Rubin AI Supercomputer 系统,并强调这是一套从硬件到软件 完全纵向整合(vertically integrated) 的计算平台,专门为 Agentic AI(智能体 AI) 设计。随着大语言模型不断扩大规模、生成更多 token 并处理更长上下文,系统不仅需要更强的计算能力,还需要更高带宽的内存和存储访问能力,例如 KV Cache、结构化数据处理(cuDF)以及非结构化向量数据(cuVS)等。因此,NVIDIA 对整个系统架构进行了重新设计,包括计算、存储和网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/71/717f0b14f1c8c06e588ccd08e1f12e2b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在硬件层面,NVIDIA 为这一平台开发了一款全新的数据中心 CPU——NVIDIA Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用 LPDDR5 内存 的 CPU,从而实现领先的性能功耗比。黄仁勋透露,这款 CPU 已经开始单独销售,并有望成为 NVIDIA 的一项数十亿美元级业务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在系统设计方面,Vera Rubin 超级计算机采用 100% 液冷架构,并通过 45°C 热水散热,大幅降低数据中心制冷成本。同时,系统内部布线被大幅简化,使得整机安装时间从过去的两天缩短至约两小时,从而显著提升数据中心部署效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;网络互连是这一系统的核心技术之一。NVIDIA 在该平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。黄仁勋表示,这是目前全球最先进、实现难度最高的大规模 GPU 互连系统之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/29/29fdbedbddd9ed2df005c08b7e06f053.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还推出了全球首个 CPO(Co-Packaged Optics)光电共封装的 NVIDIA Spectrum-X Ethernet Switch,将光模块直接集成到芯片封装中,实现电子信号与光信号的直接转换,从而显著提升数据中心网络带宽与能效。这项技术由 NVIDIA 与台积电共同开发,目前已经进入量产阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在更大规模的系统扩展上,NVIDIA 还展示了 Rubin Ultra Compute System。该系统通过新的 Kyber 机架架构,可以在一个 NVLink 域中连接 144 个 GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为 NVLink 交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e236d53b93509b9d41531b3d9018189c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,随着 AI 模型规模和推理需求持续增长,未来的数据中心将越来越像一台完整的超级计算机。而像 Vera Rubin 这样的系统,正是为下一代 AI 工作负载——尤其是智能体系统——而设计的核心计算基础设施。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/10/1011821217d3744426d719db8dd37ce6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;下一代 AI 平台:Feynman 架构前瞻&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,值得注意的是,NVIDIA 的&amp;nbsp;Feynman GPU 架构早在 2025 年 GTC 大会上就已得到确认。在本次演讲中,NVIDIA 列出了 Feynman GPU 与下一代 HBM、Vera CPU 以及构成 AI 数据中心基础的其他几个连接芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cd302fb2aecc077ced93e4f635488ae5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;存储性能是制约 AI 推理的瓶颈,为此 NVIDIA 改变了以往使用标准 HBM 的策略,转而为 Feynman GPU 配备 定制化 HBM 技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;超越标准: 现有的 Rubin 系列分别采用 HBM4 和 HBM4E,而 Feynman 将跳过通用规格,可能采用基于 HBM4E 的定制增强版 甚至提前布局 定制化 HBM5 方案。深度整合: 这种定制化方案允许 NVIDIA 将部分 GPU 的数据处理逻辑直接嵌入存储底层的 Base Die(基础晶圆)中,从而实现超高的带宽与极低的延迟。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 平台将不再沿用目前的 Vera CPU 架构,而是确认搭载代号为 Rosa 的全新 CPU。&lt;/p&gt;&lt;p&gt;这种命名延续了 NVIDIA 以卓越女性科学家命名的传统,Rosa 架构致敬了美国物理学家、诺贝尔奖得主 罗莎琳·萨斯曼(Rosalyn Sussman Yalow),同时也呼应了发现 DNA 结构的 罗莎琳·富兰克林(Rosalind Franklin)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Rosa CPU 被设计为 AI 智能体(Agentic AI)的编排中枢,旨在更高效地调度 GPU、存储与网络之间的 Token 流动,优化处理极其复杂的逻辑决策任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 时代标志着 NVIDIA 将计算、存储和封装三者进行了深度耦合。通过“3D 堆叠核心 + 定制化内存 + 专用 Rosa CPU”的组合,NVIDIA 正在将数据中心从传统的服务器集群演进为一台高度集成的“巨型超级计算机”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f9/f900e49838d48102684c87012bc4328c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推出&amp;nbsp;NVIDIA DSX——面向“AI 工厂”的基础设施平台&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随后,黄仁勋还介绍了 AI 基础设施与数字孪生技术的发展,以及 NVIDIA 在其中的角色。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,当前 AI 基础设施的建设已经开始依赖完整的数字仿真体系。在数据中心建设阶段,系统会通过多种行业领先的工程仿真工具进行验证,例如使用 Siemens Simcenter STAR-CCM+ 进行外部热力学仿真、Cadence Design Systems 的相关工具进行内部热设计、ETAP 进行电力系统分析,以及 NVIDIA 自身的网络模拟平台 NVIDIA DSX Air。通过这些工具,可以在实际建设前完成“虚拟调试”(virtual commissioning),从而大幅缩短数据中心建设周期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当数据中心正式投入运行后,其数字孪生系统会成为基础设施的“操作系统”。AI 智能体会与 NVIDIA DSX MaxQ 协同工作,动态调度整个基础设施:实时监控冷却、电力和网络系统,并不断优化计算吞吐量和能源效率。同时,AI 还可以根据电网实时负载和压力信号动态调整功率分配,从而在保证稳定性的同时提升整体效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 及其合作伙伴正在全球范围内加速建设 AI 基础设施,以实现更高水平的可靠性、效率和计算吞吐能力。这一体系的核心平台就是 NVIDIA 新推出的 NVIDIA DSX——一个面向“AI 工厂”的基础设施平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/56/560d03359a09e9f49edcfae37bb10088.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在数字孪生方面,NVIDIA 的 NVIDIA Omniverse 平台被设计用于承载全球规模的数字孪生模型。从地球级别的系统到各种规模的工业设施,未来都可以在这一平台上构建和运行数字孪生。黄仁勋特别感谢生态合作伙伴,并表示这些企业在过去几年中迅速加入 NVIDIA 的生态,共同建设可能是“世界上最大的计算系统”,并在全球范围内部署。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还透露,NVIDIA 的 AI 计算基础设施正在向太空延伸。公司此前已经在卫星领域部署计算系统,并计划与合作伙伴开发新的太空计算平台 Vera Rubin Space One,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,因此系统冷却将成为一项极具挑战的工程问题,目前 NVIDIA 正在与工程团队共同研究解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6ef916d83130200f9c8073510f96b7ef.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;联合 OpenClaw之父推出&amp;nbsp;NemoClaw&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲中对软件开发者影响最深远的部分是老黄对于最近爆火的“龙虾”现象的评论。黄仁勋高度评价了由 Peter Steinberger 创建的开源项目 OpenClaw。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,OpenClaw 的增长速度甚至超过了 Linux 在过去几十年的传播速度,其影响力“极其深远”。NVIDIA 也宣布将正式支持这一项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/8228f2db32767aceb5d53a3803f209ba.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋提到,AI大佬 Andrej Karpathy 最近提出的一种“AI 研究助手”模式很好地体现了智能体系统的能力:用户只需给 AI 一个任务,然后去休息,AI 便可以在后台自动运行数十甚至上百个实验,不断保留有效结果、淘汰无效方案。类似的案例正在不断出现。例如有人将 OpenClaw 安装在自己父亲的设备上,通过蓝牙连接酿酒设备,实现从生产流程到网站订单系统的全流程自动化,甚至在深圳已经出现用户排队购买相关产品的案例。随着这一项目迅速流行,社区甚至已经开始举办专门的开发者活动,足以说明其热度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋认为,从技术本质上看,OpenClaw 可以被理解为一种智能体计算机的操作系统。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;正因如此,OpenClaw 的意义类似于过去的关键基础软件。黄仁勋表示,就像 Linux 让个人计算机和服务器生态得以发展,Kubernetes 推动了云计算时代的基础设施,而 HTML 构建了互联网应用基础一样,OpenClaw 为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——“你的 OpenClaw 战略是什么?” 因为企业软件正在从传统工具型软件,转向以智能体为核心的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在传统企业 IT 架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生变化。黄仁勋认为,未来几乎所有 SaaS(Software as a Service) 公司都将演变为 AaaS(Agentic as a Service)——即以智能体为核心的服务平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。为此,NVIDIA 与 OpenClaw 作者 Peter Steinberger 以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出 NVIDIA NemoClaw 参考架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/9d/9ddf87f17fe0a404d32251fa6cb37597.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该架构在 OpenClaw 基础上加入了名为 OpenShell 的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行 AI 智能体。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推进开放模型生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还在推进开放模型生态。黄仁勋表示,现实世界的需求高度多样化,不可能由单一模型满足所有行业。因此,开放模型正在形成一个规模庞大的 AI 生态系统,目前已经包含接近 300 万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域。作为其中的重要贡献者,NVIDIA 已发布多条开放模型产品线,包括 Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并同时开放训练数据、训练方法和框架工具,以推动整个 AI 生态的发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 的开放模型之所以能够在多个榜单中处于领先位置,不仅因为其性能达到世界级水平,更重要的是公司会持续投入长期研发。“我们不会停止改进这些模型,”他说。例如 Nemotron 模型已经从 Nemotron 3 走向 Nemotron 4,Cosmos World Foundation Model 也从 Cosmos 1 发展到 Cosmos 2,而机器人模型 Project GR00T 也在不断迭代。NVIDIA 的策略是“纵向整合、横向开放”,在持续提升模型能力的同时,让整个生态都能参与到 AI 发展中来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还展示了 Nemotron 3 在智能体框架 OpenClaw 中的表现。根据公开评测数据,当前全球排名前三的模型均处于这一技术前沿。黄仁勋表示,NVIDIA 不仅希望构建领先的基础模型,更重要的是让开发者能够在此基础上进行微调和后训练,构建适用于不同领域的专用 AI 系统。为此,NVIDIA推出了 Nemotron 3 Ultra 作为新一代基础模型,并希望借此帮助各个国家和行业构建属于自己的 “主权 AI(Sovereign AI)”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步推动这一生态,NVIDIA 在大会上宣布成立 Nemotron Coalition。该联盟将与多家技术公司合作,共同推进 Nemotron 系列模型的发展。参与合作的公司包括图像技术公司 Black Forest Labs、AI 编程平台 Cursor、智能体开发框架 LangChain、欧洲 AI 公司 Mistral AI、AI 搜索平台 Perplexity AI、印度 AI 公司 Sarvam AI 以及 Thinking Machines Lab 等。黄仁勋表示,随着越来越多企业加入合作,AI 模型将能够覆盖从语言到生物、从物理到自动驾驶等广泛领域。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在企业软件层面,黄仁勋再次强调,未来所有公司都需要制定自己的 OpenClaw 战略。随着智能体系统的发展,传统的 SaaS 软件模式将逐渐转向 Agentic as a Service(AaaS)。企业不仅会使用 token 来增强员工生产力,还会通过 AI 工厂生产 token,并向客户提供智能体服务。他甚至预测,未来科技公司招聘工程师时,除了薪资外,还会提供“token 配额”,因为拥有更多 AI 计算资源的工程师能够获得更高的生产效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;除了数字智能体,NVIDIA 还在推进 物理 AI(Physical AI)。黄仁勋表示,目前全球几乎所有机器人公司都在与 NVIDIA 合作,现场展示的机器人数量超过 100 台。NVIDIA 为机器人开发提供完整技术体系,包括训练计算平台、合成数据与仿真平台,以及部署在机器人内部的计算系统。同时,公司还提供完整的软件和模型生态,例如机器人仿真与训练平台 NVIDIA Isaac Lab、世界模型 Cosmos World Foundation Model 以及机器人基础模型 Project GR00T。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/99/992411aed6580dcd6e779e05cfe49082.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在自动驾驶领域,黄仁勋表示“自动驾驶的 ChatGPT 时刻已经到来”。基于 NVIDIA Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。NVIDIA 还宣布新的 Robotaxi 合作伙伴,包括 BYD、Hyundai Motor Company、Nissan 和 Geely,这些公司每年合计生产约 1800 万辆汽车。同时,NVIDIA 还将与 Uber 合作,在多个城市部署自动驾驶出租车网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在机器人产业方面,NVIDIA 正与 ABB、Universal Robots、KUKA 等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。黄仁勋还提到,未来通信基础设施也将成为 AI 系统的一部分,例如 T-Mobile 的通信塔未来可能演变为“机器人 AI 基站”,能够实时分析交通和网络情况并动态调整信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在总结演讲时,黄仁勋表示,AI 产业正同时经历三大变革:AI 推理与 AI 工厂、智能体系统革命,以及物理 AI 与机器人时代。随着这些技术逐渐成熟,计算能力、AI 模型和基础设施将共同推动全球产业进入新的发展阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</guid>
      <pubDate>Tue, 17 Mar 2026 00:52:46 GMT</pubDate>
      <author>李冬梅</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>国内首个国产AI推理千卡集群落地梁文锋家乡,采用云天励飞全自研AI推理芯片</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/e7/bdf9600354c5a761e126505b32d6b0e7.png&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI算力从“训练优先”走向“推理优先”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的 Seedance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Gartner 预测,到 2026 年,终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约55%的AI专用云基础设施支出将用于推理工作负载。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;面向推理时代的千卡集群架构&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;自研芯片构建低成本推理能力&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。&lt;/p&gt;&lt;p&gt;根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</guid>
      <pubDate>Thu, 12 Mar 2026 03:55:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>传字节今年要造10万颗推理芯片,1600 亿预算砸向AI!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/44/51/44bd7c5dd1b98a4e9a2edaa8afcf1551.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;近日,据两位知情人士透露,字节跳动正研发AI芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为AI 推理任务设计,公司计划今年至少生产10 万颗,并有望逐步将产能提升至35 万颗。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&quot;&gt;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</guid>
      <pubDate>Wed, 11 Feb 2026 09:40:36 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/b6/6d/b63c9c9733211c111d3a1b60fdb3036d.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/88/882ad7697fdc8328b84b398e401f293d.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能的繁荣与底层的“枯竭”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中最核心的一环,正是高性能算子的开发。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;KernelCAT:计算加速专家级别的 Agent&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/8f/8faf0bf997be96bcfd5f8bcb5396620f.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/69/6920f6c41c59b89f3d72dd73255fd27b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为国产芯片生态写高性能算子&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/90/90a7b4e9f17290018d9342b3ed31e0a4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;没有坚不可破的生态,包括 CUDA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上&quot;说上了母语&quot;。实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://kernelcat.cn/&quot;&gt;KernelCAT 限时免费内测&lt;/a&gt;&quot;中,点击链接,马上体验~&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/14/140a6c0e97d8e4f35ef00ee8f4f9f40e.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</guid>
      <pubDate>Fri, 30 Jan 2026 09:46:03 GMT</pubDate>
      <author>InfoQ</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9f/e5/9f01dbbbe47906ef536a31f2a1f344e5.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;采访嘉宾 | 天数智芯 AI 与加速计算技术负责人 单天逸&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那一刻,下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断,被放到了更公开也更严苛的舞台上,谁能撑起资本市场和大众期待,谁就能撑起市值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式,把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中,围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考,天数智芯公布了过去一代以及未来三代的架构路线图:&lt;/p&gt;&lt;p&gt;2025 年,天数天枢架构已经超越英伟达 Hopper,在 DeepSeek V3 场景中实测性能数据超出 20%;2026 年,天数天璇架构对标 Blackwell,新增 ixFP4 精度支持;2026 年,天数天玑架构超越 Blackwell,覆盖全场景 AI/加速计算;2027 年,天数天权架构超越 Rubin,支持更多精度与创新设计。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/93a5511a47ea59c34947fa5622e43f57.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;国产 GPU,开启 AI++ 计算新范式&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;根据天数智芯公布的架构路线图及阶段发展目标,在 2027 年之前,天数智芯将通过多代产品完成对英伟达的追赶;在 2027 年之后,将转向更富创新性的架构设计,聚焦更具突破性的超级计算芯片架构设计。看似宏大,但对于仍处于爬坡阶段的国产 GPU 行业来说,这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越,国产 GPU 才有资格进入更大规模的生产环境中。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而在规模化落地阶段的竞争,焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料,当算力消耗开始对标真实业务产出,无论是国际顶尖 GPU 厂商还是国内 GPU 企业,核心命题都只有一个:如何在真实业务中,把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一命题,天数智芯提出了两条明确的架构判断:其一,回归计算本质;其二,提供高质量算力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;回归计算本质,核心在于“不设限”&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去十年,规模的快速扩张带来了阶段性的产业繁荣,也使得算力实现野蛮增长。但这种粗放式发展,也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例,路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此,计算、通讯、存储都会带来各种障碍。所以,幻想奔跑在平坦的赛道上毫无意义,产业真正需要的,是能够翻山越岭的全能越野车。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/64/64709d562cae987749119744a750d556.webp&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;广义上,芯片可分为专用芯片和通用芯片:专用芯片类似“应试教育”,它的优势和边界都很清晰,能加速特定算法、特定指令,比如矩阵乘法、Softmax 这些主流任务,但一旦计算范式发生变化,适应空间就会迅速收紧;通用芯片的设计哲学,不是为了押中某一类算法,而是回归计算本质,覆盖更广泛,甚至全新的计算需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来,硬件与算法的关系本来就不应该相互掣肘,算力的僵化不应限制算法的进化,而是通过通用算力为探索未知算法提供一个坚实的底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑探索未来算法的关键,实则就是“不设限”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于这一判断,天数智芯的芯片设计哲学,在计算层面追求的是覆盖几乎所有的数学运算图谱,而非某一类、某一种计算:从 Scalar、Vector、Tensor 到 Cube,支持从高精度科学计算到 AI 精度计算,从 MMA 到 DPX,不管是 AI 的 Attention 机制、前沿的科学计算,还是未来的量子计算相关模拟,天数智芯全都支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在执行层面,追求的是更高的算力利用率:大、中、小任务会被精准分配到不同的计算单元中执行,配合高密度的多任务核心设计,算力可以被拆解、调度得更加精细,从而减少算力浪费,提高计算效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/d2/d21f6e06061719cd4a9a199eb6e5fed0.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种“不设限”的设计哲学,让天数天枢架构得以实现三大创新,这也是天枢能够超越英伟达 Hopper 架构的根因:&lt;/p&gt;&lt;p&gt;TPC BroadCast(计算组广播机制)设计:不是简单粗暴地放大带宽,而是从单位带宽的使用效率入手,存在相同地址的数据时,芯片内部的 load store 单元不会进行重复、无用的访问,而是在上游进行 BroadCast,减少不必要的内存访问次数,从而有效降低访存功耗,等效提升访存带宽,用更小的功耗和面积实现相同的功能。Instruction Co-Exec(多指令并行处理系统)设计:在指令执行层面,通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力,不仅支持 Tensor Core 与 Vector Core 的并行协同,还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中,通过极低的成本增强了不同指令之间的并行处理能力,无论是 MLA、Engram,还是面向更复杂模型场景的计算需求,都可以在这一并行框架下被同时处理,从而提升整体执行效率。Dynamic Warp Scheduling(动态线程组调度系统)设计:随着 MoE 架构在大模型中被广泛采用,模型厂商普遍面临推理效率低等现实挑战。为提升并行度,微架构层面允许芯片中同时驻留更多 warp,但 warp 的增加也意味着对计算资源的竞争更为激烈。为此,天数智芯首创了 Dynamic Warp Scheduling 机制,通过动态调度让不同 warp 在资源使用上实现有序协作,避免计算资源闲置,也减少了对同一资源的无序争抢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这三项设计的出发点本质上都指向相同的目标:高性能与高效率。数据显示,这些创新让天数天枢的效率较当前行业平均水平提升 60%,基于这些效率优势,实现在DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从这三项设计中可以看出,天数智芯在架构层面的创新,并不是围绕某一个具体模型或算子展开,而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示,在天数智芯提出 Dynamic Warp Scheduling 设计之前,几乎没有人从调度机制的角度去思考,还能为 MoE 带来哪些性能空间。从更深层次意义来看,这类微架构层面的调度和优化,一直是英伟达、AMD 等巨头保持领先的“内功”,天数智芯在这些单点上的突破,实际上也是国产 GPU 向顶级玩家看齐的重要一步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;提供高质量算力:高效率、可预期、可持续&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在天数智芯的架构语境中,回归计算本质并不是一个抽象的口号,而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责,高质量算力才成为可能。基于这一判断,天数智芯将高质量算力拆解为三个核心维度:高效率、可预期与可持续。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/7a/7ace836faccd159427d7c71b330df3ca.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;高效率意味着能为客户创造最优的 TCO(总体拥有成本),节省使用成本;可预期则通过精准的仿真模拟,让客户在拿到芯片、部署算力之前,就能清晰预判最终的性能表现,做到所见即所得;可持续指的是从现在主流的 CNN、RNN,到当下火热的 Transformer,再到未来还未诞生的全新算法,算力始终能无缝适配。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这三个方向,天数智芯在架构及系统设计上,选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项,其实哪个都值得单独展开探讨。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;比如,基于“不设限”的设计理念,在当前 PD 分离的架构下,天数智芯的 GPU 不只做计算,还支撑通信、KV 数据传输这些关键任务,通过打造 Ⅸ 并行任务处理模块,GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务,让它们并行不冲突。在真实业务场景中,该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/b4/b473b037acf6e72c5b667dd838e26e33.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为了提高算力可持续性,天数智芯统一了芯片内、外,来构建算力系统,并通过不断更新的软件栈和软件系统,三类库共同支持和保障多场景的高效运行。其中,AI 库、通讯库(ixccl)、加速计算库是基石,在基石之上,直接支撑各类神经网络模型CNN、Transformer、LSTM 与高性能计算的各个领域,并以此提供各类 AI 应用,包括支持 AI4Sci 的相关应用,如蛋白质结构预测(AlphaFold)、医疗影像分析(Clara)、气候模拟(Earth2)等,以及量子计算的平台 cudaQ、分子动力学 Gromacs,大规模方程组求解器 HPL 等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这套算力系统被命名为 IXAI++,寓意为自我迭代,不止于 AI。其最终的目标是,成为一座连接算法创新与物理世界的桥梁,带领人类科技通往未知探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但给业内带来最多惊喜的,是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题,后者解决的是企业部署算力系统最头疼的不可控难题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型推理场景中,长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上,Attention 的执行效率依然不高,如果不对其进行针对性优化,首字延迟将明显偏高,模型响应速度差,推理成本高昂,最终影响大模型在真实业务中的可用性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一痛点,天数智芯设计了 Ⅸ Attention 模块,从底层对 Attention 的执行路径进行重构:Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子,Ⅸ Attention 模块的核心思路,是将这些分散的组件有机地拼装到一起,如同指挥一支乐队一般,确保多种乐器能够和谐共鸣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/19/1931cf31a98c3a57d61ca5cbaf8caa44.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“其中的技术难点在于调度,多种乐器需要同时演奏,任何一个环节拖慢节奏,都会成为整个系统的瓶颈”,单天逸表示,在实际的长上下文推理中,Ⅸ Attention 模块有效改善了 Attention 的执行效率,带来了约 20% 的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;针对企业部署算力系统最头疼的不可控难题,天数智芯搭建了 IX-SIMU 全栈软件仿真系统,这套仿真系统的目标,就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真,能精准输出任意模型的性能表现,提升算力在真实场景中的可控性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c1/c15d79ed9346cf49898ee0193b585926.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;单天逸表示,在算力系统的仿真与评估中,最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于,能够对底层指令执行进行精细建模。在实际使用中,用户只需输入软件代码,IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件,匹配网络拓扑,再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略,最终精准输出 Deepseek、千问等任意模型的性能表现,实现从单卡到万卡集群的 “精密扩展”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕高效率、可预期、可持续三大判断,天数智芯在算力侧从硬件架构到系统设计进行了整体布局,并用未来三代架构路线图提前回答下一个问题:当算力僵化开始掣肘未来计算,架构层还能怎么演进?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;决定上限的,最终还是应用和生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;架构代表的其实是下限,决定上限的,最终还是应用和生态。数据显示,截至 2025 年年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用,服务客户数量超过 300 家,并通过软硬件协同优化,完成 1000+ 次模型部署,让产品能力真正达到商用级别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑这些场景应用的,早已不是一个产品的能力范畴,而是“产品 + 解决方案” 双轨模式,这一模式其实与英伟达定位非常相近,聚焦的都是解决方案落地。在大模型深入产业应用的当下,这套组合打法相当务实,毕竟应用落地才是唯一真理,谁能在企业真实业务场景中快速部署、持续稳定运行,谁就能赢得先机。在速度和兼容性上,天数智芯也交出了一份不错的答卷:国内新的大模型发布当天便能跑通,目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子,数千卡集群稳定运行超 1000 天。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这次发布会上,天数智芯面向物理 AI 场景落地,一口气发布了四款边端算力产品“彤央”系列:包括边端 AI 算力模组 TY1000、TY1100,以及边端 AI 算力终端 TY1100_NX、TY1200。 据了解,“彤央”系列产品的标称算力均为实测稠密算力,覆盖 100T 到 300T 范围。数据显示,在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中,彤央 TY1000 的性能全面优于英伟达 AGX Orin。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在发布会中,天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用:具身智能领域,为格蓝若机器人提供高算力、低延迟的“大脑”支撑;在工业智能领域,落地园区与产线,推动产线自动化升级;在商业智能领域,瑞幸咖啡数千家门店部署彤央方案,高效处理视频流、挖掘消费数据价值;在交通智能领域,与“车路云一体化”20 个头部试点城市合作,验证车路协同方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整体来看,天数智芯走的路线虽然是底层技术自研,但在生态上并非封闭。在生态建设上,天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议,进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态,持续开放底层能力,降低开发者迁移和使用门槛。未来,天数智芯还会持续增加在生态共建上的资本与人力投入,从应用到芯片与开发者一同优化 AI 应用系统,共同为应用落地提供性能、性价比与生态易用的价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从底层架构到产品,从应用到生态,国产算力正在实现完整闭环,这种从芯片到生态的协同能力,不仅让国产算力更可用、更可持续,也为行业探索新模式提供了更多想象空间。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</guid>
      <pubDate>Thu, 29 Jan 2026 06:54:56 GMT</pubDate>
      <author>凌敏</author>
      <category>企业动态</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>从算力规模到系统级竞争:智算竞争核心已变,金山云战略升级曝行业“隐形拐点”</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/1f/bd2b4b1668393b4b5d9bf91cf845761f.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;从训练到推理:智算需求正在经历一场结构性转向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在2026年1月21日举办的金山云年度Tech Talk上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token如何被消耗、算力如何被组织展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;变化首先体现在财务数据上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以2025&amp;nbsp;年第三季度为例,智算云账单收入达到7.8亿元人民币,同比增长接近120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理侧的变化更加显著。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日Token调用量已达到50万亿级别。这是当前国内少数被明确对外公布的Token规模数据之一,也成为行业理解推理负载的重要参考。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动Token消耗快速增长。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在所有推理场景中,编程类应用被反复强调。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;刘涛指出,2025年一个尤为显著的变化在于:编程相关请求正在成为Token消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code的大量代码本身,正是由Claude Code参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从全球Token调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;&lt;/p&gt;&lt;p&gt;其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;&lt;/p&gt;&lt;p&gt;其三,Vibe Coding在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了满足更多元化的需求,刘涛表示,2025年,智算平台金山云星流已完成从资源管理平台向一站式AI训推全流程平台的战略升级。从训推平台、机器人平台到模型API服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型API服务商业化落地的全链路闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;实现三维进阶,智算云AI势能全释放&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管各行各业大规模应用AI还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈AI能力。从2023年的智算网基础设施,到2024年智算云的平台化和Serverless化,再到2025年的一站式AI训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接AI应用爆发做好了充分准备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的AI开发体验。自研的GPU故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;面向大模型应用开发者和企业用户,金山云星流平台模型API服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型API服务已积累诸多行业客户。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近40种不同模型,包括DeepSeek、Xiaomi MiMo、Qwen3、Kimi等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦AI业务创新和价值创造。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</guid>
      <pubDate>Tue, 27 Jan 2026 03:58:35 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>聚焦算力市场痛点,嘉唐算力供应链平台重磅发布</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/4d/34/4d3f7yy64d506d55f7b8018028747e34.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在近期举行的第五届AIGC开发者大会上,上海嘉唐科技发布了名为“算力供应链服务平台”的全栈式解决方案。该平台以“生态共建,供需协同”为理念,围绕算力交易、金融配套、资产管理及算电协同等维度展开设计,旨在应对当前算力行业存在的价格透明度低、流程不规范、服务缺乏标准化及供需匹配效率不高等问题,致力于为构建全国算力服务统一市场提供技术支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当前,算力作为数字经济发展的重要基础设施,已成为衡量新质生产力的关键指标之一。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据统计,近五年来我国算力产业规模年均增速超过30%,但与此同时,行业仍面临资源结构性失衡、整合程度不足等制约高质量发展的挑战。为此,市场上陆续出现多种服务模式探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;嘉唐科技此次推出的平台整合了撮合与直营等模式,尝试在供需对接、资源保障、产业链协同及能耗优化等方面提供系统性支持,其中算电协同方案通过引入绿电直供等方式,尝试推动算力行业能耗成本优化与绿色化转型。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从平台架构来看,其采用“1+3+N”的设计思路,即一个综合服务底座,涵盖算力交易、资产管理、金融服务三大核心模块,并计划拓展至多个行业应用场景。该架构试图在资源整合、智能调度与服务标准化等方面做出探索,与行业主管部门推动的算力互联互通方向具有一定的契合性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在生态合作方面,多家来自能源、金融、科技等领域的企业参与了此次发布仪式,并表达了在资源共享与产业协同方面的合作意向。行业分析指出,此类跨领域协作有助于将企业单体优势扩展为产业链整体效能,对推动AI技术在不同行业的落地应用可能形成一定支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;业内观察显示,随着算力在经济社会各领域渗透不断加深,构建开放、高效、协同的算力供应链体系逐渐成为行业共同关注的议题。相关平台的出现,反映了市场主体在整合算力资源、提升服务能效方面的尝试,其长期成效仍有赖于技术可靠性、模式可持续性及行业协同机制的进一步完善。在算力市场竞争日趋全球化、绿色化的背景下,此类探索也为推动产业高质量发展提供了可供观察的案例。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</guid>
      <pubDate>Tue, 20 Jan 2026 09:59:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>MUSA开发者大赛丨GEMM优化挑战赛火热开启!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/fb/74/fb8b0824bb93b0825f442f79a92c3474.jpg&quot; name=&quot;cover&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;MUSA开发者集结!与摩尔线程算力共振,谁将登顶矩阵乘法的性能巅峰?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;国产算力生态的崛起,不仅需要坚实可靠的硬件基座,更呼唤能够彻底释放硬件潜能的极致软件优化能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;GEMM(通用矩阵乘法),正是衡量软件能力的核心标尺。作为触达GPU算力峰值、检验架构效率与存储带宽极限的核心算子,它既是验证硬件潜力与软件栈成熟度的试金石,也是每一位追求极致的开发者渴望征服的“性能圣杯”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此刻,我们诚邀所有心怀极致追求的开发者,共同开启这场极限挑战——基于摩尔线程训推一体全功能智算卡&amp;nbsp;MTT S4000,在MUSA架构GPU上深度优化GEMM,共同挑战GPU的性能巅峰。在这里,用你的代码与智慧,亲手将矩阵乘法的性能推向极限!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;赛题丨FP16 GEMM Kernel 极致性能开发&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次挑战赛聚焦于底层&amp;nbsp;Kernel 开发,要求参赛者在摩尔线程MTT S4000上,将FP16精度的通用矩阵乘法(GEMM)性能优化到极致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;计算任务:在&amp;nbsp;MTT S4000 上,实现矩阵乘法(M=8192, N=8192, K=16384)的高性能计算。精度要求:计算采用FP16进行乘加运算,中间累加过程使用FP32。硬件架构:所有优化工作须基于MTT S4000的硬件特性展开,参赛者需深入研究并充分利用其特性。优化边界:禁止调用muBLAS/muDNN 等高层库。鼓励参赛者深挖共享内存分块、寄存器优化等硬件潜力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;评分丨严谨性与高性能的统一&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最终比赛结果由主办方统一依据官方评测方案进行综合评定,总分为正确性与性能两部分之和,缺一不可。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 正确性测试:不容有失的基石&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;测试范围:参赛代码必须通过主办方设置的四组不同规模的测试用例验证。精度要求:计算结果必须严格准确。与官方muBLAS库提供的参考结果相比,每个元素的相对误差必须控制在1e-2以内。一票否决:任一测试用例失败,或任一输出元素误差超限,则正确性部分得分为0,且将直接终止评测,无法进入后续性能评估环节。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 性能评估:追求极致的竞技场&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;评估标准:在通过全部正确性测试后,性能评估将在本次比赛的核心规模——8192 x 8192 x 16384上展开。系统将进行多次迭代测试,取平均GFLOPS作为性能指标。评分参考:为帮助参赛者了解自身优化水平,我们将根据参赛者代码性能相对于官方muBLAS基线性能的百分比效率,进行线性插值计算,提供一个参考性分数。绝对排名:比赛的最终官方成绩与总排名,严格依据在标准评测环境下测得的绝对GFLOPS性能值进行排序。性能越高,排名越前。自测工具:我们为参赛者提供了性能绝对值测试脚本,参赛者可自行读取并分析Kernel的实际性能数据,以便进行针对性优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;资源丨云端环境与算力支持&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;摩尔线程将为每一位参赛者提供专业、完备的云端开发环境与算力支持。如下设计致力于最大限度地消除环境差异,确保参赛者自测的性能结果具有高度参考价值,助力大家精准优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算力平台:我们将提供本次赛题指定硬件MTT S4000的云端算力资源供参赛者调优、测试。参赛账户:每位参赛者将获得一个专属的AutoDL子账号,确保开发环境

...

@github-actions github-actions bot added the auto: not ready to review Users can't get the RSS feed output according to automated testing results label Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

http://localhost:1200/infoq/recommend - Failed ❌
HTTPError: Response code 503 (Service Unavailable)

Error Message:<br/>FetchError: [POST] &quot;https://www.infoq.cn/public/v1/article/getDetail&quot;: 451
Route: /infoq/recommend
Full Route: /infoq/recommend
Node Version: v24.14.1
Git Hash: 853418c0

@github-actions github-actions bot removed the auto: not ready to review Users can't get the RSS feed output according to automated testing results label Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 03:13:13 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>35 年只卖设计,今天亲自下场造芯!Arm 首款自研芯片发布,Meta 抢下首单</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/96/bd2a783fdb8597628458b8acc4e02096.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;36年来,半导体与软件公司 Arm 一直将芯片设计授权给英伟达、苹果等企业使用,如今终于开始自主研发并制造自有芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在近日举办的发布活动上,该公司正式推出一款面向AI数据中心推理场景、可直接量产的处理器Arm AGI CPU。这家英国企业基于自研Neoverse系列CPU IP内核,并与Meta合作完成了这款芯片的开发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,Meta也是Arm AGI CPU的首位客户,该芯片专为与Meta的AI训练及推理加速器协同工作而设计。Arm的首批合作方还包括OpenAI、Cerebras、Cloudflare等多家科技公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;市场对Arm转型自研芯片的动向早有预期。据外媒报道,该公司早在2023年便启动了芯片研发工作,目前相关处理器已开放订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管此举在预料之中,却标志着Arm历史性地打破了长期以来仅向其他芯片厂商授权设计的传统模式。这家由日本软银集团控股的公司,未来将与众多合作伙伴直接展开竞争。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm选择推出CPU而非GPU,这一点同样值得关注。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代理式AI基础设施崛起&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI系统正日益以全球规模持续运行。在过去,人是计算环节的瓶颈——人们与系统的交互速度决定了工作推进的速度。而在代理式AI时代,因为软件智能体可自主协同任务、与多个模型交互,并实时做出决策,这种局限性将不复存在。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着AI系统持续运行且工作负载复杂度不断提升,CPU已成为现代基础设施中决定运行节奏的关键要素——负责保持分布式AI系统大规模的高效运行。在现下的AI数据中心中,CPU管理数千个分布式任务,包括协调加速器、管理内存与存储、调度工作负载、跨系统迁移数据,加上当今的代理式&amp;nbsp;AI场景兴起,CPU&amp;nbsp;还需面向海量智能体实现大规模协同调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这一转变对CPU提出了全新要求,驱动处理器架构的演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm Neoverse 现已成为当今众多领先超大规模云服务及AI平台的核心支撑,包括Amazon&amp;nbsp;Graviton、Google&amp;nbsp;Axion、Microsoft&amp;nbsp;Azure Cobalt&amp;nbsp;及&amp;nbsp;NVIDIA&amp;nbsp;Vera&amp;nbsp;等。随着AI基础设施在全球范围内不断扩展,生态系统的合作伙伴纷纷期待Arm&amp;nbsp;能够提供更多能力。为应对这一变革,Arm AGI CPU应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Arm AGI CPU:专为机架级代理式AI效率而生&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代理式AI&amp;nbsp;工作负载需要在大规模场景下实现持续稳定的性能输出。Arm AGI CPU&amp;nbsp;正是为此而设计,能够在数千核心并行的持续高负载下,为每个任务提供高性能表现,且满足现代数据中心功耗与散热的严格要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从运行频率到内存及I/O架构,Arm AGI CPU的每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的代理式&amp;nbsp;AI&amp;nbsp;工作负载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成两颗CPU&amp;nbsp;芯片,并配备独立内存与&amp;nbsp;I/O,共计&amp;nbsp;272 个核心。这些刀片服务器可在标准风冷&amp;nbsp;36 千瓦&amp;nbsp;(kW) 机架中满配部署,30 台刀片服务器可提供总计&amp;nbsp;8160 个核心。此外,Arm 还与&amp;nbsp;Supermicro 合作推出&amp;nbsp;200 千瓦&amp;nbsp;(kW) 液冷设计方案,可容纳&amp;nbsp;336 颗&amp;nbsp;Arm AGI CPU,提供超过&amp;nbsp;45000 个核心。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在该配置下,凭借Arm架构的根本优势,以及系统资源与计算能力的精准匹配,Arm AGI CPU 可实现单机架性能达到最新x86系统的两倍以上:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Arm AGI CPU具备业界领先的内存带宽,使每个机架能够支持更多高效执行的线程;相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降;高性能、高能效的单线程&lt;a href=&quot;https://www.arm.com/products/silicon-ip-cpu/neoverse/neoverse-v3&quot;&gt;Arm Neoverse V3处理器&lt;/a&gt;&quot;核心性能出众,优于传统架构——每个Arm线程可处理更多任务;更多可用线程与更高单线程处理能力相互叠加,最终实现单机架性能的大幅提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm AGI CPU已获得合作伙伴的认可,这些合作伙伴均处于代理式AI基础设施规模化部署的前沿领域。计划部署场景涵盖加速器管理、代理式&amp;nbsp;AI&amp;nbsp;协同调度,以及支撑代理式&amp;nbsp;AI&amp;nbsp;任务规模化扩展所需的服务、应用与工具的高密度部署,同时还包括为AI数据中心提供更强的网络与数据面计算能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化吉瓦级规模基础设施,并与Meta自研的MTIA加速器协同运行。其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯——这些企业均与Arm合作部署Arm AGI CPU,以加速云、网络及企业环境中的AI驱动型服务落地。目前,永擎电子、联想及Supermicro已开放商用系统订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为进一步加速产品采用,Arm推出Arm AGI CPU 1OU双节点参考服务器,该服务器采用符合开放计算项目&amp;nbsp;(Open Compute Project,OCP)的DC-MHS标准规格设计。Arm计划向社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;图形处理器(GPU)因承担AI模型训练与运行任务而备受瞩目,而CPU在数据中心机架中同样扮演着不可或缺的关键角色。Arm在主推这款CPU时强调,此类芯片负责处理成千上万项分布式任务,包括内存与存储管理、任务调度、系统间数据传输等。该公司表示,CPU已成为“现代基础设施的节奏核心,保障分布式AI系统实现高效规模化运行”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm指出,这一趋势对CPU提出了全新要求,也推动处理器必须迭代升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,全球CPU供应也日趋紧张。据外媒此前报道,今年3月,英特尔与AMD均告知中国客户,受CPU短缺影响,产品交付周期将进一步延长。随着短缺状况加剧,电脑产品价格也已开始上涨。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&quot;&gt;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</guid>
      <pubDate>Wed, 25 Mar 2026 03:53:18 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>英伟达联手 Akamai:AI Grid 背后的 Token 成本与吞吐博弈</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/73/e6/73a91bfcbb4d60e78aa703a2bf7e3fe6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026年3月18日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的NVIDIA® AI Grid参考设计实施方案 。通过将NVIDIA AI基础设施集成到Akamai的架构中,并利用网络层面的智能工作负载编排,Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此举标志着去年底推出的&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-inference-cloud-transforms-ai-from-core-to-edge-with-nvidia&quot;&gt;Akamai Inference Cloud&lt;/a&gt;&quot;&amp;nbsp;在演进中迈出重要一步。作为首家实现AI网格运营化的公司,Akamai正部署&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-to-deploy-thousands-of-nvidia-blackwell-gpus-to-create-one-of-the-worlds-most-widely-distributed-ai-platforms&quot;&gt;数千个&lt;/a&gt;&quot;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/&quot;&gt;NVIDIA RTX PRO 6000 Blackwell服务器版GPU&lt;/a&gt;&quot;的平台,为企业提供能够运行智能体和物理AI的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“AI工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics),”Akamai云技术事业部首席运营官兼总经理Adam Karon表示 。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在4400个站点以合适的成本和时间路由AI工作负载”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“Token经济”的架构&amp;nbsp;&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI Grid的核心是一个智能编排器,充当AI请求的实时代理 。通过将Akamai在应用性能优化方面的专业知识应用于AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾AI工作负载提供了巨大的成本和性能优势 。例如:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质GPU周期 。Akamai Cloud基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型AI操作。实时响应能力:游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。核心节点的生产级AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/products/ai-enterprise/&quot;&gt;NVIDIA AI Enterprise&lt;/a&gt;&quot;、&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/&quot;&gt;Blackwell架构&lt;/a&gt;&quot;和&lt;a href=&quot;https://www.nvidia.com/en-us/networking/products/data-processing-unit/&quot;&gt;NVIDIA BlueField DPU&lt;/a&gt;&quot;,Akamai能够管理跨边缘和核心位置的复杂服务等级协议 :&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;边缘(4,400+个站点):为物理AI和自主智能体提供极速响应 。它利用语义缓存和WebAssembly等服务器端功能(Akamai Functions和EdgeWorkers)提供模型亲和性和稳定的性能 。Akamai Cloud IaaS与专用GPU集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而Blackwell GPU阵列则助力繁重的后训练和多模态推理 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;NVIDIA电信业务发展全球副总裁Chris Penrose表示:“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将NVIDIA AI Grid投入运营,Akamai正在构建生成式、代理式和物理AI的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一波AI基础设施由少数几个中心化地点的海量GPU集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建AI代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</guid>
      <pubDate>Tue, 24 Mar 2026 03:15:34 GMT</pubDate>
      <author>Akamai</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token 成本全球最低;2027 营收将到 1 万亿;Feynman 架构已在路上;</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/11/f4/115d52389f4a43db78a749c9b88b06f4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/5f/5fb74fd8c08eca05c28144f0711ed342.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;北京时间2026年3月17日凌晨两点半,当英伟达 CEO 黄仁勋穿着那件标志性的黑色皮衣踏上SAP中心的舞台时,台下近万名开发者心里清楚:这一次,老黄要讲的不是某个单一芯片,而是一整套AI“全家桶”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款“前所未见的芯片”,被普遍认为是采用台积电1.6nm&amp;nbsp;制程、引入光通信技术的下一代Feynman架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今天揭晓的Feynman架构、Vera Rubin平台的量产进展,以及面向企业级自主代理的开源平台NemoClaw,不过是这座基础设施落地所需的“钢筋水泥”。黄仁勋用两个小时向资本市场证明了一件事:英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为“数万亿美元AI基建时代”搭建完整技术栈的“总包工头”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;回顾 CUDA 20年:安装基数引爆飞轮,GPU算力成本持续下降&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;演讲刚开始,黄仁勋用近十分钟篇幅,回溯了CUDA架构诞生20年的演进历程。他将这套软件生态定义为英伟达一切业务的“中心”,并直言:真正难以复制的壁垒,是底层的安装基数。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“二十年来,我们一直致力于这种革命性架构——单指令多线程(SIMT),让开发者编写的扩展代码能够轻松生成多线程应用,编程难度远低于传统方法。”黄仁勋回忆道。他特别提到近期引入的“tiles”(张量核心编程块)功能,旨在帮助开发者调用Tensor Core以及支撑当今AI的数学结构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如今,围绕CUDA已形成庞大的工具链生态:数千种工具、编译器、框架和库;仅开源领域就有数十万个公开项目。“CUDA真正融入了每一个生态系统,”黄仁勋说,“这张图,基本上描述了100%的媒体战略——你们从一开始就看我讲这张幻灯片。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/84/84b6bc25cb1fa808e64e51b5de28dbaa.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他随后指向图表底层:“最难实现的东西在这里——安装基数。我们花了20年,才在全球建立起数亿块运行CUDA的GPU和计算系统。我们在每一朵云里,在每一家计算机公司里,服务几乎每一个行业。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋将这套逻辑总结为“飞轮效应”:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“CUDA的安装基数,是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,带来技术突破——比如深度学习,还有很多其他领域。这些突破催生全新市场,围绕它们形成新的生态,更多公司加入,进而扩大安装基数。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他称这一飞轮正在加速:“NVIDIA库的下载量增长极快,规模巨大,增速前所未有。这个飞轮让计算平台能够承载如此多的应用和突破,更重要的是,它赋予了这些基础设施极长的有效生命周期。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;背后的逻辑很直接:CUDA支持的应用程序范围足够广,覆盖AI生命周期的每一个阶段,对接每一种数据处理平台,加速各类科学原理求解器。“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当安装基数足够大、飞轮足够快、开发者触达足够广,并且软件持续更新时,结果就是计算成本不断下降。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“加速计算让应用性能大幅提升,而我们在其生命周期内持续优化软件,”黄仁勋总结道,“你不仅获得初期的性能跃升,还能获得持续的算力成本降低。我们愿意支持全球每一块GPU,因为它们架构兼容。为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他最后补充道:“这套动态机制,让NVIDIA架构不断扩展应用范围,加速自身增长,同时降低计算成本,最终催生新的增长。CUDA就在这一切的中心。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为结尾的轻松注脚,黄仁勋提及了GeForce的历史:“我知道你们中有多少人是从GFORCE成长起来的——那是最棒的市场营销,我们在很早之前就开始吸引未来的客户。”&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为数据处理打造新的核心软件库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;演讲中,老黄提到下面这张图是本场演讲中最重要的一张图,因为里面提到了英伟达为数据处理打造的新的核心软件库。老黄在演讲中谈到,随着 AI 的快速发展,全球数据处理体系正迎来一次结构性的变革,其中最核心的变化,是结构化数据与非结构化数据的全面加速。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/05/05fdddc05dd6bc73f4685555bc058402.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋指出,长期以来企业计算的基础建立在结构化数据之上。无论是 SQL、Spark、Pandas 等技术体系,还是诸如 Snowflake、Databricks、Amazon 的 EMR、Microsoft 的 Azure Fabric,以及 Google 的 BigQuery 等大型数据平台,本质上都在处理一种核心数据结构——数据框(DataFrame)。这些数据框可以被理解为巨型电子表格,承载着企业运营和业务决策所依赖的关键信息,是企业计算体系中的“事实来源”(ground truth)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去,对结构化数据的加速主要是为了提升企业的数据分析效率:让计算任务完成得更多、成本更低,并且能够在一天内更频繁地运行数据处理流程,从而让企业运营更加高效、更加同步。但在 AI 时代,这一逻辑正在发生变化。黄仁勋表示,未来不仅人类会使用这些数据结构,AI 系统和智能体(Agent)也将直接访问和使用结构化数据库,而 AI 的处理速度远远快于人类,这意味着数据处理基础设施必须获得数量级的性能提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/a7/a77054d74f495ee94b71011c7e669e9a.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,另一类更庞大的数据也正在成为 AI 时代的重要资源——非结构化数据。黄仁勋指出,向量数据库、PDF 文档、视频、语音和演讲内容等都属于非结构化数据。全球每年产生的数据中,大约 90% 都是非结构化数据。然而在很长一段时间里,这些数据几乎无法被计算系统有效利用,人们只是阅读这些内容,然后把它们存储在文件系统中,却很难对其进行查询和搜索。其根本原因在于,非结构化数据缺乏可直接建立索引的结构,要使用这些数据,首先必须理解其语义和目的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 AI 的多模态理解能力正在改变这一状况。正如 AI 已经在多模态感知和理解方面取得突破一样,同样的技术可以用于读取 PDF、理解视频和语音内容,并将其语义信息嵌入到可计算的数据结构中,从而使这些数据能够被搜索、查询和分析。换句话说,AI 正在把原本难以利用的海量非结构化数据转化为可计算的信息资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了支持这一转变,NVIDIA 构建了两项关键基础技术。黄仁勋表示,就像当年为 3D 图形计算推出 RTX 技术一样,NVIDIA 现在为数据处理打造了新的核心软件库。其中 cuDF 用于加速数据框计算,主要面向结构化数据处理;而 cuVS 则面向向量存储和语义数据,用于处理非结构化数据和 AI 数据。这两项技术将成为未来数据基础设施中最重要的平台之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋透露,目前这两项技术正在逐步融入全球复杂的数据处理生态系统。由于数据处理产业已经发展了数十年,围绕它已经形成了大量公司、平台和服务,因此将新的加速技术深度整合进整个生态需要时间。但 NVIDIA 已经看到越来越多的合作伙伴开始采用这些技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,IBM——SQL 的发明者之一,也是历史上最重要数据库技术的推动者——正在利用 cuDF 来加速其数据平台 IBM watsonx.data。在黄仁勋看来,这类合作标志着 AI 正在逐步重塑整个数据处理基础设施,使企业能够同时高效利用结构化数据和海量的非结构化数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI 原生行业的爆发和英伟达万亿美金的信心&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI重塑整个基础设施的另一个标志是涌现出海量的AI原生企业。去年,这个行业经历了史无前例的飞跃。风险投资对初创公司的投入高达 1500 亿美元,创人类历史之最。投资规模也从千万美元级跃升至数十亿美金级。究其原因,是这些公司历史性地都需要海量算力和 Token。无论它们是创造 Token 还是为 Token 增值,它们对算力的渴望是共同的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,“正如 PC、互联网、移动云革命催生了谷歌、亚马逊和 Meta,这次计算平台的迁移也将孕育出一批对世界未来至关重要的新巨头。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;那为什么这种AI企业的爆发会发生在这两年?黄仁勋称这因为发生了三件大事:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;ChatGPT 开启生成式 AI 时代: 计算从“基于检索”转向“基于生成”。这彻底改变了计算机的架构、供应和建设方式。推理 AI(o1/o3)的出现: AI 开始拥有反思、规划、拆解问题的能力。o1 让生成式 AI 变得可靠且基于事实。为了“思考”,输入和输出 Token 的使用量呈爆炸式增长。Claude Code 开启代理(Agentic)时代: 这是首个代理模型。它能阅读文件、编码、编译、测试并迭代。它革新了软件工程。现在 NVIDIA 内部每个工程师都在使用 AI 代理辅助编程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/17/17118ee96a34b892bf1037971287a0d3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,“AI 已经从“感知”进化到“生成”,再到“推理”,现在已经可以执行极其高效的实际工作。 “推理拐点”已经到来。 AI 要思考、要行动、要阅读、要推理,每一环都在进行推理(Inference)。现在已经远超训练阶段,进入了推理的疆场。过去两年,计算需求增长了约 10,000 倍,而使用量增长了约 100 倍。我深感这两年的计算需求实际增长了 100 万倍。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;紧接着,老黄又分享了几个数据,让现场的气氛达到了高潮。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他高兴地向观众分享道,“去年我说 Blackwell 和 Rubin 到 2026 年的订单额将达 5000 亿美元,你们可能没觉得惊艳。但今天,在这里,我预见通过 2027 年的营收将至少达到 1 万亿美元。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他进一步强调了这不是空话,因为计算需求只会更高。2025 年是 NVIDIA 的“推理之年”,NVIDIA 系统是全球成本最低的 AI 基础设施——使用寿命越长,成本就越低。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他这么说的背后有着坚实的数据支撑。目前,全球三分之一的 AI 计算开源模型(如 Anthropic 和 Meta 的模型)都跑在英伟达芯片上。NVIDIA 是全球唯一能运行 AI 所有领域的平台:语言、生物、图形、视觉、机器人、边缘或云端。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在英伟达的业务中,60% 来自顶级云服务商(Hyperscalers),不仅支持其内部 AI 消费(如推荐系统、搜索向大模型的迁移),更通过英伟达的生态系统加速每一家 AI 实验室。另外 40% 则遍布区域云、主权云、企业级服务器及工业自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0e/0e806cea61a12db814d69e0f9ed55533.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Token 成本全球最低&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋介绍了 NVIDIA 在 AI 推理基础设施上的最新进展。他表示,AI 性能的突破并不仅来自单一技术,而是由计算架构、软件栈和算法的系统级协同设计共同推动。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋提到,NVIDIA 推出的 NVFP4(FP4)计算体系不仅是一种更低精度的数据格式,而是一种全新的 Tensor Core 计算架构。通过 NVFP4,NVIDIA 已经实现了在推理阶段几乎不损失精度的情况下,大幅提升性能和能效,同时这一计算格式也开始应用于模型训练。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结合 NVLink 72 高速互连,以及 Dynamo、TensorRT-LLM 等软件优化,NVIDIA 构建起一套面向大模型推理的完整技术体系。为优化底层软件与 GPU 内核,公司还投入数十亿美元建设 NVIDIA DGX Cloud 超级计算平台,用于开发和调优 AI 推理软件栈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2c/2ca4a822b3054612b6ec3b2be3b1ae20.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋强调,很多人曾认为推理是 AI 系统中最简单的部分,但实际上 推理既是最困难的环节,也是最关键的商业环节,因为它直接决定 AI 服务的收入来源。根据研究机构 SemiAnalysis 的评测,在数据中心层面,衡量 AI 系统效率的关键指标是每瓦特能够生成多少 token(tokens per watt)。由于数据中心受到电力等物理条件限制,本质上更像一个“AI 工厂”,企业必须在固定功率下尽可能多地生产 token。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;评测结果显示,NVIDIA 在 AI 推理性能和效率上依然保持领先。按照传统 Moore&#39;s Law,新一代芯片通常只能带来约 1.5 倍性能提升,但从 Hopper H200 到 Grace Blackwell NVLink 72 架构,NVIDIA 的 每瓦特性能提升约 35 倍。SemiAnalysis 分析师 Dylan Patel 甚至认为实际提升接近 50 倍。这一架构也带来了更低的 token 成本,在当前市场上具有明显优势。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3f/3f362a51e80793a3d483c69b03eb9744.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,这种极致的软硬件协同设计还能显著提升现有系统性能。例如在部分 AI 推理平台中,仅通过更新 NVIDIA 软件栈,就能将生成速度从 约 700 token/秒提升至接近 5000 token/秒,性能提升约 7 倍。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋强调,NVIDIA 的 Token 成本在世界范围内是“不可触碰”的。 即便竞争对手的架构是免费的,它也不够便宜。因为建立一个 1GW 的工厂,即便里面什么都不放,15 年的摊销成本也高达 400 亿美元。你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的 Token 生产成本。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/61/616c7d590295721c6809df83623166a3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在他看来,数据中心的角色正在发生变化:过去它是存储和计算中心,而未来将成为生产 token 的 AI 工厂。随着 AI 的普及,无论是云厂商、AI 公司还是传统企业,都将开始从“Token 工厂效率”的角度来衡量自己的计算基础设施,因为在 AI 时代,token 将成为新的数字商品,而计算能力则直接决定企业的价值创造能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Vera Rubin 时代降临&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据介绍,这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。该平台包含40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片、1152个&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/rubin/&quot;&gt;NVIDIA Rubin&lt;/a&gt;&quot;&amp;nbsp;GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。&amp;nbsp;该平台目前已全面投产,并得到了包括 Anthropic、OpenAI、Meta 和 Mistral AI 以及所有主要云提供商在内的众多客户的鼎力支持。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f4/f4136a5debe86247ff02c8d0745cfa87.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,过去十年间 AI 计算能力已经实现了 约 4000 万倍的提升,而这一变化正推动数据中心向“AI 超级计算机”形态演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“过去我发布产品时,可能只是手里举着一块芯片(比如 Hopper);但现在,当我谈到 Vera Rubin 时,我说的是一个全栈垂直整合的庞大系统。”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋展示了 NVIDIA 最新的 Vera Rubin AI Supercomputer 系统,并强调这是一套从硬件到软件 完全纵向整合(vertically integrated) 的计算平台,专门为 Agentic AI(智能体 AI) 设计。随着大语言模型不断扩大规模、生成更多 token 并处理更长上下文,系统不仅需要更强的计算能力,还需要更高带宽的内存和存储访问能力,例如 KV Cache、结构化数据处理(cuDF)以及非结构化向量数据(cuVS)等。因此,NVIDIA 对整个系统架构进行了重新设计,包括计算、存储和网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/71/717f0b14f1c8c06e588ccd08e1f12e2b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在硬件层面,NVIDIA 为这一平台开发了一款全新的数据中心 CPU——NVIDIA Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用 LPDDR5 内存 的 CPU,从而实现领先的性能功耗比。黄仁勋透露,这款 CPU 已经开始单独销售,并有望成为 NVIDIA 的一项数十亿美元级业务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在系统设计方面,Vera Rubin 超级计算机采用 100% 液冷架构,并通过 45°C 热水散热,大幅降低数据中心制冷成本。同时,系统内部布线被大幅简化,使得整机安装时间从过去的两天缩短至约两小时,从而显著提升数据中心部署效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;网络互连是这一系统的核心技术之一。NVIDIA 在该平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。黄仁勋表示,这是目前全球最先进、实现难度最高的大规模 GPU 互连系统之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/29/29fdbedbddd9ed2df005c08b7e06f053.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还推出了全球首个 CPO(Co-Packaged Optics)光电共封装的 NVIDIA Spectrum-X Ethernet Switch,将光模块直接集成到芯片封装中,实现电子信号与光信号的直接转换,从而显著提升数据中心网络带宽与能效。这项技术由 NVIDIA 与台积电共同开发,目前已经进入量产阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在更大规模的系统扩展上,NVIDIA 还展示了 Rubin Ultra Compute System。该系统通过新的 Kyber 机架架构,可以在一个 NVLink 域中连接 144 个 GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为 NVLink 交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e236d53b93509b9d41531b3d9018189c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,随着 AI 模型规模和推理需求持续增长,未来的数据中心将越来越像一台完整的超级计算机。而像 Vera Rubin 这样的系统,正是为下一代 AI 工作负载——尤其是智能体系统——而设计的核心计算基础设施。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/10/1011821217d3744426d719db8dd37ce6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;下一代 AI 平台:Feynman 架构前瞻&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,值得注意的是,NVIDIA 的&amp;nbsp;Feynman GPU 架构早在 2025 年 GTC 大会上就已得到确认。在本次演讲中,NVIDIA 列出了 Feynman GPU 与下一代 HBM、Vera CPU 以及构成 AI 数据中心基础的其他几个连接芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cd302fb2aecc077ced93e4f635488ae5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;存储性能是制约 AI 推理的瓶颈,为此 NVIDIA 改变了以往使用标准 HBM 的策略,转而为 Feynman GPU 配备 定制化 HBM 技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;超越标准: 现有的 Rubin 系列分别采用 HBM4 和 HBM4E,而 Feynman 将跳过通用规格,可能采用基于 HBM4E 的定制增强版 甚至提前布局 定制化 HBM5 方案。深度整合: 这种定制化方案允许 NVIDIA 将部分 GPU 的数据处理逻辑直接嵌入存储底层的 Base Die(基础晶圆)中,从而实现超高的带宽与极低的延迟。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 平台将不再沿用目前的 Vera CPU 架构,而是确认搭载代号为 Rosa 的全新 CPU。&lt;/p&gt;&lt;p&gt;这种命名延续了 NVIDIA 以卓越女性科学家命名的传统,Rosa 架构致敬了美国物理学家、诺贝尔奖得主 罗莎琳·萨斯曼(Rosalyn Sussman Yalow),同时也呼应了发现 DNA 结构的 罗莎琳·富兰克林(Rosalind Franklin)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Rosa CPU 被设计为 AI 智能体(Agentic AI)的编排中枢,旨在更高效地调度 GPU、存储与网络之间的 Token 流动,优化处理极其复杂的逻辑决策任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 时代标志着 NVIDIA 将计算、存储和封装三者进行了深度耦合。通过“3D 堆叠核心 + 定制化内存 + 专用 Rosa CPU”的组合,NVIDIA 正在将数据中心从传统的服务器集群演进为一台高度集成的“巨型超级计算机”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f9/f900e49838d48102684c87012bc4328c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推出&amp;nbsp;NVIDIA DSX——面向“AI 工厂”的基础设施平台&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随后,黄仁勋还介绍了 AI 基础设施与数字孪生技术的发展,以及 NVIDIA 在其中的角色。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,当前 AI 基础设施的建设已经开始依赖完整的数字仿真体系。在数据中心建设阶段,系统会通过多种行业领先的工程仿真工具进行验证,例如使用 Siemens Simcenter STAR-CCM+ 进行外部热力学仿真、Cadence Design Systems 的相关工具进行内部热设计、ETAP 进行电力系统分析,以及 NVIDIA 自身的网络模拟平台 NVIDIA DSX Air。通过这些工具,可以在实际建设前完成“虚拟调试”(virtual commissioning),从而大幅缩短数据中心建设周期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当数据中心正式投入运行后,其数字孪生系统会成为基础设施的“操作系统”。AI 智能体会与 NVIDIA DSX MaxQ 协同工作,动态调度整个基础设施:实时监控冷却、电力和网络系统,并不断优化计算吞吐量和能源效率。同时,AI 还可以根据电网实时负载和压力信号动态调整功率分配,从而在保证稳定性的同时提升整体效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 及其合作伙伴正在全球范围内加速建设 AI 基础设施,以实现更高水平的可靠性、效率和计算吞吐能力。这一体系的核心平台就是 NVIDIA 新推出的 NVIDIA DSX——一个面向“AI 工厂”的基础设施平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/56/560d03359a09e9f49edcfae37bb10088.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在数字孪生方面,NVIDIA 的 NVIDIA Omniverse 平台被设计用于承载全球规模的数字孪生模型。从地球级别的系统到各种规模的工业设施,未来都可以在这一平台上构建和运行数字孪生。黄仁勋特别感谢生态合作伙伴,并表示这些企业在过去几年中迅速加入 NVIDIA 的生态,共同建设可能是“世界上最大的计算系统”,并在全球范围内部署。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还透露,NVIDIA 的 AI 计算基础设施正在向太空延伸。公司此前已经在卫星领域部署计算系统,并计划与合作伙伴开发新的太空计算平台 Vera Rubin Space One,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,因此系统冷却将成为一项极具挑战的工程问题,目前 NVIDIA 正在与工程团队共同研究解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6ef916d83130200f9c8073510f96b7ef.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;联合 OpenClaw之父推出&amp;nbsp;NemoClaw&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲中对软件开发者影响最深远的部分是老黄对于最近爆火的“龙虾”现象的评论。黄仁勋高度评价了由 Peter Steinberger 创建的开源项目 OpenClaw。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,OpenClaw 的增长速度甚至超过了 Linux 在过去几十年的传播速度,其影响力“极其深远”。NVIDIA 也宣布将正式支持这一项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/8228f2db32767aceb5d53a3803f209ba.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋提到,AI大佬 Andrej Karpathy 最近提出的一种“AI 研究助手”模式很好地体现了智能体系统的能力:用户只需给 AI 一个任务,然后去休息,AI 便可以在后台自动运行数十甚至上百个实验,不断保留有效结果、淘汰无效方案。类似的案例正在不断出现。例如有人将 OpenClaw 安装在自己父亲的设备上,通过蓝牙连接酿酒设备,实现从生产流程到网站订单系统的全流程自动化,甚至在深圳已经出现用户排队购买相关产品的案例。随着这一项目迅速流行,社区甚至已经开始举办专门的开发者活动,足以说明其热度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋认为,从技术本质上看,OpenClaw 可以被理解为一种智能体计算机的操作系统。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;正因如此,OpenClaw 的意义类似于过去的关键基础软件。黄仁勋表示,就像 Linux 让个人计算机和服务器生态得以发展,Kubernetes 推动了云计算时代的基础设施,而 HTML 构建了互联网应用基础一样,OpenClaw 为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——“你的 OpenClaw 战略是什么?” 因为企业软件正在从传统工具型软件,转向以智能体为核心的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在传统企业 IT 架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生变化。黄仁勋认为,未来几乎所有 SaaS(Software as a Service) 公司都将演变为 AaaS(Agentic as a Service)——即以智能体为核心的服务平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。为此,NVIDIA 与 OpenClaw 作者 Peter Steinberger 以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出 NVIDIA NemoClaw 参考架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/9d/9ddf87f17fe0a404d32251fa6cb37597.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该架构在 OpenClaw 基础上加入了名为 OpenShell 的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行 AI 智能体。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推进开放模型生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还在推进开放模型生态。黄仁勋表示,现实世界的需求高度多样化,不可能由单一模型满足所有行业。因此,开放模型正在形成一个规模庞大的 AI 生态系统,目前已经包含接近 300 万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域。作为其中的重要贡献者,NVIDIA 已发布多条开放模型产品线,包括 Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并同时开放训练数据、训练方法和框架工具,以推动整个 AI 生态的发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 的开放模型之所以能够在多个榜单中处于领先位置,不仅因为其性能达到世界级水平,更重要的是公司会持续投入长期研发。“我们不会停止改进这些模型,”他说。例如 Nemotron 模型已经从 Nemotron 3 走向 Nemotron 4,Cosmos World Foundation Model 也从 Cosmos 1 发展到 Cosmos 2,而机器人模型 Project GR00T 也在不断迭代。NVIDIA 的策略是“纵向整合、横向开放”,在持续提升模型能力的同时,让整个生态都能参与到 AI 发展中来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还展示了 Nemotron 3 在智能体框架 OpenClaw 中的表现。根据公开评测数据,当前全球排名前三的模型均处于这一技术前沿。黄仁勋表示,NVIDIA 不仅希望构建领先的基础模型,更重要的是让开发者能够在此基础上进行微调和后训练,构建适用于不同领域的专用 AI 系统。为此,NVIDIA推出了 Nemotron 3 Ultra 作为新一代基础模型,并希望借此帮助各个国家和行业构建属于自己的 “主权 AI(Sovereign AI)”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步推动这一生态,NVIDIA 在大会上宣布成立 Nemotron Coalition。该联盟将与多家技术公司合作,共同推进 Nemotron 系列模型的发展。参与合作的公司包括图像技术公司 Black Forest Labs、AI 编程平台 Cursor、智能体开发框架 LangChain、欧洲 AI 公司 Mistral AI、AI 搜索平台 Perplexity AI、印度 AI 公司 Sarvam AI 以及 Thinking Machines Lab 等。黄仁勋表示,随着越来越多企业加入合作,AI 模型将能够覆盖从语言到生物、从物理到自动驾驶等广泛领域。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在企业软件层面,黄仁勋再次强调,未来所有公司都需要制定自己的 OpenClaw 战略。随着智能体系统的发展,传统的 SaaS 软件模式将逐渐转向 Agentic as a Service(AaaS)。企业不仅会使用 token 来增强员工生产力,还会通过 AI 工厂生产 token,并向客户提供智能体服务。他甚至预测,未来科技公司招聘工程师时,除了薪资外,还会提供“token 配额”,因为拥有更多 AI 计算资源的工程师能够获得更高的生产效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;除了数字智能体,NVIDIA 还在推进 物理 AI(Physical AI)。黄仁勋表示,目前全球几乎所有机器人公司都在与 NVIDIA 合作,现场展示的机器人数量超过 100 台。NVIDIA 为机器人开发提供完整技术体系,包括训练计算平台、合成数据与仿真平台,以及部署在机器人内部的计算系统。同时,公司还提供完整的软件和模型生态,例如机器人仿真与训练平台 NVIDIA Isaac Lab、世界模型 Cosmos World Foundation Model 以及机器人基础模型 Project GR00T。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/99/992411aed6580dcd6e779e05cfe49082.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在自动驾驶领域,黄仁勋表示“自动驾驶的 ChatGPT 时刻已经到来”。基于 NVIDIA Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。NVIDIA 还宣布新的 Robotaxi 合作伙伴,包括 BYD、Hyundai Motor Company、Nissan 和 Geely,这些公司每年合计生产约 1800 万辆汽车。同时,NVIDIA 还将与 Uber 合作,在多个城市部署自动驾驶出租车网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在机器人产业方面,NVIDIA 正与 ABB、Universal Robots、KUKA 等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。黄仁勋还提到,未来通信基础设施也将成为 AI 系统的一部分,例如 T-Mobile 的通信塔未来可能演变为“机器人 AI 基站”,能够实时分析交通和网络情况并动态调整信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在总结演讲时,黄仁勋表示,AI 产业正同时经历三大变革:AI 推理与 AI 工厂、智能体系统革命,以及物理 AI 与机器人时代。随着这些技术逐渐成熟,计算能力、AI 模型和基础设施将共同推动全球产业进入新的发展阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</guid>
      <pubDate>Tue, 17 Mar 2026 00:52:46 GMT</pubDate>
      <author>李冬梅</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>国内首个国产AI推理千卡集群落地梁文锋家乡,采用云天励飞全自研AI推理芯片</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/e7/bdf9600354c5a761e126505b32d6b0e7.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI算力从“训练优先”走向“推理优先”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的 Seedance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Gartner 预测,到 2026 年,终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约55%的AI专用云基础设施支出将用于推理工作负载。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;面向推理时代的千卡集群架构&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;自研芯片构建低成本推理能力&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。&lt;/p&gt;&lt;p&gt;根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</guid>
      <pubDate>Thu, 12 Mar 2026 03:55:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>传字节今年要造10万颗推理芯片,1600 亿预算砸向AI!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/44/51/44bd7c5dd1b98a4e9a2edaa8afcf1551.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;近日,据两位知情人士透露,字节跳动正研发AI芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为AI 推理任务设计,公司计划今年至少生产10 万颗,并有望逐步将产能提升至35 万颗。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&quot;&gt;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</guid>
      <pubDate>Wed, 11 Feb 2026 09:40:36 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/b6/6d/b63c9c9733211c111d3a1b60fdb3036d.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/88/882ad7697fdc8328b84b398e401f293d.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能的繁荣与底层的“枯竭”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中最核心的一环,正是高性能算子的开发。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;KernelCAT:计算加速专家级别的 Agent&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/8f/8faf0bf997be96bcfd5f8bcb5396620f.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/69/6920f6c41c59b89f3d72dd73255fd27b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为国产芯片生态写高性能算子&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/90/90a7b4e9f17290018d9342b3ed31e0a4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;没有坚不可破的生态,包括 CUDA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上&quot;说上了母语&quot;。实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://kernelcat.cn/&quot;&gt;KernelCAT 限时免费内测&lt;/a&gt;&quot;中,点击链接,马上体验~&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/14/140a6c0e97d8e4f35ef00ee8f4f9f40e.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</guid>
      <pubDate>Fri, 30 Jan 2026 09:46:03 GMT</pubDate>
      <author>InfoQ</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9f/e5/9f01dbbbe47906ef536a31f2a1f344e5.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;采访嘉宾 | 天数智芯 AI 与加速计算技术负责人 单天逸&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那一刻,下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断,被放到了更公开也更严苛的舞台上,谁能撑起资本市场和大众期待,谁就能撑起市值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式,把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中,围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考,天数智芯公布了过去一代以及未来三代的架构路线图:&lt;/p&gt;&lt;p&gt;2025 年,天数天枢架构已经超越英伟达 Hopper,在 DeepSeek V3 场景中实测性能数据超出 20%;2026 年,天数天璇架构对标 Blackwell,新增 ixFP4 精度支持;2026 年,天数天玑架构超越 Blackwell,覆盖全场景 AI/加速计算;2027 年,天数天权架构超越 Rubin,支持更多精度与创新设计。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/93a5511a47ea59c34947fa5622e43f57.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;国产 GPU,开启 AI++ 计算新范式&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;根据天数智芯公布的架构路线图及阶段发展目标,在 2027 年之前,天数智芯将通过多代产品完成对英伟达的追赶;在 2027 年之后,将转向更富创新性的架构设计,聚焦更具突破性的超级计算芯片架构设计。看似宏大,但对于仍处于爬坡阶段的国产 GPU 行业来说,这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越,国产 GPU 才有资格进入更大规模的生产环境中。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而在规模化落地阶段的竞争,焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料,当算力消耗开始对标真实业务产出,无论是国际顶尖 GPU 厂商还是国内 GPU 企业,核心命题都只有一个:如何在真实业务中,把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一命题,天数智芯提出了两条明确的架构判断:其一,回归计算本质;其二,提供高质量算力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;回归计算本质,核心在于“不设限”&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去十年,规模的快速扩张带来了阶段性的产业繁荣,也使得算力实现野蛮增长。但这种粗放式发展,也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例,路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此,计算、通讯、存储都会带来各种障碍。所以,幻想奔跑在平坦的赛道上毫无意义,产业真正需要的,是能够翻山越岭的全能越野车。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/64/64709d562cae987749119744a750d556.webp&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;广义上,芯片可分为专用芯片和通用芯片:专用芯片类似“应试教育”,它的优势和边界都很清晰,能加速特定算法、特定指令,比如矩阵乘法、Softmax 这些主流任务,但一旦计算范式发生变化,适应空间就会迅速收紧;通用芯片的设计哲学,不是为了押中某一类算法,而是回归计算本质,覆盖更广泛,甚至全新的计算需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来,硬件与算法的关系本来就不应该相互掣肘,算力的僵化不应限制算法的进化,而是通过通用算力为探索未知算法提供一个坚实的底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑探索未来算法的关键,实则就是“不设限”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于这一判断,天数智芯的芯片设计哲学,在计算层面追求的是覆盖几乎所有的数学运算图谱,而非某一类、某一种计算:从 Scalar、Vector、Tensor 到 Cube,支持从高精度科学计算到 AI 精度计算,从 MMA 到 DPX,不管是 AI 的 Attention 机制、前沿的科学计算,还是未来的量子计算相关模拟,天数智芯全都支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在执行层面,追求的是更高的算力利用率:大、中、小任务会被精准分配到不同的计算单元中执行,配合高密度的多任务核心设计,算力可以被拆解、调度得更加精细,从而减少算力浪费,提高计算效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/d2/d21f6e06061719cd4a9a199eb6e5fed0.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种“不设限”的设计哲学,让天数天枢架构得以实现三大创新,这也是天枢能够超越英伟达 Hopper 架构的根因:&lt;/p&gt;&lt;p&gt;TPC BroadCast(计算组广播机制)设计:不是简单粗暴地放大带宽,而是从单位带宽的使用效率入手,存在相同地址的数据时,芯片内部的 load store 单元不会进行重复、无用的访问,而是在上游进行 BroadCast,减少不必要的内存访问次数,从而有效降低访存功耗,等效提升访存带宽,用更小的功耗和面积实现相同的功能。Instruction Co-Exec(多指令并行处理系统)设计:在指令执行层面,通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力,不仅支持 Tensor Core 与 Vector Core 的并行协同,还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中,通过极低的成本增强了不同指令之间的并行处理能力,无论是 MLA、Engram,还是面向更复杂模型场景的计算需求,都可以在这一并行框架下被同时处理,从而提升整体执行效率。Dynamic Warp Scheduling(动态线程组调度系统)设计:随着 MoE 架构在大模型中被广泛采用,模型厂商普遍面临推理效率低等现实挑战。为提升并行度,微架构层面允许芯片中同时驻留更多 warp,但 warp 的增加也意味着对计算资源的竞争更为激烈。为此,天数智芯首创了 Dynamic Warp Scheduling 机制,通过动态调度让不同 warp 在资源使用上实现有序协作,避免计算资源闲置,也减少了对同一资源的无序争抢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这三项设计的出发点本质上都指向相同的目标:高性能与高效率。数据显示,这些创新让天数天枢的效率较当前行业平均水平提升 60%,基于这些效率优势,实现在DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从这三项设计中可以看出,天数智芯在架构层面的创新,并不是围绕某一个具体模型或算子展开,而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示,在天数智芯提出 Dynamic Warp Scheduling 设计之前,几乎没有人从调度机制的角度去思考,还能为 MoE 带来哪些性能空间。从更深层次意义来看,这类微架构层面的调度和优化,一直是英伟达、AMD 等巨头保持领先的“内功”,天数智芯在这些单点上的突破,实际上也是国产 GPU 向顶级玩家看齐的重要一步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;提供高质量算力:高效率、可预期、可持续&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在天数智芯的架构语境中,回归计算本质并不是一个抽象的口号,而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责,高质量算力才成为可能。基于这一判断,天数智芯将高质量算力拆解为三个核心维度:高效率、可预期与可持续。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/7a/7ace836faccd159427d7c71b330df3ca.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;高效率意味着能为客户创造最优的 TCO(总体拥有成本),节省使用成本;可预期则通过精准的仿真模拟,让客户在拿到芯片、部署算力之前,就能清晰预判最终的性能表现,做到所见即所得;可持续指的是从现在主流的 CNN、RNN,到当下火热的 Transformer,再到未来还未诞生的全新算法,算力始终能无缝适配。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这三个方向,天数智芯在架构及系统设计上,选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项,其实哪个都值得单独展开探讨。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;比如,基于“不设限”的设计理念,在当前 PD 分离的架构下,天数智芯的 GPU 不只做计算,还支撑通信、KV 数据传输这些关键任务,通过打造 Ⅸ 并行任务处理模块,GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务,让它们并行不冲突。在真实业务场景中,该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/b4/b473b037acf6e72c5b667dd838e26e33.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为了提高算力可持续性,天数智芯统一了芯片内、外,来构建算力系统,并通过不断更新的软件栈和软件系统,三类库共同支持和保障多场景的高效运行。其中,AI 库、通讯库(ixccl)、加速计算库是基石,在基石之上,直接支撑各类神经网络模型CNN、Transformer、LSTM 与高性能计算的各个领域,并以此提供各类 AI 应用,包括支持 AI4Sci 的相关应用,如蛋白质结构预测(AlphaFold)、医疗影像分析(Clara)、气候模拟(Earth2)等,以及量子计算的平台 cudaQ、分子动力学 Gromacs,大规模方程组求解器 HPL 等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这套算力系统被命名为 IXAI++,寓意为自我迭代,不止于 AI。其最终的目标是,成为一座连接算法创新与物理世界的桥梁,带领人类科技通往未知探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但给业内带来最多惊喜的,是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题,后者解决的是企业部署算力系统最头疼的不可控难题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型推理场景中,长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上,Attention 的执行效率依然不高,如果不对其进行针对性优化,首字延迟将明显偏高,模型响应速度差,推理成本高昂,最终影响大模型在真实业务中的可用性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一痛点,天数智芯设计了 Ⅸ Attention 模块,从底层对 Attention 的执行路径进行重构:Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子,Ⅸ Attention 模块的核心思路,是将这些分散的组件有机地拼装到一起,如同指挥一支乐队一般,确保多种乐器能够和谐共鸣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/19/1931cf31a98c3a57d61ca5cbaf8caa44.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“其中的技术难点在于调度,多种乐器需要同时演奏,任何一个环节拖慢节奏,都会成为整个系统的瓶颈”,单天逸表示,在实际的长上下文推理中,Ⅸ Attention 模块有效改善了 Attention 的执行效率,带来了约 20% 的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;针对企业部署算力系统最头疼的不可控难题,天数智芯搭建了 IX-SIMU 全栈软件仿真系统,这套仿真系统的目标,就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真,能精准输出任意模型的性能表现,提升算力在真实场景中的可控性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c1/c15d79ed9346cf49898ee0193b585926.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;单天逸表示,在算力系统的仿真与评估中,最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于,能够对底层指令执行进行精细建模。在实际使用中,用户只需输入软件代码,IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件,匹配网络拓扑,再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略,最终精准输出 Deepseek、千问等任意模型的性能表现,实现从单卡到万卡集群的 “精密扩展”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕高效率、可预期、可持续三大判断,天数智芯在算力侧从硬件架构到系统设计进行了整体布局,并用未来三代架构路线图提前回答下一个问题:当算力僵化开始掣肘未来计算,架构层还能怎么演进?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;决定上限的,最终还是应用和生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;架构代表的其实是下限,决定上限的,最终还是应用和生态。数据显示,截至 2025 年年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用,服务客户数量超过 300 家,并通过软硬件协同优化,完成 1000+ 次模型部署,让产品能力真正达到商用级别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑这些场景应用的,早已不是一个产品的能力范畴,而是“产品 + 解决方案” 双轨模式,这一模式其实与英伟达定位非常相近,聚焦的都是解决方案落地。在大模型深入产业应用的当下,这套组合打法相当务实,毕竟应用落地才是唯一真理,谁能在企业真实业务场景中快速部署、持续稳定运行,谁就能赢得先机。在速度和兼容性上,天数智芯也交出了一份不错的答卷:国内新的大模型发布当天便能跑通,目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子,数千卡集群稳定运行超 1000 天。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这次发布会上,天数智芯面向物理 AI 场景落地,一口气发布了四款边端算力产品“彤央”系列:包括边端 AI 算力模组 TY1000、TY1100,以及边端 AI 算力终端 TY1100_NX、TY1200。 据了解,“彤央”系列产品的标称算力均为实测稠密算力,覆盖 100T 到 300T 范围。数据显示,在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中,彤央 TY1000 的性能全面优于英伟达 AGX Orin。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在发布会中,天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用:具身智能领域,为格蓝若机器人提供高算力、低延迟的“大脑”支撑;在工业智能领域,落地园区与产线,推动产线自动化升级;在商业智能领域,瑞幸咖啡数千家门店部署彤央方案,高效处理视频流、挖掘消费数据价值;在交通智能领域,与“车路云一体化”20 个头部试点城市合作,验证车路协同方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整体来看,天数智芯走的路线虽然是底层技术自研,但在生态上并非封闭。在生态建设上,天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议,进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态,持续开放底层能力,降低开发者迁移和使用门槛。未来,天数智芯还会持续增加在生态共建上的资本与人力投入,从应用到芯片与开发者一同优化 AI 应用系统,共同为应用落地提供性能、性价比与生态易用的价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从底层架构到产品,从应用到生态,国产算力正在实现完整闭环,这种从芯片到生态的协同能力,不仅让国产算力更可用、更可持续,也为行业探索新模式提供了更多想象空间。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</guid>
      <pubDate>Thu, 29 Jan 2026 06:54:56 GMT</pubDate>
      <author>凌敏</author>
      <category>企业动态</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>从算力规模到系统级竞争:智算竞争核心已变,金山云战略升级曝行业“隐形拐点”</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/1f/bd2b4b1668393b4b5d9bf91cf845761f.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;从训练到推理:智算需求正在经历一场结构性转向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在2026年1月21日举办的金山云年度Tech Talk上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token如何被消耗、算力如何被组织展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;变化首先体现在财务数据上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以2025&amp;nbsp;年第三季度为例,智算云账单收入达到7.8亿元人民币,同比增长接近120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理侧的变化更加显著。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日Token调用量已达到50万亿级别。这是当前国内少数被明确对外公布的Token规模数据之一,也成为行业理解推理负载的重要参考。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动Token消耗快速增长。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在所有推理场景中,编程类应用被反复强调。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;刘涛指出,2025年一个尤为显著的变化在于:编程相关请求正在成为Token消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code的大量代码本身,正是由Claude Code参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从全球Token调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;&lt;/p&gt;&lt;p&gt;其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;&lt;/p&gt;&lt;p&gt;其三,Vibe Coding在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了满足更多元化的需求,刘涛表示,2025年,智算平台金山云星流已完成从资源管理平台向一站式AI训推全流程平台的战略升级。从训推平台、机器人平台到模型API服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型API服务商业化落地的全链路闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;实现三维进阶,智算云AI势能全释放&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管各行各业大规模应用AI还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈AI能力。从2023年的智算网基础设施,到2024年智算云的平台化和Serverless化,再到2025年的一站式AI训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接AI应用爆发做好了充分准备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的AI开发体验。自研的GPU故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;面向大模型应用开发者和企业用户,金山云星流平台模型API服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型API服务已积累诸多行业客户。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近40种不同模型,包括DeepSeek、Xiaomi MiMo、Qwen3、Kimi等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦AI业务创新和价值创造。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</guid>
      <pubDate>Tue, 27 Jan 2026 03:58:35 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>聚焦算力市场痛点,嘉唐算力供应链平台重磅发布</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/4d/34/4d3f7yy64d506d55f7b8018028747e34.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在近期举行的第五届AIGC开发者大会上,上海嘉唐科技发布了名为“算力供应链服务平台”的全栈式解决方案。该平台以“生态共建,供需协同”为理念,围绕算力交易、金融配套、资产管理及算电协同等维度展开设计,旨在应对当前算力行业存在的价格透明度低、流程不规范、服务缺乏标准化及供需匹配效率不高等问题,致力于为构建全国算力服务统一市场提供技术支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当前,算力作为数字经济发展的重要基础设施,已成为衡量新质生产力的关键指标之一。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据统计,近五年来我国算力产业规模年均增速超过30%,但与此同时,行业仍面临资源结构性失衡、整合程度不足等制约高质量发展的挑战。为此,市场上陆续出现多种服务模式探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;嘉唐科技此次推出的平台整合了撮合与直营等模式,尝试在供需对接、资源保障、产业链协同及能耗优化等方面提供系统性支持,其中算电协同方案通过引入绿电直供等方式,尝试推动算力行业能耗成本优化与绿色化转型。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从平台架构来看,其采用“1+3+N”的设计思路,即一个综合服务底座,涵盖算力交易、资产管理、金融服务三大核心模块,并计划拓展至多个行业应用场景。该架构试图在资源整合、智能调度与服务标准化等方面做出探索,与行业主管部门推动的算力互联互通方向具有一定的契合性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在生态合作方面,多家来自能源、金融、科技等领域的企业参与了此次发布仪式,并表达了在资源共享与产业协同方面的合作意向。行业分析指出,此类跨领域协作有助于将企业单体优势扩展为产业链整体效能,对推动AI技术在不同行业的落地应用可能形成一定支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;业内观察显示,随着算力在经济社会各领域渗透不断加深,构建开放、高效、协同的算力供应链体系逐渐成为行业共同关注的议题。相关平台的出现,反映了市场主体在整合算力资源、提升服务能效方面的尝试,其长期成效仍有赖于技术可靠性、模式可持续性及行业协同机制的进一步完善。在算力市场竞争日趋全球化、绿色化的背景下,此类探索也为推动产业高质量发展提供了可供观察的案例。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</guid>
      <pubDate>Tue, 20 Jan 2026 09:59:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>MUSA开发者大赛丨GEMM优化挑战赛火热开启!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/fb/74/fb8b0824bb93b0825f442f79a92c3474.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;MUSA开发者集结!与摩尔线程算力共振,谁将登顶矩阵乘法的性能巅峰?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;国产算力生态的崛起,不仅需要坚实可靠的硬件基座,更呼唤能够彻底释放硬件潜能的极致软件优化能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;GEMM(通用矩阵乘法),正是衡量软件能力的核心标尺。作为触达GPU算力峰值、检验架构效率与存储带宽极限的核心算子,它既是验证硬件潜力与软件栈成熟度的试金石,也是每一位追求极致的开发者渴望征服的“性能圣杯”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此刻,我们诚邀所有心怀极致追求的开发者,共同开启这场极限挑战——基于摩尔线程训推一体全功能智算卡&amp;nbsp;MTT S4000,在MUSA架构GPU上深度优化GEMM,共同挑战GPU的性能巅峰。在这里,用你的代码与智慧,亲手将矩阵乘法的性能推向极限!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;赛题丨FP16 GEMM Kernel 极致性能开发&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次挑战赛聚焦于底层&amp;nbsp;Kernel 开发,要求参赛者在摩尔线程MTT S4000上,将FP16精度的通用矩阵乘法(GEMM)性能优化到极致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;计算任务:在&amp;nbsp;MTT S4000 上,实现矩阵乘法(M=8192, N=8192, K=16384)的高性能计算。精度要求:计算采用FP16进行乘加运算,中间累加过程使用FP32。硬件架构:所有优化工作须基于MTT S4000的硬件特性展开,参赛者需深入研究并充分利用其特性。优化边界:禁止调用muBLAS/muDNN 等高层库。鼓励参赛者深挖共享内存分块、寄存器优化等硬件潜力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;评分丨严谨性与高性能的统一&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最终比赛结果由主办方统一依据官方评测方案进行综合评定,总分为正确性与性能两部分之和,缺一不可。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 正确性测试:不容有失的基石&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;测试范围:参赛代码必须通过主办方设置的四组不同规模的测试用例验证。精度要求:计算结果必须严格准确。与官方muBLAS库提供的参考结果相比,每个元素的相对误差必须控制在1e-2以内。一票否决:任一测试用例失败,或任一输出元素误差超限,则正确性部分得分为0,且将直接终止评测,无法进入后续性能评估环节。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 性能评估:追求极致的竞技场&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;评估标准:在通过全部正确性测试后,性能评估将在本次比赛的核心规模——8192 x 8192 x 16384上展开。系统将进行多次迭代测试,取平均GFLOPS作为性能指标。评分参考:为帮助参赛者了解自身优化水平,我们将根据参赛者代码性能相对于官方muBLAS基线性能的百分比效率,进行线性插值计算,提供一个参考性分数。绝对排名:比赛的最终官方成绩与总排名,严格依据在标准评测环境下测得的绝对GFLOPS性能值进行排序。性能越高,排名越前。自测工具:我们为参赛者提供了性能绝对值测试脚本,参赛者可自行读取并分析Kernel的实际性能数据,以便进行针对性优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;资源丨云端环境与算力支持&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;摩尔线程将为每一位参赛者提供专业、完备的云端开发环境与算力支持。如下设计致力于最大限度地消除环境差异,确保参赛者自测的性能结果具有高度参考价值,助力大家精准优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算力平台:我们将提供本次赛题指定硬件MTT S4000的云端算力资源供参赛者调优、测试。参赛账户:每位参赛者将获得一个专属的AutoDL子账号,确保开发环境的独立性与数据安全。预置镜像:该账号中已内置比赛专用镜像。镜像环境预先配置了所有必要的驱动、工具链,并包含了官方的评估脚本、编译工具及基础示例代码,参赛者登录后即可立即开始开发工作。标准化工具链:我们提供统一的评测脚本与摩尔线程官方编译器&amp;nbsp;mcc。参赛者在本地自测时使用的编译命令、优化选项与评测流程,将与最终官方评审环境完全一致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;奖项丨激励卓越,丰厚礼遇&lt;/h2&gt;&lt;p&gt;&lt;/p&

...

@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

http://localhost:1200/infoq/recommend - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 推荐</title>
    <link>https://www.infoq.cn</link>
    <atom:link href="http://localhost:1200/infoq/recommend" rel="self" type="application/rss+xml"></atom:link>
    <description>InfoQ 推荐 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 03:13:25 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>Discord 开源 Osprey 安全规则引擎,每秒可处理 230 万条规则</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/0f/ed/0f67c2f610505fcebbe2b5bac8a3a9ed.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://discord.com/blog/osprey-open-sourcing-our-rule-engine&quot;&gt;Discord 开源其内部事件流决策引擎 Osprey&lt;/a&gt;&quot;。它每秒能够评估 230 万条规则,每天能够处理 4 亿次操作。Osprey 采用 Rust 协调器和无状态 Python 工作节点构建,提供了一种用于实时威胁检测和缓解的水平可扩展架构。该项目由 &lt;a href=&quot;https://roost.tools/&quot;&gt;ROOST&lt;/a&gt;&quot; 组织和 &lt;a href=&quot;https://internet.dev/&quot;&gt;internet.dev&lt;/a&gt;&quot; 合作管理。作为事件流决策引擎,Osprey 负责调查实时平台活动并执行自动响应。鉴于其提供的可扩展架构,该项目已在 Bluesky 和 Matrix.org 等的网络中获得了早期采用。这次开源转型将这个专有工具转变成了可供更广泛工程社区使用的可配置资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Osprey 根据可动态加载的规则来评估 JSON 格式的事件负载(称为 Action)。这些规则使用 SML (一种具有 Python 语法的领域特定语言,支持静态验证)编写。在便于安全分析师使用的同时,该语言还为软件工程师提供了可扩展性。开发者可以使用标准 Python 编写的用户定义函数(UDF)来扩展该引擎。UDF 为 Osprey 定义了标准库,并支持外部 API 调用或机器学习模型集成。该系统会追踪特定目标(称为“实体”)的状态,从而使操作员能够为其添加标签并进行分类。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在对 Action 进行处理后,该引擎会生成判定结果或效果,并将其路由到可配置的输出接收端。开源版本使用 Pluggy Python 库为这些接收端提供集成点,取代了内部的 Discord 依赖项。标准部署使用 Apache Kafka 将结果路由到 Apache Druid 集群,通过 Osprey UI 提供实时分析。&lt;/p&gt;&lt;p&gt;InfoQ 对 &lt;a href=&quot;https://github.com/roostorg/osprey&quot;&gt;roostorg/osprey&lt;/a&gt;&quot; GitHub 存储库的分析显示,该引擎采用了一种解耦的多语言架构,旨在处理持续的事件吞吐量。为了管理高并发,该系统采用了一个用 Rust 编写的协调器服务。存储库代码显示,协调器管理来自消息队列的异步事件流,并优先处理同步 gRPC 请求,从而保持延迟的稳定。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;规则评估发生在无状态 Python 工作节点上。为了优化执行速度,Python 工作节点会在启动时将 SML 规则解析为抽象语法树(AST)。这一措施实现了编译成本前置,最大限度地减少了每个事件的处理时间。规则通过 ETCD 分发到工作节点,支持在生产环境中进行动态更新,而无需重新部署应用程序。由于工作节点是无状态的且通过 Docker 实现了容器化,所以组织可以水平扩展处理能力以适应流量峰值。Rust 协调器用于流量整形,再加上可扩展的 Python 工作节点,为持续事件评估提供了一个有弹性的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;采用 Rust 和 Python 多语言架构正在成为高吞吐量系统的标准模式。在这种模式下,Rust 作为数据平面,管理网络流量、内存分配和高并发执行。Python 充当控制平面,处理业务逻辑、机器学习集成和用户 API。这种分离使工程团队能够最大化硬件利用率,同时保证应用层开发速度。Osprey 利用这种模式进行事件流处理,它也是广泛采用的数据工具的基础。例如,&lt;a href=&quot;https://pola.rs/&quot;&gt;Polars DataFrame&lt;/a&gt;&quot; 库和 &lt;a href=&quot;https://github.com/huggingface/tokenizers&quot;&gt;Hugging Face tokenizers&lt;/a&gt;&quot; 依靠 Rust 核心进行计算密集型操作,同时暴露 Python 控制平面以提高可用性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;声明:本文为InfoQ翻译,未经许可禁止转载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;原文链接:&lt;a href=&quot;https://www.infoq.com/news/2026/03/discord-osprey/&quot;&gt;https://www.infoq.com/news/2026/03/discord-osprey/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/Wz12mUPtcy79cyTsIOwV</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/Wz12mUPtcy79cyTsIOwV</guid>
      <pubDate>Fri, 03 Apr 2026 03:00:00 GMT</pubDate>
      <author>作者:Patrick Farry</author>
      <category>大会快讯</category>
    </item>
    <item>
      <title>Cloudflare 在边缘部署了主动式 API 漏洞扫描功能</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/d1/1d/d1933b7b567fce679b70120bba7bdb1d.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;Cloudflare &lt;a href=&quot;https://blog.cloudflare.com/vulnerability-scanner/&quot;&gt;宣布&lt;/a&gt;&quot;对 Web and API Vulnerability Scanner 进行公开 Beta 测试。这款动态应用程序安全测试(DAST)工具是 API Shield 平台的一部分。首个版本仅针对 Broken Object Level Authorization(BOLA)。该漏洞在 OWASP API 十大漏洞榜单中排名第一。后续更新将覆盖更多的 OWASP Web 十大漏洞,包括 SQL 注入和跨站脚本攻击。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当今最危险的 API 漏洞不是 WAF 能够轻松检测到的基本注入攻击或格式错误请求。最危险的 API 漏洞是逻辑缺陷——请求完全符合协议和应用程序规范,但违背了业务逻辑。无论配置得多么完善,Web 应用防火墙(WAF)都无法拦截这样的请求:经过身份验证的用户仅仅更改了路径参数中其他用户的资源 ID 。该请求的结构和含义都是正确的。问题完全出在服务器的授权逻辑上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;去年,Cloudflare 为 API Shield 推出了 &lt;a href=&quot;https://developers.cloudflare.com/changelog/post/2025-11-12-bola-attack-detection/&quot;&gt;BOLA 漏洞检测&lt;/a&gt;&quot;功能。该工具通过被动扫描客户流量来查找异常模式,从而自动发现漏洞。当流量足够大且攻击模式清晰可见时,被动检测的效果还不错。但开发环境可能需要进行测试却没有用户流量,而生产环境可能没有攻击流量却仍然需要进行分析。在这些情况下(涵盖了大多数生产前安全工作流),团队需要创建自己的合成测试流量。这正是动态应用安全测试(DAST)工具的用武之地。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;传统 DAST 工具的问题在于门槛较高。这些工具的配置过程可能比较复杂,而且通常需要手动上传 Swagger/OpenAPI 文件。此外,它们在处理现代登录流程时往往力不从心,而且通常缺少专门针对 API 的安全测试。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Cloudflare 认为,要发现授权漏洞,最有效的方法是将 API 视为调用图,而非简单的端点列表。要发现 BOLA 漏洞,服务器端必须先存在该资源。所有者必须先发起一个创建请求,即所谓的“创世 POST ”请求。只有这样,攻击者才能使用自己的有效凭据尝试访问或修改该资源。由于大多数传统扫描工具会单独处理每个请求,所以难以重现这类依赖链。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/85/85bb66255b65dbb346692786b7a9fef6.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;API 图示例&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该扫描工具利用 Cloudflare 自有的 &lt;a href=&quot;https://developers.cloudflare.com/workers-ai/&quot;&gt;Workers AI&lt;/a&gt;&quot; 平台来处理这个模糊问题空间。像 &lt;a href=&quot;https://developers.cloudflare.com/workers-ai/models/gpt-oss-120b/&quot;&gt;open-weight gpt-oss-120b&lt;/a&gt;&quot; (来自 OpenAI )这样的模型能够可靠地匹配数据之间的关系。它们还可以在需要时生成逼真的假数据,有效地填补了 OpenAPI 规范的空白。该模型生成的结构化输出将自然语言推理与机器可执行的扫描指令联系了起来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该扫描工具的控制平面使用 Temporal 进行扫描编排。Cloudflare 内部的其他服务也依赖于这个平台。整个后端均采用 Rust 语言构建。Cloudflare 使用 HashiCorp 的 Vault Transit 密钥引擎来管理凭证。该服务提供加密即服务(Encryption-as-a-Service),这对于授权测试来说至关重要。凭证提交后会立即被加密,而且公共 API 层无法对其进行解密。解密仅发生在最终阶段,即当测试计划请求访问客户的基础设施时。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,该扫描工具已经面向 API Shield 客户公开测试。扫描结果将与现有安全态势分析结果一同显示在 Cloudflare 的“安全洞察”仪表盘中。团队可使用 Cloudflare API 触发扫描、管理设置并获取结果。这使得该功能能够直接集成到 CI/CD 管道或安全仪表盘中。Cloudflare 已经为这项新的 Web 应用程序漏洞扫描服务开放测试候补名单。该功能将处理 SQLi 和 XSS 等常见威胁。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;借助这项功能,Cloudflare 加入了竞争激烈且碎片化的 API DAST 领域。同类功能的对比分析可以为我们带来一些启发。作为 API 安全领域的关键参与者,&lt;a href=&quot;https://salt.security/press-releases/salt-security-accelerates-api-threat-detection-with-new-investigation-capabilities&quot;&gt;Salt Security&lt;/a&gt;&quot; 主要采用被动检测方法。它通过流量分析来检测 BOLA 攻击。Salt 声称,要捕获一次 BOLA 攻击,需要对 API 行为进行数天甚至数周的监控。这涉及对数万亿次 API 调用进行长时间的分析。这种方法在稳定的环境中效果良好,但在开发管道中却难以发挥作用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;声明:本文为InfoQ翻译,未经许可禁止转载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;原文链接:&lt;a href=&quot;https://www.infoq.com/news/2026/03/cloudflare-api-vulnerability/&quot;&gt;https://www.infoq.com/news/2026/03/cloudflare-api-vulnerability/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/8LBRc9hODxYmCvKU85fy</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/8LBRc9hODxYmCvKU85fy</guid>
      <pubDate>Fri, 03 Apr 2026 02:30:00 GMT</pubDate>
      <author>作者:Claudio Masolo</author>
      <category>大会快讯</category>
    </item>
    <item>
      <title>微软推出 Azure Copilot Migration Agent,加速云迁移规划</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bb/ce/bb1800d1fa34eec02a517c2b758e91ce.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;微软最近宣布 &lt;a href=&quot;https://techcommunity.microsoft.com/blog/azuremigrationblog/azure-copilot-migration-agent/4501292&quot;&gt;Azure Copilot Migration Agent&lt;/a&gt;&quot; 正式公开可用。这是一个内置在 Azure 门户中的 AI 助手,目标是简化并加速云迁移中的规划和评估阶段。该 Agent 基于现有的 Azure Migrate 数据运行,可以直接在 Azure Migrate 仪表盘中访问。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这个 Agent 针对的是企业上云过程中一个很典型的痛点:迁移项目之所以推进缓慢,不只是因为技术复杂,还因为工具割裂、规划流程高度依赖人工,以及在真正迁移任何工作负载之前,对大规模本地资产进行评估本身就非常耗时。&lt;a href=&quot;https://info.flexera.com/CM-REPORT-State-of-the-Cloud&quot;&gt;Flexera 最新的云状态报告&lt;/a&gt;&quot;显示,企业的云预算平均超支 17%,而在受访组织中,有 84% 把“成本管理”列为首要挑战。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Migration Agent 主要聚焦迁移前阶段,提供了三大核心能力:&lt;/p&gt;&lt;p&gt;首先,它支持对 VMware 环境进行无代理发现,可以生成资源清单、依赖关系图以及 6R(迁移策略)建议,而且不需要直接连接 Azure,也不需要修改现有网络拓扑。同时,一个配套工具 &lt;a href=&quot;https://learn.microsoft.com/en-us/azure/migrate/azure-copilot-migration-agent&quot;&gt;Azure Migrate Collector&lt;/a&gt;&quot;(目前处于公测阶段)还支持离线采集清单数据,适用于尚未建立 Azure 连接的环境。其次,该 Agent 可以自动创建符合&lt;a href=&quot;https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/&quot;&gt;微软 Cloud Adoption Framework&lt;/a&gt;&quot; 的落地环境,生成 Terraform 或 Bicep 模板,配置网络和身份策略,并输出结构化的迁移波次计划,用于按阶段推进工作负载迁移。第三,它可以和 &lt;a href=&quot;https://github.com/features/copilot&quot;&gt;GitHub Copilot&lt;/a&gt;&quot; 集成,把应用现代化任务(包括 .NET 和 Java 代码升级)直接交给开发团队处理;如果需要更深入的重构分析,还可以配合 CAST Highlight 等第三方工具。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/bf/bfcc0addb48d60c2bbda9045c84e26ec.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;来源:&lt;a href=&quot;https://techcommunity.microsoft.com/blog/azuremigrationblog/azure-copilot-migration-agent/4501292&quot;&gt;微软技术社区博客&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,虽然微软称该 Agent 已“公开可用”,但实际情况稍微复杂一些。IT 专业社区 4sysops 指出,该 Agent “目前仍处于 public preview(公测)阶段”,并强调了一个关键&lt;a href=&quot;https://4sysops.com/archives/azure-copilot-migration-agent-ai-assisted-migration-planning-for-vmware-hyper-v-and-bare-metal-servers/&quot;&gt;限制&lt;/a&gt;&quot;:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;它并不能执行实际的迁移操作。像复制、测试迁移和最终切换(cutover)这些步骤,仍然是在 Azure Migrate 门户中完成,而不是通过这个 Agent。&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;因此,在评估这个工具时,可以把它理解为现有 Azure Migrate 流程之上的一个智能规划层,而不是替代方案。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,它还有一些范围上的限制。例如,目前完整的端到端规划能力(包括落地环境模板生成)&lt;a href=&quot;https://learn.microsoft.com/en-us/azure/copilot/migration-agent#supported-resource-types&quot;&gt;只支持 VMware 工作负载&lt;/a&gt;&quot;;对于 Hyper-V 和裸金属环境,只提供分析和策略建议。另外,如果租户使用了“自带存储(BYOS)”来保存 Copilot 对话历史,就无法使用该 Agent;而且需要在租户级别手动开启 Agent 的预览功能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从竞争角度来看,这种“只做规划、不负责执行”的定位也值得关注。AWS &lt;a href=&quot;https://www.infoq.com/news/2025/05/aws-transform-ai-legacy-migrate/&quot;&gt;在 2025 年 5 月推出&lt;/a&gt;&quot;的 &lt;a href=&quot;https://aws.amazon.com/transform/&quot;&gt;AWS Transform&lt;/a&gt;&quot; 采取了更激进的策略,通过多个专用 Agent 不仅覆盖规划,还延伸到实际执行,包括依赖分析、代码重构和数据库迁移。两大云厂商都在争夺同一批 VMware 客户(这些客户因博通收购后的许可策略调整而产生动荡),因此自动化能力的覆盖范围,正在成为企业选型时的重要差异点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Azure 与 AI 方向的 MVP Dave R 在 &lt;a href=&quot;https://itnext.io/how-microsoft-is-using-ai-agents-to-turn-cloud-migration-from-months-to-days-3f383c9a9adc&quot;&gt;Medium&lt;/a&gt;&quot; 上表示,Migration Agent、GitHub Copilot 应用现代化能力以及 Azure Accelerate 结合起来,构成了一条从发现、到代码改造、再到执行的完整流水线。他认为,这种整合的意义不仅是功能叠加,而是在架构层面具有重要价值。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;SoftwareOne 的云解决方案架构师 Mohamed Salah 在&lt;a href=&quot;https://www.linkedin.com/posts/mo-salah-cloud_azure-copilot-migration-agent-microsoft-activity-7437832983769694209-9TEt&quot;&gt;领英&lt;/a&gt;&quot;上提到了一个非常实用的点:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;Azure Migrate Collector 可以在本地采集资源清单和性能数据,而不需要直接连接 Azure。对于很多企业客户来说,这有助于解决迁移初期最大的障碍之一:发现阶段的限制和安全顾虑。&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Salah 还指出,GitHub Copilot 的集成也在解决大型转型项目中的一个结构性问题:工具分散,以及评估团队和开发团队之间交接缓慢,常常会让项目推进失去节奏。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前官方尚未公布定价。在预览阶段,Azure Copilot 的这些 Agent 能力是免费的,但微软也表示后续会单独公布 Agent 的收费模式。虽然规划能力已经比较完善,但在执行层面仍然存在空缺,因此人工主导的迁移流程依然不可或缺。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该 Agent 可以通过 Azure 门户中的 &lt;a href=&quot;https://azure.microsoft.com/migration&quot;&gt;Azure Migrate&lt;/a&gt;&quot; 访问,在“Accelerate migration”入口下使用,但前提是你的租户已经启用了 Agents 预览功能。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ZQsEz5TXqUWGcbk2FWDL</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ZQsEz5TXqUWGcbk2FWDL</guid>
      <pubDate>Fri, 03 Apr 2026 02:00:00 GMT</pubDate>
      <author>Steef-Jan Wiggers</author>
      <category>AI&amp;大模型</category>
    </item>
    <item>
      <title>Agent in Practice:从支付迁移落地到评测驱动进化|QCon北京</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/41/bc/41d46c523d2b768327279a73435cf4bc.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;从「AI For What」到「Value From AI」,100+可落地实践案例打通AI实战最后一公里!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;4月16日-4月18日,&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/&quot;&gt;QCon 全球软件开发大会&lt;/a&gt;&quot;将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑,聚焦Agentic AI、多智能体协作、算力优化、技术债治理、多模态和AI 原生基础设施等前沿话题,邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家,带来百余项真实落地案例,系统性分享前沿洞察与实战干货,以技术共创探索 AI 落地新路径。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;PayPal Senior Manager - Software Engineering郁丁鑫和PayPal Staff Machine Learning Engineer耿树朋已确认出席 “&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1924&quot;&gt;Agent in Practice:千行百业的 Agent 实践&lt;/a&gt;&quot;” 专题,并发表题为《&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/presentation/7008&quot;&gt;Agent in Practice——从⽀付迁移落地到评测驱动进化&lt;/a&gt;&quot;》的主题分享。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型与智能体(Agent)技术的快速发展,如何高效构建一个 Agent 并在生产环境中稳定运行,是工程团队面临的核心问题。他们以 PayPal 商户支付 API 迁移为真实场景,构建了三套 Multi-Agent 系统:MAIA(迁移执行)通过多 Agent 协作将商户代码从 legacy API 自动迁移到 REST v2,将人工数周压缩到小时级;Noise Injection(测试数据工厂)通过多 Agent 协作自动生成不同难度的代码变体用于评测;Evolution Engine(自动优化 Pipeline)通过多 Agent 协作从执行结果中提取经验并注入回 Agent。三套系统覆盖 8 个项目、4 种 legacy API(NVP/SOAP/WSDL/Payments V1)、4 种语言(Java/PHP/JavaScript/C#)和多个开源购物车(Magento、ZenCart、Medusa 等),形成评测和 Badcase 驱动的完整闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;郁丁鑫,现任 PayPal Senior Manager - Software Engineering,拥有 10 年工作经验,目前主要在风控、支付产品、代码框架等领域从事产品研发,并从传统产品开发逐步拓展到当前的大模型 Agent 应用。2016 年毕业于 University of Manchester,曾先后担任 Senior Software Engineer、Tech Lead 等职位。目前聚焦 Harness Engineering 和 AI for Product Integration 方向,致力于研究如何通过 AI Agent 帮助商户更高效地集成 PayPal 支付,并持续提升商户集成效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;耿树朋,现任 PayPal Machine Learning Engineer,曾任 Software Engineer、Data Scientist,拥有十年从业经验,长期深耕客服、风控、能源等领域的 AI 落地实践,从传统机器学习一路拓展到当下的大模型应用。当前主要聚焦 AI for SDLC 方向,研究如何通过 Coding Agent 帮助大型研发团队提升开发效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他们在本次会议的详细演讲内容如下:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;演讲提纲业务背景与成果PayPal 支付 API 迁移挑战(NVP/SOAP/V1 → REST v2)MAIA 的定位与核心价值Agent 迁移模式与传统人工迁移的区别Pilot 成果:从数周到 20 分钟,成本 $4-$102. MAIA:Multi-Agent 驱动的 API 迁移评测和 Badcase 驱动的研发策略Multi-Agent 协作架构(分析、规划、执行、验证)Knowledge Base:支付流程知识 + Legacy 模式库Experience Agent:执行→测试→学习→反馈闭环3. Noise Injection:Multi-Agent 驱动的测试数据工厂4 级噪声 × 125+ 类型,自动生成难度变体Multi-Agent 协作:噪声分析、注入、验证的自动化流水线4. Evolution Engine:Multi-Agent 驱动的自动优化 Pipeline10 个 Agent Skill 模块的全自动闭环Multi-Agent 协作:采集→分析→学习→应用的端到端优化如何优化 Agent 的稳定性与一致性5. 总结与展望核心经验与教训未来展望这样的技术在实践过程中有哪些核心痛点?如何从最小可行 Agent 开始,设计一个适合自身业务的 Multi-Agent 方案;如何在 Agent 中处理代码迁移的正确性验证,尤其是“表面成功实际未完成”(INCOMPLETE)的隐蔽问题;如何构建可复现的评测体系,跨 8 个项目、4 种语言、多个开源购物车持续驱动 Agent 优化。演讲亮点从实际生产场景出发,深入到 Multi-Agent 架构设计与评测驱动的迭代方法论,体系化地展示了如何将 Agent 从原型推向规模化落地。不同于理论探讨,本演讲基于 PayPal 真实迁移实践——覆盖 Magento、ZenCart、Medusa 等开源购物车,Java/PHP/JavaScript/C# 四种语言,NVP/SOAP/WSDL/Payments V1 四类 legacy API,展示了噪声注入测试、自动经验提取(Gene 机制)、Evolution Engine 等工程化手段如何系统性地提升 Agent 的稳定性和质量。听众收益全面了解从 0 到 1 构建生产级 Multi-Agent 系统的实践历程与真实挑战;深入理解评测驱动开发(Evaluation-Driven Development)的方法论及其在 Agent 优化中的应用;体系化地了解 Agent 架构背后的技术体系:Multi-Agent 协作、Knowledge Base、Experience Loop 的设计与选型;获得可复用的工程化经验:噪声注入测试、Gene 机制、Evolution Engine 等具体实践方案。&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;除此之外,本次大会还策划了&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1902&quot;&gt;Agentic Engineering&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1904&quot;&gt;多模态理解与生成的突破&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1905&quot;&gt;记忆觉醒:智能体记忆系统的范式重塑与产业落地&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1906&quot;&gt;具身智能与物理世界交互&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1907&quot;&gt;Agent Infra 架构设计&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1908&quot;&gt;AI 重塑数据生产与消费&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1909&quot;&gt;AI 原生基础设施&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1910&quot;&gt;AI 驱动的技术债治理&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1911&quot;&gt;小模型与领域适配模型&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1912&quot;&gt;大模型算力优化&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1913&quot;&gt;Agent 可观测性与评估工程&lt;/a&gt;&quot;、&lt;a href=&quot;https://qcon.infoq.cn/2026/beijing/track/1914&quot;&gt;AI for SRE&lt;/a&gt;&quot;等20多个专题论坛,届时将有来自不同行业、不同领域、不同企业的100+资深专家在QCon北京站现场带来前沿技术洞察和一线实践经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;9折倒计时最后一周,现在购票立减680。更多详情可扫码或联系票务经理 18514549229 进行咨询。&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3a/3ad4ca9418a9901c4b216fdef40fdf04.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/jLxZ76Mge0cKdEIwKaIZ</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/jLxZ76Mge0cKdEIwKaIZ</guid>
      <pubDate>Fri, 03 Apr 2026 02:00:00 GMT</pubDate>
      <author>QCon全球软件开发大会</author>
      <category>大会快讯</category>
    </item>
    <item>
      <title>警惕 AI 写作:别让思考与信任在指尖溜走</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/54/543727a873828c8d66111ebe0fe4c74b.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;在技术与创作的交织领域,当我们着手撰写一份技术方案或设计文档时,实则开启了一场提问与解答的思维旅程。就像产品需求文档(PRD)致力于阐明 “我们要做什么?”,技术方案则聚焦于 “我们要怎么做?” 然而,有时还会面临更具挑战性的问题 ——“我们到底想达成什么?” 每一次对答案的探寻,都会促使我们回溯反思,自己所提出的问题是否精准恰当。&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;写作,远非简单地将文字堆砌完毕即告终。其核心要义在于增进自身对事物的理解,并借此提升周围人对相关内容的认知。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当接到写作任务时,我们肩负的使命是深入未知的混沌领域,凭借思考与梳理,带着清晰的结构和深刻的理解破茧而出,实现对未知的征服。同时,写作还承载着提升个人能力的重要使命,恰似健身一般,每一次在能力边界上完成的写作 “动作”,都如同在健身器材上的一次发力,虽会带来不适,需要付出努力,但却能让我们变得更为强大。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但如今,大语言模型的崛起正悄然改变着这一切。我们目睹越来越多由 AI 生成的文档、文章乃至随笔。在此,我们需敲响警钟:每一份 AI 生成的文档,都意味着一次思考与信任建立的绝佳机会被悄然错过。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;写作是思维的深度耕耘&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;让 AI 代劳写作,无异于花钱雇人替自己健身。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;写作的真正目的并非单纯为了产出一篇成品,而是通过深度思考,梳理思路,从而深化自己对事物的理解,并将这份理解传递给他人。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当我们亲自写作时,需在错综复杂的信息与思绪中摸索前行,这个过程充满挑战,却也是思维得以磨砺与升华的关键。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而 AI 生成的内容,看似快速高效,却缺失了创作者深入思考、分析、整合信息的过程,犹如一座缺乏根基的空中楼阁,虽有文字的表象,却难有深刻的内涵。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;让AI替你写作,就像花钱雇人替你健身。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;建立信任:真实思考是可信度的基石&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI 生成的写作带来的影响不容小觑。当我们发送给他人的文档带有明显的 AI 痕迹时,传递给对方的信息仅仅是 AI 生成了一份看似合理的内容,而我们自身真实的思考过程却被隐藏。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这无疑会削弱我们作为项目领导者在他人心中的可信度,因为我们未能通过文档展示自己对相关观点的深入思考与把控能力。本可借此建立信任的契机,就这样在 AI 的代笔中悄然流失。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;毕竟,如果文字都由机器自动生成,他人难免会质疑,观点是否同样未经创作者的深度思索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;AI生成的写作不仅损害了文字的真实性,也损害了背后思考的真实性。如果文字是自动生成的,那观点会不会也是?——(摘自《在Oxide使用AI:AI作为作者》)&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI在写作过程中的正确用法&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;尽管 AI 在写作领域存在诸多弊端,但并不意味着它毫无价值。在研究工作和检查成果阶段,AI 能发挥显著作用,快速检索与整理信息,辅助我们查漏补缺。它还擅长快速记录信息或转录文字,不过这类工作与真正意义上的 “写文章” 有着本质区别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 研究与信息检索&lt;/p&gt;&lt;p&gt;AI擅长快速整理技术背景资料。比如你要调研&quot;国内主流云厂商的Serverless产品差异&quot;,AI可以帮你快速梳理各家的功能矩阵、定价策略和限制条件。但你需要交叉验证这些信息——AI可能会&quot;幻觉&quot;出一些不存在的产品特性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 头脑风暴与创意发散&lt;/p&gt;&lt;p&gt;AI特别擅长生成创意。在这个场景下它表现很好,因为如果它生成10个架构思路,哪怕只有1个有用,也没损失。你可以取走有用的,舍弃其余的。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;3. 文档检查与润色&lt;/p&gt;&lt;p&gt;完成初稿后,AI可以帮助检查逻辑漏洞、语法错误和表达不清晰的地方。但要注意:检查的前提是你已经有了自己的初稿。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;4. 模板生成与格式化&lt;/p&gt;&lt;p&gt;对于一些标准化的文档结构(如API文档、CHANGELOG),AI可以帮助快速生成模板,填充基础信息。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,AI 在生成创意方面表现突出,在创意构思阶段,它能迅速生成多个点子,即便只有部分有用,也能为我们提供新的思路方向。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI 工具确实能在一定程度上提高软件交付的效率,但为了充分发挥其优势,我们必须同步提升自身的思考深度。唯有如此,我们才能在借助 AI 强大功能的同时,不被其削弱思考能力与建立信任的机会,真正实现技术与思维的协同发展。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在 AI 浪潮汹涌的当下,我们需保持清醒,坚守写作背后的思考与信任,让文字成为我们思维深度与可信度的有力彰显,而非 AI 的附庸。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;如何与AI协作而非被替代&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 坚持&quot;先思考,后辅助&quot;的原则&lt;/p&gt;&lt;p&gt;在使用任何AI工具之前,先强迫自己写下核心观点。哪怕只是 bullet points,哪怕语法不通顺——这代表你自己的思考。然后,你可以用AI来扩展、润色、检查。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 建立个人的&quot;写作肌肉记忆&quot;&lt;/p&gt;&lt;p&gt;正如健身需要持续的训练,技术写作也需要刻意练习。建议:&lt;/p&gt;&lt;p&gt;每周写一篇技术随笔:可以是对某个技术决策的复盘,也可以是对新技术的调研。参与技术评审:主动承担技术方案的撰写和讲解,这是建立技术影响力的最佳途径。维护个人技术博客:在InfoQ、掘金、CSDN等平台持续输出,强迫自己在公开场域中表达。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;3. 利用AI提升效率,而非替代思考&lt;/p&gt;&lt;p&gt;OpenClaw 爆火,让 AI 从能写作,到能编程,最后能真干活。这些能力的进化提醒我们:AI应该帮助我们更快地完成可交付的工作,而不是仅仅提供辅助性的情感或提示价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI可以帮我们写代码,但不能替我们思考;AI可以帮我们整理文档,但不能替我们做决策。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这些AI工具会提高软件交付的效率。但为了充分利用它们,我们需要同步提升自己的思考深度。否则,我们只是在用更先进的工具,生产更平庸的思考。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/017dcadf6aa893c09c7028d4c</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/017dcadf6aa893c09c7028d4c</guid>
      <pubDate>Fri, 03 Apr 2026 01:43:03 GMT</pubDate>
      <author>宇宙之一粟</author>
      <category>管理/文化</category>
      <category>AI</category>
      <category>写作</category>
      <category>AI 写作</category>
      <category>月更</category>
    </item>
    <item>
      <title>一个周末 + 1100 美元,干完 5 人 6 个月的活:Cloudflare 用 AI“复刻”Next.js,已跑进生产环境</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9e/8b/9e858yy475a7dd96a0e5ecd03c75a08b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在 AI Coding 狂飙突进的 2026 年,一个原本听上去近乎荒诞的问题,突然变得现实起来:如果工程师不再一行一行手写代码,复杂框架还能不能被“重做”一遍?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Cloudflare Workers 工程负责人 Steve Faulkner,给出了一个足够激进的回答。他借助 AI,在一个周末里“复刻”了整个 Next.js,并把它迁移到了 Vite 之上,做出了 Vinext。整个项目的 Token 成本仅约 1100 美元,但换来的结果却相当惊人:它已经能作为 Next.js 的即插即用替代方案,一条命令即可部署到 Cloudflare Workers;在初步基准测试中,生产环境应用的构建速度最高提升 4 倍,客户端打包体积最高缩小 57%;更关键的是,它已经被客户正式跑进了生产环境。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,Vinext 会迅速引爆开发者社区。真正让人震动的,并不只是“AI 又写了多少代码”,而是它开始逼近一个过去默认只能靠资深工程团队、长周期投入才能完成的任务:重构一个拥有数百万用户的主流前端框架。更微妙的是,这个项目瞄准的还不是边缘玩具,而是 Next.js 这样一个长期深度绑定 Node.js、Vercel 与定制化构建链路的复杂系统。换句话说,这不只是一次 AI Coding 炫技,而是在试图回答一个更现实的问题:当现有框架在跨运行时、跨平台部署上越来越别扭时,AI 能不能直接把它“重写一遍”?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,Steve Faulkner 在播客节目中,与主持人 Wes Bos 和 Scott Tolinski 详细讲述了这个 slop fork 项目的来龙去脉。他们还围绕 AI 编码工作流、Agent 浏览器、代码质量、测试驱动开发,以及 AI 优先时代的软件工具究竟应该长成什么样,展开了深入讨论。基于该播客视频,InfoQ 对内容进行了整理与部分删改。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;核心观点如下:&lt;/p&gt;&lt;p&gt;人类依然需要负责制定方向,AI 只是执行和加速的工具;目标不是写“优雅代码”,而是实现兼容性、通过测试,并验证这条路径是否可行;一个理想的 AI 原生语言,可能是兼具 Rust 的约束能力与 Go 的简洁风格;Agent 的开发体验与人类不同,它不需要界面美观,但必须具备清晰结构,使其能够理解操作路径,这种“面向 agent 的 DX”将成为未来的重要方向;医疗很可能是下一个重点行业,其发展路径可能类似编程领域:AI 能够处理大量基础工作,但仍需要经验丰富的医生进行决策和引导。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“slop fork”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:请先简单介绍一下你自己以及你的工作内容。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我目前是 Cloudflare Workers 的工程总监,整体负责 Workers 相关业务,包括 agents 产品、容器以及 Wrangler CLI 等项目,团队规模大约在 80 人左右。我加入 Cloudflare 已有几年时间。需要澄清的是,我的日常工作并不是编写代码。很多人看了这个项目和博客后,称我为“100倍 工程师”,但我认为更准确的说法应该是“100倍 工程经理”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:在当下 AI 的发展阶段,这是不是正成为趋势?真正拥有“超能力”的,其实是这些“100 倍工程经理”?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:确实如此。我认为 AI 本质上是一种放大器。如果你清楚自己要做什么,它可以帮助你更快、更好地完成任务;但如果方向本身就是错误的,它同样会放大这种错误。因此,人类依然需要负责制定方向,AI 只是执行和加速的工具。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:最近大家在讨论一个词——“slop fork”,因为这次是用 AI 写的代码。你怎么看这个说法?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我觉得这个说法很有趣,也已经接受了,甚至我现在会说“我要去 slop fork 某个东西”。有人还开玩笑说:“我们应该 slop fork Kubernetes,然后用 Rust 重写。”我觉得类似“Vibe Coding”或“Clanker”等新词不断涌现,我更多是以一种轻松的态度看待,并不会觉得被冒犯。(注:“slop fork”可直译为“垃圾分支”,但在此处带有自嘲与网络梗色彩,双关地表达用 AI“糊弄式”地把一个现有项目“叉走”并改写。)&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:为什么你要 fork Next.js 并让它运行在 Vite 上?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:一年前,我们在思考如何更好地支持 Next.js 在 Cloudflare 上运行。Next.js 在托管方面确实存在一些问题,尤其是在非 Vercel 或非 Node 的运行环境中。一些功能对 Node 和 Vercel 有较强依赖,因此虽然理论上可以部署在很多地方,但在边界场景下会出现兼容性问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当时我们曾考虑自行实现一套兼容 Next API 的编译器,但评估后发现这需要约 5 名工程师投入 6 个月时间,成本过高,不现实。于是我们转向了 OpenNext 项目,并且至今仍在持续投入。ps:如果你需要稳定、经过生产验证的方案,应该优先使用 OpenNext。后来我们还尝试过一次,让一位实习生实现 pages router,但也没有成功。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;真正的转折点出现在去年 12 月到今年 1 月,模型能力突然有了质的提升,一切才发生变化。当时我主要是用 AI 做管理相关的工作,比如总结会议纪要、跟踪 Jira、汇总内部信息等。我逐渐意识到,这些模型已经足够强大,于是开始尝试写一些代码项目。我注意到 Next.js 有一套非常完善的测试体系,于是想到:能不能直接用测试来驱动实现?于是就在一个周五下午开始了这个项目。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我先花了几个小时做规划,然后和模型反复交互。第二天早上,我在 app router 的 demo 里测试时发现,它居然已经能跑起来了。虽然还不完美,但已经足以说明这条路是可行的。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:如果让你从零开始,将 Next.js 实现到 Vite 上,你会如何制定计划?这个过程有多少依赖你对软件工程本身的理解?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我确实具备一定优势,因为我熟悉 Next.js,同时团队内部也在其他框架中使用 Vite,因此我清楚整体架构形态。制定初始方案大约花费数小时,并通过 OpenCode 与模型不断迭代。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我大量使用语音转文本工具进行“思维倾倒”,并不依赖复杂的 prompt 技巧,而是不断修正模型输出,例如明确指出某些建议不在项目范围内,如移除 React。这个过程更像人与 AI 的持续协作,而非一次性指令。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:在规划阶段,你主要通过 Markdown 来组织信息吗?有没有特别有效的方法?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:全部使用 Markdown。目前来看,这是最有效的工具,尽管我认为它只是阶段性最优解。未来两到三年内,我们可能会看到更原生适配 LLM 的工作方式。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我维护了一个主计划文档,以及一个专门用于测试的文档。Next.js 的测试集非常庞大(约 8000 个测试),其中很多并不是我第一阶段需要支持的功能。因此,我花了很多时间去筛选和指导模型选择哪些测试。一个关键的突破是:我没有尝试直接运行原始测试套件,而是让模型逐个“迁移”测试。这意味着把测试迁移到自己的测试环境中,并逐步实现对应功能,同时用文档追踪每一个测试的进度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:所谓“迁移测试”,是指转移到 Vitest,还是同时实现对应功能?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:两者兼而有之。一方面将测试迁移到 Vitest 和 Playwright,另一方面实现对应功能逻辑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:这个过程是持续交互,还是可以长时间自动运行?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我曾让 OpenCode 分析整个过程。结果显示,我的 token 使用峰值出现在凌晨 3 点,但我那时候肯定在睡觉,说明我确实在夜间安排了大量任务。我的方式不是写复杂的自动循环,而是给它一个任务文档,比如“完成这 10 件事”,然后让它持续执行。它偶尔会卡住,但整体表现相当不错。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;分析还显示,我的工作模式是“哑铃型”:要么是几分钟的短操作,要么是持续一到两小时的深度工作。这与我的实际节奏一致——我有两个孩子,开发是在生活间隙中进行的,例如带孩子去公园玩,回家之后赶紧跑回电脑前,踢一脚模型,然后再回去陪孩子。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;寻找可靠的AI工作流&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你刚才提到这些数据,是怎么统计的?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Steve:都是从 OpenCode 的会话数据里来的。它会把所有信息存储在 SQLite 里,我直接让模型去分析这些数据。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你使用的是哪个模型?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:主要使用 Opus 4.5 和 4.6,约 99% 的代码由其生成,后期我开始更多做代码评审,有时也会用 Codex 作为辅助。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你觉得不同模型之间差别大吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:很多人说“Opus 写代码、Codex 做评审”,我一开始也这么做,但后来发现差别没有想象中那么大。很多时候让同一个模型自我评审就足够了。我甚至会让它进入一个循环:先评审代码,再修复问题,然后再评审自己,如此迭代两三次,直到没有明显问题为止。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:你的 OpenCode 实际配置是怎样的?是否使用插件、Agent 或 MCP?——你有没有像那些整天调参数的人一样疯狂调试?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我就是那种“调参党”。我最近开始玩pi,简直是一通狂调。不过我这次项目的整体配置非常简洁。我主要使用桌面应用和 VS Code,很少使用终端界面,MCP 或复杂 agent也没用多少。不过我们现在确实有一个针对Vinext的agent,用来处理仓库里的一些审查工作。我们发现,给agent丰富的上下文,它会更好用。那个agent的MD文件甚至就是它在项目开始时自己生成的。过程中我会告诉它:记得更新agent.md,确保里面需要的东西都有。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;倒是有两个 MCP 服务用了比不用好:一个是 Context7,提供开源库索引,另一个是 Exa 搜索。这两者大约带来 20% 的体验提升,但也不是那种“质变”级别的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:在测试过程中,AI 是否会自动操作浏览器?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:会的。我在博客里提到过一个工具——Agent Browser,本质上是对 Playwright 的封装,提供了一个很好用的 CLI 接口。我在这个项目中用得很多。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我会让它同时操作两个环境:一个是生产环境中的 app router playground,另一个是 Vinext 的实现版本,然后给它指令去复现问题、对比行为、定位差异。这在调试过程中非常有帮助,比如有一次我说“滚动不够流畅”,这种描述其实很模糊,但模型竟然能自己识别问题,并给出解决方案,这让我非常震惊。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:我用 Agent Browser 时遇到一个问题:Opus 模型经常处理不了截图,说“截图太大”,然后整个 session 就崩掉了。你有遇到吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:遇到过,而且确实很严重。在 OpenCode 里,这种情况会直接污染整个会话,只能重开。问题在于,有些会话本身非常有价值,所以我有时候会让模型把当前上下文压缩成一个 markdown 文件保存下来,方便之后恢复或复用。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:你会密切监控上下文吗?比如使用子 agent 来管理?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:没有特别系统地做这件事,也确实不是完美的。有时候上下文压缩后,模型会“跑偏”,需要重新引导。不过我注意到,OpenCode 在这方面近期已有明显改进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,我还维护了一个名为 discoveries.md 的文件,用于记录过程中发现的各种问题,例如某些 React 或 Webpack 版本和 Vite 的兼容问题。每当遇到问题,就记录下来,这样模型可以基于这些“已知结论”继续推进,而不是反复踩坑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:我最近在一个项目中也遇到类似问题:模型不断重复同一错误,例如错误地将服务端代码引入客户端模块,进而陷入循环修复。我最终只能将解决方案写入 agents.md 或外部文档,以强制约束其行为。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:基于这个现象,我的一个重要体会是:agent 对反馈(feedback)的响应能力极强。相比之下,人类并不擅长快速吸收并迭代反馈。如果你告诉一个人“这不对,重写一遍”,效果未必明显,但对模型来说,提供新的上下文后,它往往能显著改进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;很多人刚接触 AI 时,会因为第一次结果不好就否定它。但实际上,只要多迭代几轮,到第四五次时,它往往就能做对。这种“快速纠偏能力”是关键。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:确实,有些人只试一次就觉得工具不行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这是因为程序员的思维习惯。传统程序是确定性的,如果代码错了,每次运行都会错。但 LLM 处在一个“非确定性”的中间地带,这种不确定性反而是一种特性。它可能第一次输出很糟糕,但你可以纠正它,它下一次就不会再犯同样的错误。当然,这也意味着风险。比如它可能生成错误的 Terraform 配置,甚至破坏生产环境。但如果你及时纠正,它大概率不会再犯。我自己也不是 AI 的极端乐观主义者,我既对它的潜力感到兴奋,也对其中的风险感到担忧。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:AI 生成的代码质量整体表现如何?是否存在明显“跑偏”的情况?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:当然有。我每次看代码时,其实都不太满意。代码通常比较冗长,也不是我会写的风格。这个项目让我必须接受一点:目标不是写“优雅代码”,而是实现兼容性、通过测试,并验证这条路径是否可行。这是一个实验,核心是探索 AI 的边界,而不是追求完美工程实践。如果代码质量以后成为问题,可以再优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;举个例子,目前 Vinext 的一部分代码是通过模板字符串生成的,也就是说代码是“拼接出来的”,没有类型检查、没有 lint,只能通过端到端测试验证。这种方式我其实很不喜欢,也不利于维护。所以现在我们正在逐步重构,把这些生成代码拆出来,变成可类型检查、可 lint 的正常代码结构,这也是一个从“AI生成”到“工程化”的回收过程。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:我最近在构建 AI 工作流时,会为每个功能设计多个处理阶段,例如 lint、样式、UI、可访问性等,但感觉成本很高。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这正是我认为“约束”(guardrails)重要的原因。测试、lint、格式化这些都是必要的约束,但同时也不能完全限制模型。理想的方式是:大部分时间把任务拆成小块,并加上明确约束;但在某些时刻,也要允许模型“自由发挥”,比如让它重新设计某个模块,提出不同思路。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:我也会定期让模型进行审计分析,从中获得一些我自己未曾考虑到的优化点。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:像这种用 AI 写出来的系统,安全方面怎么保证?我听说 Vercel 甚至把漏洞提交到了 Cloudflare 的漏洞赏金项目里,这是真的吗?他们拿到奖金了吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:相关流程仍在进行中。我们确实收到了包括 Vercel 在内的多方安全报告,我对此非常感谢。老实说,有人将此举解读为刻意找茬,但我认为,该项目仅发布一周,存在安全漏洞是十分正常的情况。我反而希望大家多提交问题,这样我们可以把这些漏洞反馈给 AI,让它参与修复。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整个过程其实非常有意思——我们正在用 AI 来处理 AI 产生的问题。AI 在帮我们分类漏洞、修复漏洞、验证漏洞,甚至参与与安全研究者的沟通。我们还在做一些暂时不能公开的工作,比如构建自己的 AI agent,用来主动发现安全漏洞。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我们看到一些外部提交的漏洞后,意识到这些问题其实具有某种模式,于是就尝试用 AI 自己去找类似问题。结果不仅找到了当前项目的漏洞,还能在其他项目中发现问题,这让我们意识到这个方向非常有潜力。目前我们把这当作一个学习机会:如何用 AI 构建一整套安全体系。从现在的实践来看,AI 在安全领域同样表现得相当不错。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;项目上线约两周以来,我们已发布26至27个版本,持续进行漏洞修复与项目维护。我也在思考如何推动该项目从实验阶段迈向更稳定的阶段,例如移除实验标签,将其调整为稳定版或测试版,让用户能够放心地将其应用于生产环境。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:最终目标是把它变成一个可以正式使用的产品?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:其实已经有人在用了。我们会明确告诉用户它的限制和风险。很多用户对 Next.js 的使用其实比较简单,比如主要是静态页面,只有少量 API 或部分动态页面。在这种“功能使用范围较窄”的场景下,目前体验其实已经不错了。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:从根本上来说,是把整个框架迁移过来更合理,还是干脆让 AI 帮你迁移到另一个框架?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我一直对客户说:如果你喜欢 Next.js,那这个方案很适合你;但如果你本身就不喜欢 Next.js,那完全没必要折腾,花 10 美元的 token,就可以迁移到其他框架。现在的选择非常多,比如 Astro、TanStack、SolidJS 等等。借助 AI,只要你有一套完善的端到端测试,迁移成本已经变得非常低。&lt;/p&gt;&lt;p&gt;我做这个项目并不是因为我特别热爱 Next.js,而是因为我想探索 AI 的能力边界。如果你不想用 Next.js,完全可以让 AI 帮你换掉它。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:我最近也用 AI 将一个 Express 项目迁移到 Hono,几乎是自动完成的,门槛真的变低了。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这也让我在思考:未来软件开发的激励机制会发生什么变化?抽象层的意义是否会改变?我没有答案,但可以确定的是,这条边界一定会发生变化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;未来的AI原生编程语言&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:未来是否会出现专为 AI 设计的框架或编程语言?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我认为一定会。甚至不仅是框架,还可能出现“AI 优先”的编程语言。当然,这些新技术一开始会面临“训练数据缺失”的问题——模型不知道怎么用它们。但我不认为这是无法解决的。未来一定会有新的方法,把关键知识注入模型,使 AI 能够快速掌握新语言或新框架。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:“AI 原生的编程语言”会是什么样?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我觉得核心还是“约束”,因此,这样的语言很可能是强类型的。如果观察现有语言,Rust 虽然较为冗长,但拥有完善的安全机制,甚至有一种说法是“只要能编译通过,就基本可以运行”。但与此同时,我认为还需要类似 Go 的简洁性。Go 的设计理念是“少而精”,通常只有一两种实现方式。因此,一个理想的 AI 原生语言,可能是兼具 Rust 的约束能力与 Go 的简洁风格。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:那语法会更偏向严格规范,还是类似自然语言?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我倾向于前者。为了提供清晰的约束边界,语法仍然需要是严格且有限的。当然,我个人非常喜欢 TypeScript,如果它在 AI 时代被替代,我会感到遗憾。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:在你的 OpenCode 环境中,是否使用了 TypeScript 的 LSP?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:它是默认启用的,因此一直在后台运行。我不确定它是否带来了显著提升,但也没有证据表明它无效。不过,LSP 有时会出现不同步的问题,例如提示错误,但实际类型检查已经通过,这类情况会导致模型短暂困惑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:如果未来类型检查可以在极短时间内完成,是否会进一步提升 AI 效率?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我们已经在使用一些高性能工具,例如 TypeScript Go、Oxlint、OX Format 以及 Vitest。我在项目中优先选择这些高性能工具,因为快速反馈循环至关重要。如果每次编译都要几秒钟,那整个效率会被严重拖慢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Scott:近年来,Cloudflare 在开发者体验(DX)方面似乎有明显提升,这是否是有意为之?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:这是明确的战略方向。我加入 Cloudflare 时,核心目标之一就是提升开发者体验。我们的重点在于引入具备良好产品判断力的人才,并赋予他们充分空间去优化体验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为管理者,我的职责更像是“决定在哪里建设消防站”,而不是亲自“灭火”。这意味着我要从更长期的视角去看,比如两年后团队是否能产出更好的产品。目前来看,这些投入已经开始产生回报,例如新的设计工程团队正在持续优化控制台界面。虽然仍有改进空间,但相比几年前已经有显著提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;我们还有许多尚未公开的项目,正在从多个层面推进改进。一方面是持续优化现有产品,另一方面也在重新思考平台的整体形态,不仅要适合人类开发者,也要适配 agent。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Agent 的开发体验与人类不同,它不需要界面美观,但必须具备清晰结构,使其能够理解操作路径,这种“面向 agent 的 DX”将成为未来的重要方向。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:在结束前,你还有什么想补充的吗?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:我想从一个更宏观的角度来说:我对这一切既兴奋,又不安。我们正处在一个可能是巨大技术变革的时代,就像印刷术、蒸汽机那样的革命性节点。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果要类比,我们这一代人经历过的最接近的可能是移动互联网,甚至是互联网本身。但即便是互联网,它的普及也花了很长时间,需要铺设基础设施。而现在不一样,一项新能力发布后,几乎 24 小时内,全世界的人都能用到。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;所以,不只是这场变革的“规模”巨大,它的“速度”也被极度压缩了。有时候我会觉得自己已经走在很前面,但有时候看到别人做的事情,又会意识到自己其实还只是刚刚起步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:你认为下一个被 AI 深刻改变的行业会是哪些?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:医疗很可能是下一个重点行业,其发展路径可能类似编程领域:AI 能够处理大量基础工作,但仍需要经验丰富的医生进行决策和引导。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;实际上,一些医院已经在使用 AI,例如语音转录等技术。虽然由于监管严格,全面普及还需要时间,但我认为它最终会彻底改变我们理解和处理病人信息的方式。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Wes:例如将可穿戴设备数据与大规模病例数据结合,确实可能带来新的突破。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Steve:作为技术从业者,我们需要尽力引导技术向有益方向发展。正如印刷术既推动文明进步,也引发冲突一样,AI 同样会带来正反两方面影响。我们的责任是尽可能扩大其正面价值。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;访谈视频原链接:https://www.youtube.com/watch?v=h39oZb2-7Xo&amp;amp;t=1s&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/XNfsebiwgEd1hbcissWd</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/XNfsebiwgEd1hbcissWd</guid>
      <pubDate>Thu, 02 Apr 2026 11:07:02 GMT</pubDate>
      <author>傅宇琪</author>
      <category>生成式 AI</category>
    </item>
    <item>
      <title>从数据留底到隐身进开源,Claude Code 泄露的代码里,处处写着:这家公司人品不行</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/8d/50/8deae4debe78efa2d0f10ccd99dd1850.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;从去年 Claude Code 发布以来,我们其实也写过不少肯定它的文章。它确实是当前最成熟的一批 AI 编码工具之一,这一点没有太多争议。但与此同时,Anthropic 本身也并不是一家没有争议的公司,而这次源码泄露,则让一些原本不太容易被外界看到的产品设计被放到了台面上。这篇文章的重点,并不在于简单评价 Claude Code“好”或“不好”,而是基于这次泄露的源码,去看它在权限边界、数据处理以及开源参与方式上的一些具体实现。再好的工具也会有取舍,这些取舍本身,才是更值得被认真讨论的部分。&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这周,Anthropic 因一次发布失误,把 Claude Code 的大部分核心源码直接暴露在了网上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;事情的起点,是 npm 上发布的 Claude Code 2.1.88 安装包。包里混进了一个本不该公开的 map 文件。这类文件原本只是开发阶段的调试工具,用来在代码被压缩、打包之后,依然能把报错信息对应回原始源码中的具体位置。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;问题在于,map 文件里往往不只有“映射关系”,还可能直接包含原始源码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;更关键的是,这个 map 文件还指向了 Anthropic 在 Cloudflare R2 存储桶中的一个 zip 压缩包。顺着这个地址,外界可以直接下载并解压完整源码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这个压缩包里的内容相当完整:大约 1900 个 TypeScript 文件,总计约 52万行代码,包含一整套内置命令以及各种内置工具,可以说是“该有的全都有”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;删不掉的源代码&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从结构上看,Claude Code 采用了一套类似插件的工具体系。文件读取、Bash 执行、网页抓取、LSP 集成等能力,都被拆成独立工具,并带有权限控制。仅基础工具定义,就占了将近 3 万行代码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,代码中还包含一个约 4.6 万行的 Query Engine,可以理解为整个系统的“大脑”,负责模型调用、流式输出、缓存以及整体调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;更进一步,Claude Code 还具备多智能体编排能力。它可以拉起子智能体(内部称为 “swarms”),把复杂任务拆分并并行执行,每个智能体都有独立上下文和工具权限。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在使用体验上,IDE 与 CLI 之间通过一套双向通信机制打通。VS Code、JetBrains 等编辑器插件,正是通过这层桥接系统与 Claude Code 交互,实现“在编辑器里用 AI 编码”的体验。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,源码中还包含一套持久化记忆机制。Claude 会以文件的形式,在本地持续记录与用户、项目以及使用偏好相关的信息,并在后续会话中调用这些内容。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;事发之后,Anthropic 已下架相关版本。负责 Claude Code 的工程师 Boris Cherny 专门澄清,这件事就是一次开发失误。本质上是流程、文化或基础设施问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/4f/4f9ade08706f0954b966bccc6ba57e99.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,代码一旦流出去,就很难再收回来了。GitHub 上很快冒出了数百个源码镜像。其中,用户 Sigrid Jin 上传的一个版本,最新已经拿下 10.5 万 star、9.5 万 fork。作为对比,Anthropic 官方那个主要用来分享插件和收 bug 反馈的 Claude Code 仓库,star 也不过 9.5 万左右。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有报道称,Anthropic 已经开始发版权删除请求。为了避开这类风险,Jin 后来又借助 OpenAI Codex,把这份 TypeScript 代码改写成了 Python,随后又继续改成了 Rust。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;截至目前,Anthropic 尚未回应是否会对这些“再实现”项目采取法律行动。这也引出了一个更复杂的问题:既然 Anthropic 一直强调 Claude Code 的代码大部分是由 AI 自己生成的,那么这些代码在版权上是否具备保护资格?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;技术律师 Russ Pearlman 在 LinkedIn 上指出:“按照当前美国版权法,作品必须具备实质性的人类创作才能获得保护……竞争对手如果研究这些泄露的代码,可能面对的是在法律意义上并不受保护的内容。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还写道:“最讽刺的是,这个世界上最先进的 AI 编码工具,可能正是靠自己,把自己的知识产权‘写没了’。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2a/2a9bc5e19d30a6cda44fb98dc3aba276.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/ce/ce4395e885bac295c34576b264cc40d3.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代码背后那些不想让你知道的秘密&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Claude Code 在开发上的效果确实不错,但如果往下拆,真正起决定作用的,可能还是底层大模型,而不只是外面那层封装。更何况,业内已经有开源的 Codex、Gemini,以及 OpenCode 这类命令行工具,在技术思路上并没有本质差别。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有网友评论称,Claude 的命令行工具谈不上有什么“独门秘诀”,其代理框架甚至未必比同类产品更强。也就是说,这次泄露最值得看的,未必是 Claude Code “到底有多强”,而是全球开发者顺着这份源码,究竟挖出了多少原本不该被外界知道的东西。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;虽然Claude Code不像rootkit那样拥有持久内核访问权限,但对其源代码的分析发现,这款智能体程序对于用户计算机的控制能力仍远超协议条款中的表述。它不仅会保留大量用户数据,甚至在面对拒绝AI的开源项目时可以隐藏其身份。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从泄露的Claude Code客户端源代码来看(研究人员对其二进制文件进行了逆向工程),这款程序几乎可以控制任何完成了安装的用户设备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;它说动不了模型,但入口一个没少&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最近,Anthropic 与美国政府合作相关的一场风波,又把一个关键问题摆上台面:它到底能不能动模型。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;外界担心的是,Anthropic 理论上仍有能力在特殊情况下调整模型行为,甚至让系统失效。Anthropic 对此予以否认,还强调模型一旦部署进机密环境,自己就无法再访问,更谈不上控制。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;然而,一位要求匿名的安全研究员(化名“Antlers”)在梳理 Claude Code 源码后认为,在机密环境中,似乎可通过满足以下所有条件以阻止Claude Code采取“回传”或其他远程操作:&lt;/p&gt;&lt;p&gt;确保推理传输通过Amazon Bedrock GovCloud或Google AI for Public Sector (Vertex)进行。阻止数据收集端点。使用防火墙保护Statsig/GrowthBook/Sentry等工具。阻止系统提示符指纹识别(例如通过Bedrock)。通过版本锁定和阻止更新端点来阻止自动更新。禁用autoDream,这是一个正在测试中的未发布后台代理,能够读取所有会话记录。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;我们没有找到在机密环境中运行的特定设置,但Claude Code确实支持多种可限制远程通信的标记。具体包括:&lt;/p&gt;&lt;p&gt;CLAUDE_CODE_DISABLE_AUTO_MEMORY=1,禁用所有内存与遥测写入操作。CLAUDE_CODE_SIMPLE (--bare mode),完全移除内存与autoDream。ANTHROPIC_BASE_URL,可用于将API调用重新定向至私有端点。ANTHROPIC_UNIX_SOCKET,通过转发套接字(SSH隧道模式)对身份验证进行路由。远程管理设置(policySettings)可以锁定企业级部署行为,但无法彻底锁死。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据 Anthropic 公共部门负责人 Thiyagu Ramasamy 介绍,Anthropic 会将模型的运行与管理权交由这类高安全级别的客户环境,包括功能增减在内的更新,也需要双方协商确认。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他在 2026 年 3 月 20 日的声明中表示,例如在系统运行期间,Anthropic 人员无法直接登录客户环境去修改或停用模型,这在技术上不可行。在机密部署中,只有客户及其授权的云服务提供方可以访问系统。Anthropic 主要负责提供模型本体,并在客户要求或批准的情况下提供更新。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;即便如此,Anthropic 仍可以通过合同条款,在一定范围内保留部分控制能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;Claude Code 背后,有一整套拿用户信息的办法&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;对于所有未使用与防火墙连接的公有云版本、或以某种方式实现物理隔离的Claude Code用户而言,Anthropic拥有着更大的访问权限。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;首先,Anthropic会接收通过其API传输的用户提示词与响应结果。这些对话不仅可能泄露对话内容,还可能泄露文件内容及系统详细信息。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从源代码内容来看,除此之外,该公司还通过其他多种方式接收或收集用户信息,具体包括:&lt;/p&gt;&lt;p&gt;KAIROS(src/bootstrap/state.ts:72)是由kairosActive标记设置的守护进程(后台进程)。它似乎属于尚未发布的无头“助手模式”,会在用户不查看终端用户界面 (TUI) 时起效。它会移除状态栏(StatusLine.tsx:33),禁用规划模式,并静默禁用AskUserQuestion工具(AskUserQuestionTool.tsx:141)。它还会自动将长时间运行的bash命令置于后台,而不会发出任何通知(BashTool.tsx:976)。CHICAGO的全称为计算机使用与桌面控制。它使Claude智能体能够执行鼠标点击、键盘输入、访问剪贴板和截屏。此功能已公开发布,可供Pro/Max订阅用户和Anthropic 员工以“ant”标记使用。此外,还有一项独立且公开发布的Chrome版Claude服务,支持浏览器自动化以及所有相关的系统访问权限。持久遥测。最初,这项功能由Statsig实现,并于去年9月被竞争对手OpenAI收购。这很可能是促使他们切换到 GrowthBook 的原因。GrowthBook是支持A/B测试和分析的平台。Claude启动后,分析服务 (firstPartyEventLoggingExporter.ts) 会在网络中断时,将以下数据保存到 ~/.claude/telemetry/ 目录并向服务器发送:用户ID、会话ID、应用版本、平台、终端类型、组织UUID、帐户UUID、电子邮件地址(如果已设置)以及当前启用的功能门控。Anthropic可以在会话期间激活这些功能门控,包括启用或禁用分析功能。远程管理设置 (remoteManagedSettings/index.ts)。对于企业客户,Anthropic维护的专用服务器会推送policySettings对象。该对象可以:覆盖合并链中的其他项;每小时轮询一次,无需用户交互;可以设置 .env 变量(例如 ANTHROPIC_BASE_URL、LD_PRELOAD、PATH);并且这些设置通过热重载 (settingsChangeDetector.notifyChange) 立即生效。当出现“危险设置更改”时,系统会提示用户,但该术语由Anthropic代码定义,因此可能会进行修改。常规更改(权限、.env 变量、功能标记)似乎不会触发通知。Auto-updater自动更新程序。自动更新程序 (autoUpdater.ts:assertMinVersion()) 每次启动时都会运行,并从Statsig/GrowthBook处拉取配置版本。如此一来,Anthropic就能根据需要删除或禁用特定版本。错误报告。当出现未处理的异常时,错误报告脚本 (sentry.ts) 会捕捉当前工作目录,其中可能包含项目名称、路径和其他系统信息。此脚本还会报告已激活的功能门控、用户ID、电子邮件、会话ID和平台信息。有效负载大小遥测。此API会调用 tengu_api_query以传输 messageLength,即系统提示词、消息和工具模式的JSON序列化字节长度。autoDream。autoDream服务已开放讨论但尚未正式发布,它会生成一个后台子智能体,该子智能体会搜索(grep)所有JSONL会话记录以整合内存(Claude用作查询上下文的存储数据)。该智能体与 Claude 运行在同一进程中(使用相同的API密钥和相同的网络访问权限)且扫描均在本地执行。但它写入MEMORY.md的任何内容都会被注入到未来的系统提示词中,因此会被发送至API。团队内存同步。这项双向同步服务(src/services/teamMemorySync/index.ts)会将本地内存文件接入至api.anthropic.com/api/claude_code/team_memory,由此实现在组织内与其他团队成员共享内存的方法。该服务包含一个密钥扫描器 (secretSanner.ts),使用正则表达式模式来匹配大约40种已知的token和API密钥模式(AWS、Azure、GCP 等)。但是,不匹配这些正则表达式的敏感数据可能会通过内存同步暴露给其他团队成员。实验性Skill搜索 (src/tools/SkillTool/SkillTool.ts:108) 为仅对Anthropic员工可用的功能标记。它提供的方法能够将skill定义下载至远程服务器 (remoteSkillLoader.js);跟踪会话中已使用的远程skill (remoteSkillState.js);以及执行远程下载的skill (第969行处的executeRemoteSkill()) ;并注册skill以便在精简操作后保留。如果为非员工帐户启用此功能(例如使用GrowthBook功能标记),理论上会构成一条远程代码执行路径。Anthropic或任何控制skill搜索后端的人员,都能够以“skill”的形式提供任意提词注入或指令覆盖,在会话中加载并运行这些skill。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;不是“看一眼”,而是“留一份副本”&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;研究员Antlers还强调说,“人们恐怕没有意识到,Claude查看的每个文件都会被保存并上传至Anthropic。换言之,只要Claude在设备上接触过的文件,Anthropic那边就会有相应的副本。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;对于Free/Pro/Max版用户,Anthropic会在用户接受将共享数据用于模型训练时将数据保留五年;若不接受则仅保留30天。商业用户(Team、Enterprise及API版)的标准数据保留期限为30天,用户可选择不保留任何数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不久前,微软Recall曾经引发激烈争论,而Claude Code的活动捕捉机制与之类似。在每次发生工具调用读取、每次Bash工具调用、每次搜索(grep)结果以及每次对新旧内容进行编辑/写入时,内容都会以纯文本格式被存储在本地JSONL文件当中。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Claude的autoDream智能体在正式发布之后,会搜索这些文件并将提取到的数据存储在MEMORY.md文件之内,再将该文件注入至后续系统提示词以调用API。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;另外几个劲爆发现&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;去做开源,但别把自己是 AI 这件事说出去&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从产品策略的角度看,这种做法本身就有很强的指向性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Anthropic 的员工会用 Claude Code 参与公共仓库和开源项目的开发。代码里通过 USER_TYPE === &#39;ant&#39; 来识别员工身份。而 Undercover Mode(utils/undercover.ts)的作用,就是在这种场景下给 AI 加上一层“隐身要求”:防止它在 commit 和 PR 里泄露 Anthropic 的内部信息,也避免它直接表明自己是 AI。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/27/275ba59b351d25f795a4fa6913dae0e1.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一旦这个模式开启,系统就会把下面这段内容直接塞进 system prompt 里:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/9365593c22ab8b13d6b68134ef7f66eb.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这段代码至少说明了:第一,Anthropic 的员工确实在用 Claude Code 参与开源项目,而且系统被明确要求不要暴露自己是 AI。第二,Anthropic 内部模型代号确实采用动物命名,比如 Capybara、Tengu。第三,“Tengu”在代码中高频出现,作为功能开关和埋点事件的前缀,基本可以判断,它就是 Claude Code 的内部项目代号之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;按常规流程,这些逻辑在构建产物中会被当作“死代码”剔除,但 source map 依然保留了完整映射,这些信息并没有真正消失。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Anthropic 显然清楚,“AI 参与开源贡献”在很多社区依然是敏感话题,所以它的做法不是提高透明度,而是先把身份隐藏起来。在这种前提下,一个更值得追问的问题是:他们内部究竟已经对多少开源代码库造成了多大破坏。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;防蒸馏这件事,选了一种不太体面的做法&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在 claude.ts(301–313 行)里,有一个名为 ANTI_DISTILLATION_CC 的开关。打开之后,Claude Code 在发起 API 请求时,会带上 anti_distillation: [&#39;fake_tools&#39;]。这意味着服务端会悄悄往 system prompt 里塞进一些伪造出来的工具定义。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e0/e0c6989d81df6aa13877ccf45d47b408.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这套设计的目的并不复杂。如果有人在录制 Claude Code 的 API 流量,想把这些数据拿去训练竞品模型,这些“假工具”就会一起混进训练数据里,变成专门用来搅浑水的污染项。这个能力由 GrowthBook 的 feature flag tengu_anti_distill_fake_tool_injection 控制,而且只对官方 CLI 会话开放。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这也是最早在 HN 上被不少人注意到的细节之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代码里还藏着第二套反蒸馏机制,位置在 betas.ts(279–298 行),名字叫 connector-text summarization。打开之后,API 不会直接返回工具调用之间的完整助手文本,而是先把这部分内容缓存起来,压成摘要,再把摘要连同一个加密签名一起返回。到了下一轮,再通过这个签名把原文恢复出来。也就是说,如果你在抓 API 流量,拿到的只是“缩水版”,完整推理链并不会直接落在你手里。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/13/137bd5a3591d46ccbe8a8f61cfed8fe7.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;问题是,这两套东西并没有看上去那么牢。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从 claude.ts 的触发逻辑来看,“假工具注入”要生效,必须同时满足四个条件:编译时打开 ANTI_DISTILLATION_CC,走 CLI 入口,使用官方 API 提供方,以及 GrowthBook 返回 tengu_anti_distill_fake_tool_injection=true。只要架一个 MITM 代理,在请求到达 API 之前把 anti_distillation 字段删掉,这套机制就会直接失效,因为注入动作发生在服务端,而开关是客户端主动递过去的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;另外,shouldIncludeFirstPartyOnlyBetas() 还会检查环境变量 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS。只要把它设成真值,整套机制都可以关掉。如果你走的不是官方 CLI,而是第三方 API 提供方,或者干脆使用 SDK 入口,这段检查甚至根本不会触发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;至于 connector-text summarization,范围还更小,只对 Anthropic 内部用户(USER_TYPE === &#39;ant&#39;)开放,外部用户本来就碰不到。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;所以这件事最难看的地方在于,它一方面试图靠“假工具”和“摘要替换”来给潜在的模仿者下绊子,另一方面,这些手段又并不算多高明。只要认真翻一遍源码,真想拿 Claude Code 流量做蒸馏的人,很快就能把绕过路径摸清。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;一天浪费约 25 万次 API 调用&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在 autoCompact.ts(68–70 行)里,有一段注释写道:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“BQ 2026-03-10: 1,279 sessions had 50+ consecutive failures (up to 3,272) in a single session, wasting ~250K API calls/day globally.”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f6/f6e0e5a660fb4811d1f0294c3cca0ee4.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;意思是,在 1279 个会话里,autoCompact 连续失败了 50 次以上,最高的一个会话甚至连续失败了 3272 次,最终在全球范围内每天浪费了大约 25 万次 API 调用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这里的 compaction,指的是对上下文进行压缩,避免会话过长、token 过多,而这个过程本身也需要调用 API。如果压缩过程不断失败,系统又持续重试,就会不断额外消耗调用次数。后来的修复方式很直接:设置 MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3。也就是说,只要 autoCompact 连续失败 3 次,这个会话后续就不再继续尝试压缩,以避免无效重试继续浪费 API 调用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;写在最后&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;需要补充的一点是,这次并不是 Claude Code 第一次泄露。该产品经历了 360+ 次版本迭代,而Claude Code 的源码,实际上至少已经泄露过三次。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第一次发生在 2025 年 2 月。Anthropic 当天发布 Claude Code,npm 包里带着一个 23MB 的 cli.mjs 文件。开发者 Dave Shoemaker 用 Sublime Text 打开后,在文件末尾发现了一段长达 1800 万字符的字符串,实际上那是一份以 base64 编码的内联 source map。source map 本来是用来把压缩后的代码映射回原始源码的,而这一份映射信息,已经可以把整套 Claude Code 源码还原出来。随后,Anthropic 迅速推送了一个更新(版本 0.2.9),移除了源映射。但网上还是有一些分支,如:&lt;a href=&quot;https://github.com/jinrunsen/claude-code-sourcemap&quot;&gt;https://github.com/jinrunsen/claude-code-sourcemap&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第二次发生在 2026 年 3 月 7 日。有人发现,npm 包 @anthropic-ai/claude-agent-sdk 中意外包含了完整的 Claude Code CLI 打包文件:一个约 13800 行的压缩 JavaScript 文件 cli.js,版本为 2.1.71,构建于 3 月 6 日。也就是说,不再是通过映射还原源码,而是整个可执行代码直接被一起打包进了 SDK。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;第三次才是 2026 年 3 月 31 日,59.8MB 的独立 source map 再次把整套代码暴露出来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;也就是说,Claude Code 代码其实已经在网上公开 13 个月了。过去 13 个月里,这套代码被反复扒出、镜像、逆向、整理,直到这一次才真正引爆舆论。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.theregister.com/2026/04/01/claude_code_source_leak_privacy_nightmare/&quot;&gt;https://www.theregister.com/2026/04/01/claude_code_source_leak_privacy_nightmare/&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://thehuman2ai.com/blog/claude-code-source-leak&quot;&gt;https://thehuman2ai.com/blog/claude-code-source-leak&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://github.com/sanbuphy/learn-coding-agent/blob/main/docs/en/04-remote-control-and-killswitches.md&quot;&gt;https://github.com/sanbuphy/learn-coding-agent/blob/main/docs/en/04-remote-control-and-killswitches.md&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.linkedin.com/feed/update/urn:li:activity:7444797889337470976/&quot;&gt;https://www.linkedin.com/feed/update/urn:li:activity:7444797889337470976/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/oyztKc9IQUguMOOx6imT</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/oyztKc9IQUguMOOx6imT</guid>
      <pubDate>Thu, 02 Apr 2026 10:53:27 GMT</pubDate>
      <author>Tina</author>
      <category>生成式 AI</category>
    </item>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>五大赛道齐亮相!第四届世界科学智能大赛启动报名,首设人文科学赛道</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/29/57/29dac442c80389a7ef01df5cc8273a57.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;随着人工智能深入科研实践,它不仅在各领域课题的预测、计算等方面屡创新高,也正介入曾被认为高度依赖人类直觉与经验的文化阐释工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;继第四届世界科学智能大赛的创新赛道“AI4S智能体CNS挑战赛”在一个月前率先发布,吹响了自主科研智能体的攻坚号角,大赛全赛道于4月2日上线并启动报名。本届世界科学智能大赛共设置五大赛道,采用算法赛和创新赛两种模式,并首次设立人文科学赛道,推动前沿技术与中华文明研究的深度融合。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次大赛由复旦大学和上海科学智能研究院(下称上智院)主办,上海未来产业基金、上海未来启点社区、上海祖泉创新转化研究院、上海市漕河泾新兴技术开发区发展总公司、上海大模型生态发展有限公司、内蒙古电力交易中心、华为云计算技术有限公司、上海复星医药(集团)股份有限公司、新奥科技发展有限公司、中科天机气象科技有限公司、上海博物馆、湖南省博物馆协办,知乎、CSDN、InfoQ、WaytoAGI为社区伙伴。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为科学智能(AI for Science, AI4S)领域的标杆赛事,自2023年以来,世界科学智能大赛已成功举办三届,累计吸引全球近30个国家和地区的4万名选手参赛。今年的第四届大赛设立百万奖金池,面向全球英才广发招募令,旨在以高水平赛事为牵引,持续汇聚并培养科学智能人才,助力科研范式变革与行业高质量发展。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/16/16558ba575b03032779510e273c80242.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;大赛官网:&lt;a href=&quot;https://competition.ai4s.com.cn/&quot;&gt;https://competition.ai4s.com.cn/&lt;/a&gt;&quot;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;四大算法赛道:问题都来自业界真实场景&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;延续第三届“更产业”的办赛理念,本届大赛持续构建既面向科研前沿、又直击产业实际的立体化竞赛体系,并在算法赛道进一步强化与业界真实场景的对接。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;四大算法赛道分别聚焦电力市场交易、可控核聚变、生物结构预测与古文字识别四个方向,依托真实数据集与复杂业务环境设计,强调从问题理解到模型构建再到策略落地的全流程能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;电力市场交易赛道围绕新型电力系统建设中的关键问题展开,重点关注储能资源在电力现货市场中的优化运行。参赛选手需要综合运用时间序列建模、机器学习等技术,完成节点实时电价预测与储能充放电策略设计。赛题基于蒙西地区电力市场真实运行数据,融合负荷、新能源出力、气象条件等多维度信息,支持选手构建兼具高精度与工程实用性的模型,完成 “数据分析-模型构建-电价预测-策略设计-收益核算” 全流程解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/01/011191b2f067bfc8fe7de761258ef351.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;聚焦国际核聚变研究和未来能源产业前沿,可控核聚变赛道旨在解决聚变领域核心技术挑战——等离子体位形精准控制,为人类文明可持续发展提供不竭动力。赛道以新奥集团建造的我国首座中等规模球形环聚变装置 “玄龙-50U” 球形托卡马克为实践载体,鼓励选手运用人工智能技术构建高精度、高效率控制策略,攻克极高温、非线性、强耦合等离子体稳定控制这一关键难点。选手需在高保真仿真环境中完成控制策略设计、执行与效果验证全流程闭环,实现等离子体位形精准调控。复赛中排名前列的队伍,将有机会在“玄龙-50U” 装置上开展上机测试。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/fa/fa60a9c3cb8ed7763cdb8843f3a2b930.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;生物结构预测赛道聚焦RNA–蛋白复合物三维结构预测这一关键前沿问题。针对RNA构象高度柔性、相互作用界面复杂且异质性强等核心挑战,鼓励选手发展融合深度学习、生成式建模与等变神经网络的统一建模框架,实现对分子序列、空间构型与相互作用关系的协同刻画。参赛者需完成从数据解析、模型设计到结构生成与精度优化的全流程科研闭环,探索AI与结构生物学在复杂生物体系中的深度融合路径。相关研究有望为RNA药物开发、抗病毒机制解析及精准医疗提供新的方法学基础与技术支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c9/c9f7600a7bbd0f379fd61bb789152a8d.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;依托复旦大学出土文献与古文字研究中心独家整理的权威数据,古文字识别赛道要求选手从完整古文拓片中实现文字精准检测与自动识别,尝试破解复杂背景、风化噪声、字符粘连等实际难点。参赛选手需整合目标检测、OCR识别、检索增强等技术栈,搭建端到端古文字智能识别系统,运用YOLO、ResNet、多模态大模型等方法完成文字定位与内容识别,并结合甲骨文预训练数据、跨域训练数据持续优化模型。&lt;/p&gt;&lt;p&gt;“本赛道重点考察三类能力,包括从复杂图像中提取信息的能力、多技术栈融合的工程能力,以及在有限资源下实现高效建模的能力。”赛题组成员、复旦大学出土文献与古文字研究中心副研究员任攀表示,依托甲骨文、金文、简牍等多载体权威数据,赛道将围绕古文字的检测、识别与结构化解析等关键环节展开,希望能吸引和组织更多开发者参与探索早期中华文明的数字化传承与系统性研究。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f1/f1d1f835e8761426837b1b7a2a0c0a29.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;创新赛道:自主智能体挑战CNS成果SOTA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;相较于算法赛道侧重产业化问题求解,创新赛道则指向科研范式的深入变革。本届大赛重磅推出全球首个自主科研智能体挑战赛——AI4S智能体CNS挑战赛,以挑战并超越Cell、Nature、Science(CNS)顶级科研成果为核心导向,鼓励选手构建面向科学发现的自主AI智能体,实现科研规划、实验设计与验证迭代的全流程自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;赛事聚焦自主科研智能体,设置了高通量药物虚拟筛选优化、靶向分子设计与逆合成规划闭环、蛋白质构象系综生成、神经算子自动改进四项核心任务,要求参赛智能体在零人工干预条件下,独立完成文献理解、代码重构、假设提出、实验验证与结果迭代,并在此基础上挑战并超越CNS等顶级期刊已发表成果及同等级研究的当前最优水平(SOTA)。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“科学智能最终要靠年轻人来突破。”复旦大学校长、中国科学院院士金力在挑战赛发布现场指出,直接让智能体挑战CNS级别的科研问题在两年前不可想象,如今AI正在拉平科研的起跑线,年轻人的“异想天开”不再因为缺少“超级科研合伙人”而被浪费,这比任何一篇顶刊论文都重要。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6e218a287c7e8477a863b2232fec1877.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;(复旦大学校长、中国科学院院士金力,复旦大学学术委员会主任、中国科学院院士龚新高,复旦大学校长助理、上智院理事长吴力波,复旦大学复杂体系多尺度研究院院长马剑鹏,上智院院长、复旦大学特聘教授漆远,上海人工智能实验室主任助理、领军科学家乔宇,上海祖泉创新转化研究院院长、复旦科创董事长孙彭军,上海未来产业基金总经理、上海未来启点社区理事长魏凡杰,复旦大学数学科学学院研究员任潇,复旦大学研究员、上智院AI科学家屈超,共同发布挑战赛)&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为保障赛事的专业性与权威性,该赛道特别组建了由多位在CNS级科研成果领域具有广泛影响力的院士和顶尖学者组成的评审委员会。阵容包括复旦大学校长、中国科学院院士金力,复旦大学学术委员会主任、中国科学院院士龚新高,复旦大学教授、应用数学中心主任雷震,复旦大学教授、复杂体系多尺度研究院院长马剑鹏,复旦大学教授、附属华山医院神经内科副主任郁金泰,上智院院长、复旦大学特聘教授漆远等,共同确保赛事的科学深度与专业标准。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在具体机制上,挑战赛以完整科研闭环能力为核心评估标准,要求参赛智能体在文献解析与逻辑解构、瓶颈诊断与假设提出、自主设计与代码演进、实验验证与科学迭代四个关键阶段实现高度自动化。评测将基于标准化干实验数据集,从科学性能、探索效率与计算经济性、演进逻辑严密性三个维度进行综合评估,系统检验智能体开展科研活动的能力边界。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;现在,是你入场的时候&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为主办方代表,复旦大学校长助理、上智院理事长吴力波表示,本届大赛旨在深入构建集科研探索、技术交流与产业对接于一体的高水平平台,不仅为科学智能人才提供成长与竞技空间,也推动科研成果与前沿技术在产业与人文领域的广泛应用,助力全球科学智能生态持续繁荣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;大赛整体分为初赛、复赛和决赛三个赛段:3月至5月为报名组队与初赛阶段,6月至8月为复赛和决赛阶段(具体赛程安排以赛题详情页公示及组委会通知为准)。各参赛队伍将围绕百万奖金池展开角逐,在真实科研与产业问题中检验能力、激发创意。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;目前,大赛报名通道已面向全球开放,诚邀人工智能与科学领域的研究者、开发者及创新团队积极参与。无论你是在做模型、做系统,或从事领域科研,亦或只是想验证“AI还能做到什么”,这里都是展示能力、突破边界的舞台。你创造的,或许不仅会是一个更优结果,还有可能是全新的方法。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/82c356ca3303b1933c6d566a611592dd.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/UMPFZoYAiPsvqbIoETR1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/UMPFZoYAiPsvqbIoETR1</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:01 GMT</pubDate>
      <author>上海科学智能研究院</author>
      <category>AI&amp;大模型</category>
    </item>
    <item>
      <title>全行业都狂卷 Harness,Anthropic 还在加码,Codex 负责人却说它正在退场</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/0f/b6/0f651f13b1edd11e0714dd918dc48fb6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;今年年初,OpenAI 的架构师 Bill Chen 和 Brian Fioca 在一期演讲里详细介绍了Codex构建过程中克服的挑战,以及 Coding Agent 本身一些新兴的使用模式。谈及 Coding Agent 的构成时介绍其由三部分组成:用户界面、模型和 Harness。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;用户界面显而易见,可能是命令行工具,也可能是集成开发环境,或者是云端或后台 Agent。模型也很直白,比如OpenAI的 GPT-5.1 系列模型或其他一些供应商的模型。至于 Harness,这是一个稍微复杂一点的部分,它直接与模型交互,最简化地说,可以将其看作是由一系列提示和工具组合而成的核心 Agent 循环,它为模型提供输入和输出。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cdbef2b8cd943fa01e110633b228f672.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Harness 是模型的接口层,它是模型与用户、代码之间进行交互的媒介。它包括了模型需要的所有组件,以便在多轮对话中进行工作,调用工具,并最终为你编写代码,解读用户的需求。对一些产品来说,Harness 可能是其中的关键部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Anthropic 前几日也发布了一篇博客文章,名为《Harness design for long-running application development》(长时运行应用开发的Harness Design),文中提到 Harness 指的是一种支撑复杂 AI 智能体(Agent)运行的外部框架、控制结构与编排系统。它不是单一的算法,而是一整套工程化的“脚手架”,用于管理和放大 AI 的能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;它是 Prompt Engineering(提示词工程)之上的更高级抽象。Prompt 决定了单次对话的质量,而 Harness 决定了多轮、多智能体、长时任务的执行流程和可靠性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Harness 的核心作用是解决 AI 在完成复杂、耗时任务时的“失控”问题(Go off the rails),通过外部控制机制弥补模型内在的缺陷(如上下文焦虑、自我美化)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;无论是OpenAI还是Anthropic,都明确认定 Harness 是 Coding Agent 落地的关键,但两家顶级巨头的分歧在于,该把 Harness 做强做厚,还是做薄做轻?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Harness该做大还是缩小?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;行业内部也似乎正在形成一种新的共识:决定 AI 编程上限的,不再是模型本身的单次生成能力,而是 Harness Engineering。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在 Anthropic 最近的工程文章展示了他们对 Long-running Agent(长时运行智能体) 的深度探索。为了解决 AI 在长时间任务中“脱轨”的问题,他们构建了一套极其严密的 Harness:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结构化交接(Structured Handoff): 强制 AI 在上下文耗尽前生成“进度文件”,将状态外置。多智能体协作: 引入 Planner(规划器)、Generator(生成器)、Evaluator(评估器)分工。上下文重置机制: 为了避免“上下文焦虑”,直接清空对话历史,仅保留结构化产物,给新智能体一张“白板”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这种思路的本质是“把 Harness 做强、做厚”。他们认为,只要框架足够健壮,就能撑起最复杂的任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但近日,OpenAI Codex 开源负责人 Michael Bolin做客了一档访谈栏目,释放出了与 Anthropic 把 Harness 做厚做强相反的信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场对话围绕“AI 编码时代,真正改变软件开发范式的究竟是‘大模型本身’,还是围绕模型构建的 harness?”这一话题展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在访谈中,Michael 认为,Harness 不应该无限膨胀。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Michael 根据 Codex 的构建理念阐述了一个他们看到的重要趋势:理想状态下,harness 应该“尽可能小”,而模型应“尽可能强”。Codex 的设计理念就是减少工具数量、避免过度干预,让模型在更接近真实计算环境(如终端)的空间中自主探索解决路径。这种“AGI导向”的思路,本质上是在减少人为规则对模型的束缚,把更多决策权交还给模型本身。但Michael 也提到,在这一过程中,安全(security)和隔离(sandboxing)成为不可妥协的底线,也是 harness 不可替代的核心职责。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Codex 的理念更倾向于“把 Harness 做薄、做轻”,具体表现在以下几点:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;最小化工具依赖: 甚至刻意减少专用工具,转而让模型直接使用通用的终端(Terminal)。环境而非框架: Harness 仅提供必要的沙箱(Sandbox)安全环境和基础接口,不做过多的流程控制。能力回归模型: 探索、决策和执行的逻辑,尽量交给模型自身去学习,而不是由外部的编排框架硬编码。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这种思路担心的是,过于复杂的 Harness 反而会把模型“教傻”,或者产生沉重的工程负担,拖慢迭代速度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;OpenAI和Anthropic的两种路径选择给 AI 从业者带来一个必须要思考的问题:Harness,到底是 AI Coding 的终局,还是一个正在被快速放大的中间态?&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;因为这个问题的答案决定了未来的产品形态:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果 Harness 是终局: 那么未来的竞

@github-actions github-actions bot added auto: not ready to review Users can't get the RSS feed output according to automated testing results and removed auto: ready to review labels Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 06:05:24 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>35 年只卖设计,今天亲自下场造芯!Arm 首款自研芯片发布,Meta 抢下首单</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/96/bd2a783fdb8597628458b8acc4e02096.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;36年来,半导体与软件公司 Arm 一直将芯片设计授权给英伟达、苹果等企业使用,如今终于开始自主研发并制造自有芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在近日举办的发布活动上,该公司正式推出一款面向AI数据中心推理场景、可直接量产的处理器Arm AGI CPU。这家英国企业基于自研Neoverse系列CPU IP内核,并与Meta合作完成了这款芯片的开发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,Meta也是Arm AGI CPU的首位客户,该芯片专为与Meta的AI训练及推理加速器协同工作而设计。Arm的首批合作方还包括OpenAI、Cerebras、Cloudflare等多家科技公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;市场对Arm转型自研芯片的动向早有预期。据外媒报道,该公司早在2023年便启动了芯片研发工作,目前相关处理器已开放订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管此举在预料之中,却标志着Arm历史性地打破了长期以来仅向其他芯片厂商授权设计的传统模式。这家由日本软银集团控股的公司,未来将与众多合作伙伴直接展开竞争。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm选择推出CPU而非GPU,这一点同样值得关注。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代理式AI基础设施崛起&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI系统正日益以全球规模持续运行。在过去,人是计算环节的瓶颈——人们与系统的交互速度决定了工作推进的速度。而在代理式AI时代,因为软件智能体可自主协同任务、与多个模型交互,并实时做出决策,这种局限性将不复存在。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着AI系统持续运行且工作负载复杂度不断提升,CPU已成为现代基础设施中决定运行节奏的关键要素——负责保持分布式AI系统大规模的高效运行。在现下的AI数据中心中,CPU管理数千个分布式任务,包括协调加速器、管理内存与存储、调度工作负载、跨系统迁移数据,加上当今的代理式&amp;nbsp;AI场景兴起,CPU&amp;nbsp;还需面向海量智能体实现大规模协同调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这一转变对CPU提出了全新要求,驱动处理器架构的演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm Neoverse 现已成为当今众多领先超大规模云服务及AI平台的核心支撑,包括Amazon&amp;nbsp;Graviton、Google&amp;nbsp;Axion、Microsoft&amp;nbsp;Azure Cobalt&amp;nbsp;及&amp;nbsp;NVIDIA&amp;nbsp;Vera&amp;nbsp;等。随着AI基础设施在全球范围内不断扩展,生态系统的合作伙伴纷纷期待Arm&amp;nbsp;能够提供更多能力。为应对这一变革,Arm AGI CPU应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Arm AGI CPU:专为机架级代理式AI效率而生&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代理式AI&amp;nbsp;工作负载需要在大规模场景下实现持续稳定的性能输出。Arm AGI CPU&amp;nbsp;正是为此而设计,能够在数千核心并行的持续高负载下,为每个任务提供高性能表现,且满足现代数据中心功耗与散热的严格要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从运行频率到内存及I/O架构,Arm AGI CPU的每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的代理式&amp;nbsp;AI&amp;nbsp;工作负载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成两颗CPU&amp;nbsp;芯片,并配备独立内存与&amp;nbsp;I/O,共计&amp;nbsp;272 个核心。这些刀片服务器可在标准风冷&amp;nbsp;36 千瓦&amp;nbsp;(kW) 机架中满配部署,30 台刀片服务器可提供总计&amp;nbsp;8160 个核心。此外,Arm 还与&amp;nbsp;Supermicro 合作推出&amp;nbsp;200 千瓦&amp;nbsp;(kW) 液冷设计方案,可容纳&amp;nbsp;336 颗&amp;nbsp;Arm AGI CPU,提供超过&amp;nbsp;45000 个核心。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在该配置下,凭借Arm架构的根本优势,以及系统资源与计算能力的精准匹配,Arm AGI CPU 可实现单机架性能达到最新x86系统的两倍以上:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Arm AGI CPU具备业界领先的内存带宽,使每个机架能够支持更多高效执行的线程;相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降;高性能、高能效的单线程&lt;a href=&quot;https://www.arm.com/products/silicon-ip-cpu/neoverse/neoverse-v3&quot;&gt;Arm Neoverse V3处理器&lt;/a&gt;&quot;核心性能出众,优于传统架构——每个Arm线程可处理更多任务;更多可用线程与更高单线程处理能力相互叠加,最终实现单机架性能的大幅提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm AGI CPU已获得合作伙伴的认可,这些合作伙伴均处于代理式AI基础设施规模化部署的前沿领域。计划部署场景涵盖加速器管理、代理式&amp;nbsp;AI&amp;nbsp;协同调度,以及支撑代理式&amp;nbsp;AI&amp;nbsp;任务规模化扩展所需的服务、应用与工具的高密度部署,同时还包括为AI数据中心提供更强的网络与数据面计算能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化吉瓦级规模基础设施,并与Meta自研的MTIA加速器协同运行。其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯——这些企业均与Arm合作部署Arm AGI CPU,以加速云、网络及企业环境中的AI驱动型服务落地。目前,永擎电子、联想及Supermicro已开放商用系统订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为进一步加速产品采用,Arm推出Arm AGI CPU 1OU双节点参考服务器,该服务器采用符合开放计算项目&amp;nbsp;(Open Compute Project,OCP)的DC-MHS标准规格设计。Arm计划向社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;图形处理器(GPU)因承担AI模型训练与运行任务而备受瞩目,而CPU在数据中心机架中同样扮演着不可或缺的关键角色。Arm在主推这款CPU时强调,此类芯片负责处理成千上万项分布式任务,包括内存与存储管理、任务调度、系统间数据传输等。该公司表示,CPU已成为“现代基础设施的节奏核心,保障分布式AI系统实现高效规模化运行”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm指出,这一趋势对CPU提出了全新要求,也推动处理器必须迭代升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,全球CPU供应也日趋紧张。据外媒此前报道,今年3月,英特尔与AMD均告知中国客户,受CPU短缺影响,产品交付周期将进一步延长。随着短缺状况加剧,电脑产品价格也已开始上涨。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&quot;&gt;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</guid>
      <pubDate>Wed, 25 Mar 2026 03:53:18 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>英伟达联手 Akamai:AI Grid 背后的 Token 成本与吞吐博弈</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/73/e6/73a91bfcbb4d60e78aa703a2bf7e3fe6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026年3月18日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的NVIDIA® AI Grid参考设计实施方案 。通过将NVIDIA AI基础设施集成到Akamai的架构中,并利用网络层面的智能工作负载编排,Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此举标志着去年底推出的&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-inference-cloud-transforms-ai-from-core-to-edge-with-nvidia&quot;&gt;Akamai Inference Cloud&lt;/a&gt;&quot;&amp;nbsp;在演进中迈出重要一步。作为首家实现AI网格运营化的公司,Akamai正部署&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-to-deploy-thousands-of-nvidia-blackwell-gpus-to-create-one-of-the-worlds-most-widely-distributed-ai-platforms&quot;&gt;数千个&lt;/a&gt;&quot;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/&quot;&gt;NVIDIA RTX PRO 6000 Blackwell服务器版GPU&lt;/a&gt;&quot;的平台,为企业提供能够运行智能体和物理AI的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“AI工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics),”Akamai云技术事业部首席运营官兼总经理Adam Karon表示 。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在4400个站点以合适的成本和时间路由AI工作负载”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“Token经济”的架构&amp;nbsp;&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI Grid的核心是一个智能编排器,充当AI请求的实时代理 。通过将Akamai在应用性能优化方面的专业知识应用于AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾AI工作负载提供了巨大的成本和性能优势 。例如:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质GPU周期 。Akamai Cloud基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型AI操作。实时响应能力:游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。核心节点的生产级AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/products/ai-enterprise/&quot;&gt;NVIDIA AI Enterprise&lt;/a&gt;&quot;、&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/&quot;&gt;Blackwell架构&lt;/a&gt;&quot;和&lt;a href=&quot;https://www.nvidia.com/en-us/networking/products/data-processing-unit/&quot;&gt;NVIDIA BlueField DPU&lt;/a&gt;&quot;,Akamai能够管理跨边缘和核心位置的复杂服务等级协议 :&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;边缘(4,400+个站点):为物理AI和自主智能体提供极速响应 。它利用语义缓存和WebAssembly等服务器端功能(Akamai Functions和EdgeWorkers)提供模型亲和性和稳定的性能 。Akamai Cloud IaaS与专用GPU集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而Blackwell GPU阵列则助力繁重的后训练和多模态推理 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;NVIDIA电信业务发展全球副总裁Chris Penrose表示:“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将NVIDIA AI Grid投入运营,Akamai正在构建生成式、代理式和物理AI的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一波AI基础设施由少数几个中心化地点的海量GPU集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建AI代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</guid>
      <pubDate>Tue, 24 Mar 2026 03:15:34 GMT</pubDate>
      <author>Akamai</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token 成本全球最低;2027 营收将到 1 万亿;Feynman 架构已在路上;</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/11/f4/115d52389f4a43db78a749c9b88b06f4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/5f/5fb74fd8c08eca05c28144f0711ed342.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;北京时间2026年3月17日凌晨两点半,当英伟达 CEO 黄仁勋穿着那件标志性的黑色皮衣踏上SAP中心的舞台时,台下近万名开发者心里清楚:这一次,老黄要讲的不是某个单一芯片,而是一整套AI“全家桶”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款“前所未见的芯片”,被普遍认为是采用台积电1.6nm&amp;nbsp;制程、引入光通信技术的下一代Feynman架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今天揭晓的Feynman架构、Vera Rubin平台的量产进展,以及面向企业级自主代理的开源平台NemoClaw,不过是这座基础设施落地所需的“钢筋水泥”。黄仁勋用两个小时向资本市场证明了一件事:英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为“数万亿美元AI基建时代”搭建完整技术栈的“总包工头”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;回顾 CUDA 20年:安装基数引爆飞轮,GPU算力成本持续下降&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;演讲刚开始,黄仁勋用近十分钟篇幅,回溯了CUDA架构诞生20年的演进历程。他将这套软件生态定义为英伟达一切业务的“中心”,并直言:真正难以复制的壁垒,是底层的安装基数。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“二十年来,我们一直致力于这种革命性架构——单指令多线程(SIMT),让开发者编写的扩展代码能够轻松生成多线程应用,编程难度远低于传统方法。”黄仁勋回忆道。他特别提到近期引入的“tiles”(张量核心编程块)功能,旨在帮助开发者调用Tensor Core以及支撑当今AI的数学结构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如今,围绕CUDA已形成庞大的工具链生态:数千种工具、编译器、框架和库;仅开源领域就有数十万个公开项目。“CUDA真正融入了每一个生态系统,”黄仁勋说,“这张图,基本上描述了100%的媒体战略——你们从一开始就看我讲这张幻灯片。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/84/84b6bc25cb1fa808e64e51b5de28dbaa.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他随后指向图表底层:“最难实现的东西在这里——安装基数。我们花了20年,才在全球建立起数亿块运行CUDA的GPU和计算系统。我们在每一朵云里,在每一家计算机公司里,服务几乎每一个行业。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋将这套逻辑总结为“飞轮效应”:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“CUDA的安装基数,是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,带来技术突破——比如深度学习,还有很多其他领域。这些突破催生全新市场,围绕它们形成新的生态,更多公司加入,进而扩大安装基数。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他称这一飞轮正在加速:“NVIDIA库的下载量增长极快,规模巨大,增速前所未有。这个飞轮让计算平台能够承载如此多的应用和突破,更重要的是,它赋予了这些基础设施极长的有效生命周期。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;背后的逻辑很直接:CUDA支持的应用程序范围足够广,覆盖AI生命周期的每一个阶段,对接每一种数据处理平台,加速各类科学原理求解器。“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当安装基数足够大、飞轮足够快、开发者触达足够广,并且软件持续更新时,结果就是计算成本不断下降。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“加速计算让应用性能大幅提升,而我们在其生命周期内持续优化软件,”黄仁勋总结道,“你不仅获得初期的性能跃升,还能获得持续的算力成本降低。我们愿意支持全球每一块GPU,因为它们架构兼容。为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他最后补充道:“这套动态机制,让NVIDIA架构不断扩展应用范围,加速自身增长,同时降低计算成本,最终催生新的增长。CUDA就在这一切的中心。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为结尾的轻松注脚,黄仁勋提及了GeForce的历史:“我知道你们中有多少人是从GFORCE成长起来的——那是最棒的市场营销,我们在很早之前就开始吸引未来的客户。”&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为数据处理打造新的核心软件库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;演讲中,老黄提到下面这张图是本场演讲中最重要的一张图,因为里面提到了英伟达为数据处理打造的新的核心软件库。老黄在演讲中谈到,随着 AI 的快速发展,全球数据处理体系正迎来一次结构性的变革,其中最核心的变化,是结构化数据与非结构化数据的全面加速。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/05/05fdddc05dd6bc73f4685555bc058402.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋指出,长期以来企业计算的基础建立在结构化数据之上。无论是 SQL、Spark、Pandas 等技术体系,还是诸如 Snowflake、Databricks、Amazon 的 EMR、Microsoft 的 Azure Fabric,以及 Google 的 BigQuery 等大型数据平台,本质上都在处理一种核心数据结构——数据框(DataFrame)。这些数据框可以被理解为巨型电子表格,承载着企业运营和业务决策所依赖的关键信息,是企业计算体系中的“事实来源”(ground truth)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去,对结构化数据的加速主要是为了提升企业的数据分析效率:让计算任务完成得更多、成本更低,并且能够在一天内更频繁地运行数据处理流程,从而让企业运营更加高效、更加同步。但在 AI 时代,这一逻辑正在发生变化。黄仁勋表示,未来不仅人类会使用这些数据结构,AI 系统和智能体(Agent)也将直接访问和使用结构化数据库,而 AI 的处理速度远远快于人类,这意味着数据处理基础设施必须获得数量级的性能提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/a7/a77054d74f495ee94b71011c7e669e9a.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,另一类更庞大的数据也正在成为 AI 时代的重要资源——非结构化数据。黄仁勋指出,向量数据库、PDF 文档、视频、语音和演讲内容等都属于非结构化数据。全球每年产生的数据中,大约 90% 都是非结构化数据。然而在很长一段时间里,这些数据几乎无法被计算系统有效利用,人们只是阅读这些内容,然后把它们存储在文件系统中,却很难对其进行查询和搜索。其根本原因在于,非结构化数据缺乏可直接建立索引的结构,要使用这些数据,首先必须理解其语义和目的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 AI 的多模态理解能力正在改变这一状况。正如 AI 已经在多模态感知和理解方面取得突破一样,同样的技术可以用于读取 PDF、理解视频和语音内容,并将其语义信息嵌入到可计算的数据结构中,从而使这些数据能够被搜索、查询和分析。换句话说,AI 正在把原本难以利用的海量非结构化数据转化为可计算的信息资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了支持这一转变,NVIDIA 构建了两项关键基础技术。黄仁勋表示,就像当年为 3D 图形计算推出 RTX 技术一样,NVIDIA 现在为数据处理打造了新的核心软件库。其中 cuDF 用于加速数据框计算,主要面向结构化数据处理;而 cuVS 则面向向量存储和语义数据,用于处理非结构化数据和 AI 数据。这两项技术将成为未来数据基础设施中最重要的平台之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋透露,目前这两项技术正在逐步融入全球复杂的数据处理生态系统。由于数据处理产业已经发展了数十年,围绕它已经形成了大量公司、平台和服务,因此将新的加速技术深度整合进整个生态需要时间。但 NVIDIA 已经看到越来越多的合作伙伴开始采用这些技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,IBM——SQL 的发明者之一,也是历史上最重要数据库技术的推动者——正在利用 cuDF 来加速其数据平台 IBM watsonx.data。在黄仁勋看来,这类合作标志着 AI 正在逐步重塑整个数据处理基础设施,使企业能够同时高效利用结构化数据和海量的非结构化数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI 原生行业的爆发和英伟达万亿美金的信心&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI重塑整个基础设施的另一个标志是涌现出海量的AI原生企业。去年,这个行业经历了史无前例的飞跃。风险投资对初创公司的投入高达 1500 亿美元,创人类历史之最。投资规模也从千万美元级跃升至数十亿美金级。究其原因,是这些公司历史性地都需要海量算力和 Token。无论它们是创造 Token 还是为 Token 增值,它们对算力的渴望是共同的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,“正如 PC、互联网、移动云革命催生了谷歌、亚马逊和 Meta,这次计算平台的迁移也将孕育出一批对世界未来至关重要的新巨头。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;那为什么这种AI企业的爆发会发生在这两年?黄仁勋称这因为发生了三件大事:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;ChatGPT 开启生成式 AI 时代: 计算从“基于检索”转向“基于生成”。这彻底改变了计算机的架构、供应和建设方式。推理 AI(o1/o3)的出现: AI 开始拥有反思、规划、拆解问题的能力。o1 让生成式 AI 变得可靠且基于事实。为了“思考”,输入和输出 Token 的使用量呈爆炸式增长。Claude Code 开启代理(Agentic)时代: 这是首个代理模型。它能阅读文件、编码、编译、测试并迭代。它革新了软件工程。现在 NVIDIA 内部每个工程师都在使用 AI 代理辅助编程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/17/17118ee96a34b892bf1037971287a0d3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,“AI 已经从“感知”进化到“生成”,再到“推理”,现在已经可以执行极其高效的实际工作。 “推理拐点”已经到来。 AI 要思考、要行动、要阅读、要推理,每一环都在进行推理(Inference)。现在已经远超训练阶段,进入了推理的疆场。过去两年,计算需求增长了约 10,000 倍,而使用量增长了约 100 倍。我深感这两年的计算需求实际增长了 100 万倍。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;紧接着,老黄又分享了几个数据,让现场的气氛达到了高潮。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他高兴地向观众分享道,“去年我说 Blackwell 和 Rubin 到 2026 年的订单额将达 5000 亿美元,你们可能没觉得惊艳。但今天,在这里,我预见通过 2027 年的营收将至少达到 1 万亿美元。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他进一步强调了这不是空话,因为计算需求只会更高。2025 年是 NVIDIA 的“推理之年”,NVIDIA 系统是全球成本最低的 AI 基础设施——使用寿命越长,成本就越低。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他这么说的背后有着坚实的数据支撑。目前,全球三分之一的 AI 计算开源模型(如 Anthropic 和 Meta 的模型)都跑在英伟达芯片上。NVIDIA 是全球唯一能运行 AI 所有领域的平台:语言、生物、图形、视觉、机器人、边缘或云端。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在英伟达的业务中,60% 来自顶级云服务商(Hyperscalers),不仅支持其内部 AI 消费(如推荐系统、搜索向大模型的迁移),更通过英伟达的生态系统加速每一家 AI 实验室。另外 40% 则遍布区域云、主权云、企业级服务器及工业自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0e/0e806cea61a12db814d69e0f9ed55533.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Token 成本全球最低&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋介绍了 NVIDIA 在 AI 推理基础设施上的最新进展。他表示,AI 性能的突破并不仅来自单一技术,而是由计算架构、软件栈和算法的系统级协同设计共同推动。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋提到,NVIDIA 推出的 NVFP4(FP4)计算体系不仅是一种更低精度的数据格式,而是一种全新的 Tensor Core 计算架构。通过 NVFP4,NVIDIA 已经实现了在推理阶段几乎不损失精度的情况下,大幅提升性能和能效,同时这一计算格式也开始应用于模型训练。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结合 NVLink 72 高速互连,以及 Dynamo、TensorRT-LLM 等软件优化,NVIDIA 构建起一套面向大模型推理的完整技术体系。为优化底层软件与 GPU 内核,公司还投入数十亿美元建设 NVIDIA DGX Cloud 超级计算平台,用于开发和调优 AI 推理软件栈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2c/2ca4a822b3054612b6ec3b2be3b1ae20.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋强调,很多人曾认为推理是 AI 系统中最简单的部分,但实际上 推理既是最困难的环节,也是最关键的商业环节,因为它直接决定 AI 服务的收入来源。根据研究机构 SemiAnalysis 的评测,在数据中心层面,衡量 AI 系统效率的关键指标是每瓦特能够生成多少 token(tokens per watt)。由于数据中心受到电力等物理条件限制,本质上更像一个“AI 工厂”,企业必须在固定功率下尽可能多地生产 token。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;评测结果显示,NVIDIA 在 AI 推理性能和效率上依然保持领先。按照传统 Moore&#39;s Law,新一代芯片通常只能带来约 1.5 倍性能提升,但从 Hopper H200 到 Grace Blackwell NVLink 72 架构,NVIDIA 的 每瓦特性能提升约 35 倍。SemiAnalysis 分析师 Dylan Patel 甚至认为实际提升接近 50 倍。这一架构也带来了更低的 token 成本,在当前市场上具有明显优势。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3f/3f362a51e80793a3d483c69b03eb9744.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,这种极致的软硬件协同设计还能显著提升现有系统性能。例如在部分 AI 推理平台中,仅通过更新 NVIDIA 软件栈,就能将生成速度从 约 700 token/秒提升至接近 5000 token/秒,性能提升约 7 倍。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋强调,NVIDIA 的 Token 成本在世界范围内是“不可触碰”的。 即便竞争对手的架构是免费的,它也不够便宜。因为建立一个 1GW 的工厂,即便里面什么都不放,15 年的摊销成本也高达 400 亿美元。你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的 Token 生产成本。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/61/616c7d590295721c6809df83623166a3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在他看来,数据中心的角色正在发生变化:过去它是存储和计算中心,而未来将成为生产 token 的 AI 工厂。随着 AI 的普及,无论是云厂商、AI 公司还是传统企业,都将开始从“Token 工厂效率”的角度来衡量自己的计算基础设施,因为在 AI 时代,token 将成为新的数字商品,而计算能力则直接决定企业的价值创造能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Vera Rubin 时代降临&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据介绍,这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。该平台包含40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片、1152个&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/rubin/&quot;&gt;NVIDIA Rubin&lt;/a&gt;&quot;&amp;nbsp;GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。&amp;nbsp;该平台目前已全面投产,并得到了包括 Anthropic、OpenAI、Meta 和 Mistral AI 以及所有主要云提供商在内的众多客户的鼎力支持。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f4/f4136a5debe86247ff02c8d0745cfa87.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,过去十年间 AI 计算能力已经实现了 约 4000 万倍的提升,而这一变化正推动数据中心向“AI 超级计算机”形态演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“过去我发布产品时,可能只是手里举着一块芯片(比如 Hopper);但现在,当我谈到 Vera Rubin 时,我说的是一个全栈垂直整合的庞大系统。”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋展示了 NVIDIA 最新的 Vera Rubin AI Supercomputer 系统,并强调这是一套从硬件到软件 完全纵向整合(vertically integrated) 的计算平台,专门为 Agentic AI(智能体 AI) 设计。随着大语言模型不断扩大规模、生成更多 token 并处理更长上下文,系统不仅需要更强的计算能力,还需要更高带宽的内存和存储访问能力,例如 KV Cache、结构化数据处理(cuDF)以及非结构化向量数据(cuVS)等。因此,NVIDIA 对整个系统架构进行了重新设计,包括计算、存储和网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/71/717f0b14f1c8c06e588ccd08e1f12e2b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在硬件层面,NVIDIA 为这一平台开发了一款全新的数据中心 CPU——NVIDIA Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用 LPDDR5 内存 的 CPU,从而实现领先的性能功耗比。黄仁勋透露,这款 CPU 已经开始单独销售,并有望成为 NVIDIA 的一项数十亿美元级业务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在系统设计方面,Vera Rubin 超级计算机采用 100% 液冷架构,并通过 45°C 热水散热,大幅降低数据中心制冷成本。同时,系统内部布线被大幅简化,使得整机安装时间从过去的两天缩短至约两小时,从而显著提升数据中心部署效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;网络互连是这一系统的核心技术之一。NVIDIA 在该平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。黄仁勋表示,这是目前全球最先进、实现难度最高的大规模 GPU 互连系统之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/29/29fdbedbddd9ed2df005c08b7e06f053.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还推出了全球首个 CPO(Co-Packaged Optics)光电共封装的 NVIDIA Spectrum-X Ethernet Switch,将光模块直接集成到芯片封装中,实现电子信号与光信号的直接转换,从而显著提升数据中心网络带宽与能效。这项技术由 NVIDIA 与台积电共同开发,目前已经进入量产阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在更大规模的系统扩展上,NVIDIA 还展示了 Rubin Ultra Compute System。该系统通过新的 Kyber 机架架构,可以在一个 NVLink 域中连接 144 个 GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为 NVLink 交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e236d53b93509b9d41531b3d9018189c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,随着 AI 模型规模和推理需求持续增长,未来的数据中心将越来越像一台完整的超级计算机。而像 Vera Rubin 这样的系统,正是为下一代 AI 工作负载——尤其是智能体系统——而设计的核心计算基础设施。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/10/1011821217d3744426d719db8dd37ce6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;下一代 AI 平台:Feynman 架构前瞻&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,值得注意的是,NVIDIA 的&amp;nbsp;Feynman GPU 架构早在 2025 年 GTC 大会上就已得到确认。在本次演讲中,NVIDIA 列出了 Feynman GPU 与下一代 HBM、Vera CPU 以及构成 AI 数据中心基础的其他几个连接芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cd302fb2aecc077ced93e4f635488ae5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;存储性能是制约 AI 推理的瓶颈,为此 NVIDIA 改变了以往使用标准 HBM 的策略,转而为 Feynman GPU 配备 定制化 HBM 技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;超越标准: 现有的 Rubin 系列分别采用 HBM4 和 HBM4E,而 Feynman 将跳过通用规格,可能采用基于 HBM4E 的定制增强版 甚至提前布局 定制化 HBM5 方案。深度整合: 这种定制化方案允许 NVIDIA 将部分 GPU 的数据处理逻辑直接嵌入存储底层的 Base Die(基础晶圆)中,从而实现超高的带宽与极低的延迟。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 平台将不再沿用目前的 Vera CPU 架构,而是确认搭载代号为 Rosa 的全新 CPU。&lt;/p&gt;&lt;p&gt;这种命名延续了 NVIDIA 以卓越女性科学家命名的传统,Rosa 架构致敬了美国物理学家、诺贝尔奖得主 罗莎琳·萨斯曼(Rosalyn Sussman Yalow),同时也呼应了发现 DNA 结构的 罗莎琳·富兰克林(Rosalind Franklin)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Rosa CPU 被设计为 AI 智能体(Agentic AI)的编排中枢,旨在更高效地调度 GPU、存储与网络之间的 Token 流动,优化处理极其复杂的逻辑决策任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 时代标志着 NVIDIA 将计算、存储和封装三者进行了深度耦合。通过“3D 堆叠核心 + 定制化内存 + 专用 Rosa CPU”的组合,NVIDIA 正在将数据中心从传统的服务器集群演进为一台高度集成的“巨型超级计算机”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f9/f900e49838d48102684c87012bc4328c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推出&amp;nbsp;NVIDIA DSX——面向“AI 工厂”的基础设施平台&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随后,黄仁勋还介绍了 AI 基础设施与数字孪生技术的发展,以及 NVIDIA 在其中的角色。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,当前 AI 基础设施的建设已经开始依赖完整的数字仿真体系。在数据中心建设阶段,系统会通过多种行业领先的工程仿真工具进行验证,例如使用 Siemens Simcenter STAR-CCM+ 进行外部热力学仿真、Cadence Design Systems 的相关工具进行内部热设计、ETAP 进行电力系统分析,以及 NVIDIA 自身的网络模拟平台 NVIDIA DSX Air。通过这些工具,可以在实际建设前完成“虚拟调试”(virtual commissioning),从而大幅缩短数据中心建设周期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当数据中心正式投入运行后,其数字孪生系统会成为基础设施的“操作系统”。AI 智能体会与 NVIDIA DSX MaxQ 协同工作,动态调度整个基础设施:实时监控冷却、电力和网络系统,并不断优化计算吞吐量和能源效率。同时,AI 还可以根据电网实时负载和压力信号动态调整功率分配,从而在保证稳定性的同时提升整体效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 及其合作伙伴正在全球范围内加速建设 AI 基础设施,以实现更高水平的可靠性、效率和计算吞吐能力。这一体系的核心平台就是 NVIDIA 新推出的 NVIDIA DSX——一个面向“AI 工厂”的基础设施平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/56/560d03359a09e9f49edcfae37bb10088.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在数字孪生方面,NVIDIA 的 NVIDIA Omniverse 平台被设计用于承载全球规模的数字孪生模型。从地球级别的系统到各种规模的工业设施,未来都可以在这一平台上构建和运行数字孪生。黄仁勋特别感谢生态合作伙伴,并表示这些企业在过去几年中迅速加入 NVIDIA 的生态,共同建设可能是“世界上最大的计算系统”,并在全球范围内部署。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还透露,NVIDIA 的 AI 计算基础设施正在向太空延伸。公司此前已经在卫星领域部署计算系统,并计划与合作伙伴开发新的太空计算平台 Vera Rubin Space One,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,因此系统冷却将成为一项极具挑战的工程问题,目前 NVIDIA 正在与工程团队共同研究解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6ef916d83130200f9c8073510f96b7ef.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;联合 OpenClaw之父推出&amp;nbsp;NemoClaw&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲中对软件开发者影响最深远的部分是老黄对于最近爆火的“龙虾”现象的评论。黄仁勋高度评价了由 Peter Steinberger 创建的开源项目 OpenClaw。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,OpenClaw 的增长速度甚至超过了 Linux 在过去几十年的传播速度,其影响力“极其深远”。NVIDIA 也宣布将正式支持这一项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/8228f2db32767aceb5d53a3803f209ba.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋提到,AI大佬 Andrej Karpathy 最近提出的一种“AI 研究助手”模式很好地体现了智能体系统的能力:用户只需给 AI 一个任务,然后去休息,AI 便可以在后台自动运行数十甚至上百个实验,不断保留有效结果、淘汰无效方案。类似的案例正在不断出现。例如有人将 OpenClaw 安装在自己父亲的设备上,通过蓝牙连接酿酒设备,实现从生产流程到网站订单系统的全流程自动化,甚至在深圳已经出现用户排队购买相关产品的案例。随着这一项目迅速流行,社区甚至已经开始举办专门的开发者活动,足以说明其热度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋认为,从技术本质上看,OpenClaw 可以被理解为一种智能体计算机的操作系统。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;正因如此,OpenClaw 的意义类似于过去的关键基础软件。黄仁勋表示,就像 Linux 让个人计算机和服务器生态得以发展,Kubernetes 推动了云计算时代的基础设施,而 HTML 构建了互联网应用基础一样,OpenClaw 为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——“你的 OpenClaw 战略是什么?” 因为企业软件正在从传统工具型软件,转向以智能体为核心的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在传统企业 IT 架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生变化。黄仁勋认为,未来几乎所有 SaaS(Software as a Service) 公司都将演变为 AaaS(Agentic as a Service)——即以智能体为核心的服务平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。为此,NVIDIA 与 OpenClaw 作者 Peter Steinberger 以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出 NVIDIA NemoClaw 参考架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/9d/9ddf87f17fe0a404d32251fa6cb37597.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该架构在 OpenClaw 基础上加入了名为 OpenShell 的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行 AI 智能体。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推进开放模型生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还在推进开放模型生态。黄仁勋表示,现实世界的需求高度多样化,不可能由单一模型满足所有行业。因此,开放模型正在形成一个规模庞大的 AI 生态系统,目前已经包含接近 300 万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域。作为其中的重要贡献者,NVIDIA 已发布多条开放模型产品线,包括 Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并同时开放训练数据、训练方法和框架工具,以推动整个 AI 生态的发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 的开放模型之所以能够在多个榜单中处于领先位置,不仅因为其性能达到世界级水平,更重要的是公司会持续投入长期研发。“我们不会停止改进这些模型,”他说。例如 Nemotron 模型已经从 Nemotron 3 走向 Nemotron 4,Cosmos World Foundation Model 也从 Cosmos 1 发展到 Cosmos 2,而机器人模型 Project GR00T 也在不断迭代。NVIDIA 的策略是“纵向整合、横向开放”,在持续提升模型能力的同时,让整个生态都能参与到 AI 发展中来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还展示了 Nemotron 3 在智能体框架 OpenClaw 中的表现。根据公开评测数据,当前全球排名前三的模型均处于这一技术前沿。黄仁勋表示,NVIDIA 不仅希望构建领先的基础模型,更重要的是让开发者能够在此基础上进行微调和后训练,构建适用于不同领域的专用 AI 系统。为此,NVIDIA推出了 Nemotron 3 Ultra 作为新一代基础模型,并希望借此帮助各个国家和行业构建属于自己的 “主权 AI(Sovereign AI)”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步推动这一生态,NVIDIA 在大会上宣布成立 Nemotron Coalition。该联盟将与多家技术公司合作,共同推进 Nemotron 系列模型的发展。参与合作的公司包括图像技术公司 Black Forest Labs、AI 编程平台 Cursor、智能体开发框架 LangChain、欧洲 AI 公司 Mistral AI、AI 搜索平台 Perplexity AI、印度 AI 公司 Sarvam AI 以及 Thinking Machines Lab 等。黄仁勋表示,随着越来越多企业加入合作,AI 模型将能够覆盖从语言到生物、从物理到自动驾驶等广泛领域。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在企业软件层面,黄仁勋再次强调,未来所有公司都需要制定自己的 OpenClaw 战略。随着智能体系统的发展,传统的 SaaS 软件模式将逐渐转向 Agentic as a Service(AaaS)。企业不仅会使用 token 来增强员工生产力,还会通过 AI 工厂生产 token,并向客户提供智能体服务。他甚至预测,未来科技公司招聘工程师时,除了薪资外,还会提供“token 配额”,因为拥有更多 AI 计算资源的工程师能够获得更高的生产效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;除了数字智能体,NVIDIA 还在推进 物理 AI(Physical AI)。黄仁勋表示,目前全球几乎所有机器人公司都在与 NVIDIA 合作,现场展示的机器人数量超过 100 台。NVIDIA 为机器人开发提供完整技术体系,包括训练计算平台、合成数据与仿真平台,以及部署在机器人内部的计算系统。同时,公司还提供完整的软件和模型生态,例如机器人仿真与训练平台 NVIDIA Isaac Lab、世界模型 Cosmos World Foundation Model 以及机器人基础模型 Project GR00T。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/99/992411aed6580dcd6e779e05cfe49082.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在自动驾驶领域,黄仁勋表示“自动驾驶的 ChatGPT 时刻已经到来”。基于 NVIDIA Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。NVIDIA 还宣布新的 Robotaxi 合作伙伴,包括 BYD、Hyundai Motor Company、Nissan 和 Geely,这些公司每年合计生产约 1800 万辆汽车。同时,NVIDIA 还将与 Uber 合作,在多个城市部署自动驾驶出租车网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在机器人产业方面,NVIDIA 正与 ABB、Universal Robots、KUKA 等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。黄仁勋还提到,未来通信基础设施也将成为 AI 系统的一部分,例如 T-Mobile 的通信塔未来可能演变为“机器人 AI 基站”,能够实时分析交通和网络情况并动态调整信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在总结演讲时,黄仁勋表示,AI 产业正同时经历三大变革:AI 推理与 AI 工厂、智能体系统革命,以及物理 AI 与机器人时代。随着这些技术逐渐成熟,计算能力、AI 模型和基础设施将共同推动全球产业进入新的发展阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</guid>
      <pubDate>Tue, 17 Mar 2026 00:52:46 GMT</pubDate>
      <author>李冬梅</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>国内首个国产AI推理千卡集群落地梁文锋家乡,采用云天励飞全自研AI推理芯片</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/e7/bdf9600354c5a761e126505b32d6b0e7.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI算力从“训练优先”走向“推理优先”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的 Seedance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Gartner 预测,到 2026 年,终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约55%的AI专用云基础设施支出将用于推理工作负载。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;面向推理时代的千卡集群架构&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;自研芯片构建低成本推理能力&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。&lt;/p&gt;&lt;p&gt;根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</guid>
      <pubDate>Thu, 12 Mar 2026 03:55:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>传字节今年要造10万颗推理芯片,1600 亿预算砸向AI!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/44/51/44bd7c5dd1b98a4e9a2edaa8afcf1551.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;近日,据两位知情人士透露,字节跳动正研发AI芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为AI 推理任务设计,公司计划今年至少生产10 万颗,并有望逐步将产能提升至35 万颗。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&quot;&gt;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</guid>
      <pubDate>Wed, 11 Feb 2026 09:40:36 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/b6/6d/b63c9c9733211c111d3a1b60fdb3036d.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/88/882ad7697fdc8328b84b398e401f293d.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能的繁荣与底层的“枯竭”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中最核心的一环,正是高性能算子的开发。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;KernelCAT:计算加速专家级别的 Agent&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/8f/8faf0bf997be96bcfd5f8bcb5396620f.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/69/6920f6c41c59b89f3d72dd73255fd27b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为国产芯片生态写高性能算子&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/90/90a7b4e9f17290018d9342b3ed31e0a4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;没有坚不可破的生态,包括 CUDA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上&quot;说上了母语&quot;。实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://kernelcat.cn/&quot;&gt;KernelCAT 限时免费内测&lt;/a&gt;&quot;中,点击链接,马上体验~&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/14/140a6c0e97d8e4f35ef00ee8f4f9f40e.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</guid>
      <pubDate>Fri, 30 Jan 2026 09:46:03 GMT</pubDate>
      <author>InfoQ</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9f/e5/9f01dbbbe47906ef536a31f2a1f344e5.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;采访嘉宾 | 天数智芯 AI 与加速计算技术负责人 单天逸&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那一刻,下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断,被放到了更公开也更严苛的舞台上,谁能撑起资本市场和大众期待,谁就能撑起市值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式,把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中,围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考,天数智芯公布了过去一代以及未来三代的架构路线图:&lt;/p&gt;&lt;p&gt;2025 年,天数天枢架构已经超越英伟达 Hopper,在 DeepSeek V3 场景中实测性能数据超出 20%;2026 年,天数天璇架构对标 Blackwell,新增 ixFP4 精度支持;2026 年,天数天玑架构超越 Blackwell,覆盖全场景 AI/加速计算;2027 年,天数天权架构超越 Rubin,支持更多精度与创新设计。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/93a5511a47ea59c34947fa5622e43f57.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;国产 GPU,开启 AI++ 计算新范式&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;根据天数智芯公布的架构路线图及阶段发展目标,在 2027 年之前,天数智芯将通过多代产品完成对英伟达的追赶;在 2027 年之后,将转向更富创新性的架构设计,聚焦更具突破性的超级计算芯片架构设计。看似宏大,但对于仍处于爬坡阶段的国产 GPU 行业来说,这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越,国产 GPU 才有资格进入更大规模的生产环境中。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而在规模化落地阶段的竞争,焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料,当算力消耗开始对标真实业务产出,无论是国际顶尖 GPU 厂商还是国内 GPU 企业,核心命题都只有一个:如何在真实业务中,把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一命题,天数智芯提出了两条明确的架构判断:其一,回归计算本质;其二,提供高质量算力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;回归计算本质,核心在于“不设限”&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去十年,规模的快速扩张带来了阶段性的产业繁荣,也使得算力实现野蛮增长。但这种粗放式发展,也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例,路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此,计算、通讯、存储都会带来各种障碍。所以,幻想奔跑在平坦的赛道上毫无意义,产业真正需要的,是能够翻山越岭的全能越野车。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/64/64709d562cae987749119744a750d556.webp&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;广义上,芯片可分为专用芯片和通用芯片:专用芯片类似“应试教育”,它的优势和边界都很清晰,能加速特定算法、特定指令,比如矩阵乘法、Softmax 这些主流任务,但一旦计算范式发生变化,适应空间就会迅速收紧;通用芯片的设计哲学,不是为了押中某一类算法,而是回归计算本质,覆盖更广泛,甚至全新的计算需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来,硬件与算法的关系本来就不应该相互掣肘,算力的僵化不应限制算法的进化,而是通过通用算力为探索未知算法提供一个坚实的底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑探索未来算法的关键,实则就是“不设限”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于这一判断,天数智芯的芯片设计哲学,在计算层面追求的是覆盖几乎所有的数学运算图谱,而非某一类、某一种计算:从 Scalar、Vector、Tensor 到 Cube,支持从高精度科学计算到 AI 精度计算,从 MMA 到 DPX,不管是 AI 的 Attention 机制、前沿的科学计算,还是未来的量子计算相关模拟,天数智芯全都支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在执行层面,追求的是更高的算力利用率:大、中、小任务会被精准分配到不同的计算单元中执行,配合高密度的多任务核心设计,算力可以被拆解、调度得更加精细,从而减少算力浪费,提高计算效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/d2/d21f6e06061719cd4a9a199eb6e5fed0.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种“不设限”的设计哲学,让天数天枢架构得以实现三大创新,这也是天枢能够超越英伟达 Hopper 架构的根因:&lt;/p&gt;&lt;p&gt;TPC BroadCast(计算组广播机制)设计:不是简单粗暴地放大带宽,而是从单位带宽的使用效率入手,存在相同地址的数据时,芯片内部的 load store 单元不会进行重复、无用的访问,而是在上游进行 BroadCast,减少不必要的内存访问次数,从而有效降低访存功耗,等效提升访存带宽,用更小的功耗和面积实现相同的功能。Instruction Co-Exec(多指令并行处理系统)设计:在指令执行层面,通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力,不仅支持 Tensor Core 与 Vector Core 的并行协同,还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中,通过极低的成本增强了不同指令之间的并行处理能力,无论是 MLA、Engram,还是面向更复杂模型场景的计算需求,都可以在这一并行框架下被同时处理,从而提升整体执行效率。Dynamic Warp Scheduling(动态线程组调度系统)设计:随着 MoE 架构在大模型中被广泛采用,模型厂商普遍面临推理效率低等现实挑战。为提升并行度,微架构层面允许芯片中同时驻留更多 warp,但 warp 的增加也意味着对计算资源的竞争更为激烈。为此,天数智芯首创了 Dynamic Warp Scheduling 机制,通过动态调度让不同 warp 在资源使用上实现有序协作,避免计算资源闲置,也减少了对同一资源的无序争抢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这三项设计的出发点本质上都指向相同的目标:高性能与高效率。数据显示,这些创新让天数天枢的效率较当前行业平均水平提升 60%,基于这些效率优势,实现在DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从这三项设计中可以看出,天数智芯在架构层面的创新,并不是围绕某一个具体模型或算子展开,而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示,在天数智芯提出 Dynamic Warp Scheduling 设计之前,几乎没有人从调度机制的角度去思考,还能为 MoE 带来哪些性能空间。从更深层次意义来看,这类微架构层面的调度和优化,一直是英伟达、AMD 等巨头保持领先的“内功”,天数智芯在这些单点上的突破,实际上也是国产 GPU 向顶级玩家看齐的重要一步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;提供高质量算力:高效率、可预期、可持续&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在天数智芯的架构语境中,回归计算本质并不是一个抽象的口号,而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责,高质量算力才成为可能。基于这一判断,天数智芯将高质量算力拆解为三个核心维度:高效率、可预期与可持续。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/7a/7ace836faccd159427d7c71b330df3ca.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;高效率意味着能为客户创造最优的 TCO(总体拥有成本),节省使用成本;可预期则通过精准的仿真模拟,让客户在拿到芯片、部署算力之前,就能清晰预判最终的性能表现,做到所见即所得;可持续指的是从现在主流的 CNN、RNN,到当下火热的 Transformer,再到未来还未诞生的全新算法,算力始终能无缝适配。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这三个方向,天数智芯在架构及系统设计上,选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项,其实哪个都值得单独展开探讨。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;比如,基于“不设限”的设计理念,在当前 PD 分离的架构下,天数智芯的 GPU 不只做计算,还支撑通信、KV 数据传输这些关键任务,通过打造 Ⅸ 并行任务处理模块,GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务,让它们并行不冲突。在真实业务场景中,该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/b4/b473b037acf6e72c5b667dd838e26e33.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为了提高算力可持续性,天数智芯统一了芯片内、外,来构建算力系统,并通过不断更新的软件栈和软件系统,三类库共同支持和保障多场景的高效运行。其中,AI 库、通讯库(ixccl)、加速计算库是基石,在基石之上,直接支撑各类神经网络模型CNN、Transformer、LSTM 与高性能计算的各个领域,并以此提供各类 AI 应用,包括支持 AI4Sci 的相关应用,如蛋白质结构预测(AlphaFold)、医疗影像分析(Clara)、气候模拟(Earth2)等,以及量子计算的平台 cudaQ、分子动力学 Gromacs,大规模方程组求解器 HPL 等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这套算力系统被命名为 IXAI++,寓意为自我迭代,不止于 AI。其最终的目标是,成为一座连接算法创新与物理世界的桥梁,带领人类科技通往未知探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但给业内带来最多惊喜的,是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题,后者解决的是企业部署算力系统最头疼的不可控难题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型推理场景中,长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上,Attention 的执行效率依然不高,如果不对其进行针对性优化,首字延迟将明显偏高,模型响应速度差,推理成本高昂,最终影响大模型在真实业务中的可用性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一痛点,天数智芯设计了 Ⅸ Attention 模块,从底层对 Attention 的执行路径进行重构:Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子,Ⅸ Attention 模块的核心思路,是将这些分散的组件有机地拼装到一起,如同指挥一支乐队一般,确保多种乐器能够和谐共鸣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/19/1931cf31a98c3a57d61ca5cbaf8caa44.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“其中的技术难点在于调度,多种乐器需要同时演奏,任何一个环节拖慢节奏,都会成为整个系统的瓶颈”,单天逸表示,在实际的长上下文推理中,Ⅸ Attention 模块有效改善了 Attention 的执行效率,带来了约 20% 的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;针对企业部署算力系统最头疼的不可控难题,天数智芯搭建了 IX-SIMU 全栈软件仿真系统,这套仿真系统的目标,就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真,能精准输出任意模型的性能表现,提升算力在真实场景中的可控性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c1/c15d79ed9346cf49898ee0193b585926.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;单天逸表示,在算力系统的仿真与评估中,最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于,能够对底层指令执行进行精细建模。在实际使用中,用户只需输入软件代码,IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件,匹配网络拓扑,再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略,最终精准输出 Deepseek、千问等任意模型的性能表现,实现从单卡到万卡集群的 “精密扩展”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕高效率、可预期、可持续三大判断,天数智芯在算力侧从硬件架构到系统设计进行了整体布局,并用未来三代架构路线图提前回答下一个问题:当算力僵化开始掣肘未来计算,架构层还能怎么演进?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;决定上限的,最终还是应用和生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;架构代表的其实是下限,决定上限的,最终还是应用和生态。数据显示,截至 2025 年年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用,服务客户数量超过 300 家,并通过软硬件协同优化,完成 1000+ 次模型部署,让产品能力真正达到商用级别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑这些场景应用的,早已不是一个产品的能力范畴,而是“产品 + 解决方案” 双轨模式,这一模式其实与英伟达定位非常相近,聚焦的都是解决方案落地。在大模型深入产业应用的当下,这套组合打法相当务实,毕竟应用落地才是唯一真理,谁能在企业真实业务场景中快速部署、持续稳定运行,谁就能赢得先机。在速度和兼容性上,天数智芯也交出了一份不错的答卷:国内新的大模型发布当天便能跑通,目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子,数千卡集群稳定运行超 1000 天。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这次发布会上,天数智芯面向物理 AI 场景落地,一口气发布了四款边端算力产品“彤央”系列:包括边端 AI 算力模组 TY1000、TY1100,以及边端 AI 算力终端 TY1100_NX、TY1200。 据了解,“彤央”系列产品的标称算力均为实测稠密算力,覆盖 100T 到 300T 范围。数据显示,在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中,彤央 TY1000 的性能全面优于英伟达 AGX Orin。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在发布会中,天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用:具身智能领域,为格蓝若机器人提供高算力、低延迟的“大脑”支撑;在工业智能领域,落地园区与产线,推动产线自动化升级;在商业智能领域,瑞幸咖啡数千家门店部署彤央方案,高效处理视频流、挖掘消费数据价值;在交通智能领域,与“车路云一体化”20 个头部试点城市合作,验证车路协同方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整体来看,天数智芯走的路线虽然是底层技术自研,但在生态上并非封闭。在生态建设上,天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议,进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态,持续开放底层能力,降低开发者迁移和使用门槛。未来,天数智芯还会持续增加在生态共建上的资本与人力投入,从应用到芯片与开发者一同优化 AI 应用系统,共同为应用落地提供性能、性价比与生态易用的价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从底层架构到产品,从应用到生态,国产算力正在实现完整闭环,这种从芯片到生态的协同能力,不仅让国产算力更可用、更可持续,也为行业探索新模式提供了更多想象空间。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</guid>
      <pubDate>Thu, 29 Jan 2026 06:54:56 GMT</pubDate>
      <author>凌敏</author>
      <category>企业动态</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>从算力规模到系统级竞争:智算竞争核心已变,金山云战略升级曝行业“隐形拐点”</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/1f/bd2b4b1668393b4b5d9bf91cf845761f.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;从训练到推理:智算需求正在经历一场结构性转向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在2026年1月21日举办的金山云年度Tech Talk上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token如何被消耗、算力如何被组织展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;变化首先体现在财务数据上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以2025&amp;nbsp;年第三季度为例,智算云账单收入达到7.8亿元人民币,同比增长接近120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理侧的变化更加显著。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日Token调用量已达到50万亿级别。这是当前国内少数被明确对外公布的Token规模数据之一,也成为行业理解推理负载的重要参考。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动Token消耗快速增长。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在所有推理场景中,编程类应用被反复强调。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;刘涛指出,2025年一个尤为显著的变化在于:编程相关请求正在成为Token消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code的大量代码本身,正是由Claude Code参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从全球Token调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;&lt;/p&gt;&lt;p&gt;其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;&lt;/p&gt;&lt;p&gt;其三,Vibe Coding在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了满足更多元化的需求,刘涛表示,2025年,智算平台金山云星流已完成从资源管理平台向一站式AI训推全流程平台的战略升级。从训推平台、机器人平台到模型API服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型API服务商业化落地的全链路闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;实现三维进阶,智算云AI势能全释放&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管各行各业大规模应用AI还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈AI能力。从2023年的智算网基础设施,到2024年智算云的平台化和Serverless化,再到2025年的一站式AI训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接AI应用爆发做好了充分准备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的AI开发体验。自研的GPU故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;面向大模型应用开发者和企业用户,金山云星流平台模型API服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型API服务已积累诸多行业客户。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近40种不同模型,包括DeepSeek、Xiaomi MiMo、Qwen3、Kimi等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦AI业务创新和价值创造。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</guid>
      <pubDate>Tue, 27 Jan 2026 03:58:35 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>聚焦算力市场痛点,嘉唐算力供应链平台重磅发布</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/4d/34/4d3f7yy64d506d55f7b8018028747e34.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在近期举行的第五届AIGC开发者大会上,上海嘉唐科技发布了名为“算力供应链服务平台”的全栈式解决方案。该平台以“生态共建,供需协同”为理念,围绕算力交易、金融配套、资产管理及算电协同等维度展开设计,旨在应对当前算力行业存在的价格透明度低、流程不规范、服务缺乏标准化及供需匹配效率不高等问题,致力于为构建全国算力服务统一市场提供技术支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当前,算力作为数字经济发展的重要基础设施,已成为衡量新质生产力的关键指标之一。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据统计,近五年来我国算力产业规模年均增速超过30%,但与此同时,行业仍面临资源结构性失衡、整合程度不足等制约高质量发展的挑战。为此,市场上陆续出现多种服务模式探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;嘉唐科技此次推出的平台整合了撮合与直营等模式,尝试在供需对接、资源保障、产业链协同及能耗优化等方面提供系统性支持,其中算电协同方案通过引入绿电直供等方式,尝试推动算力行业能耗成本优化与绿色化转型。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从平台架构来看,其采用“1+3+N”的设计思路,即一个综合服务底座,涵盖算力交易、资产管理、金融服务三大核心模块,并计划拓展至多个行业应用场景。该架构试图在资源整合、智能调度与服务标准化等方面做出探索,与行业主管部门推动的算力互联互通方向具有一定的契合性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在生态合作方面,多家来自能源、金融、科技等领域的企业参与了此次发布仪式,并表达了在资源共享与产业协同方面的合作意向。行业分析指出,此类跨领域协作有助于将企业单体优势扩展为产业链整体效能,对推动AI技术在不同行业的落地应用可能形成一定支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;业内观察显示,随着算力在经济社会各领域渗透不断加深,构建开放、高效、协同的算力供应链体系逐渐成为行业共同关注的议题。相关平台的出现,反映了市场主体在整合算力资源、提升服务能效方面的尝试,其长期成效仍有赖于技术可靠性、模式可持续性及行业协同机制的进一步完善。在算力市场竞争日趋全球化、绿色化的背景下,此类探索也为推动产业高质量发展提供了可供观察的案例。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</guid>
      <pubDate>Tue, 20 Jan 2026 09:59:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>MUSA开发者大赛丨GEMM优化挑战赛火热开启!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/fb/74/fb8b0824bb93b0825f442f79a92c3474.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;MUSA开发者集结!与摩尔线程算力共振,谁将登顶矩阵乘法的性能巅峰?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;国产算力生态的崛起,不仅需要坚实可靠的硬件基座,更呼唤能够彻底释放硬件潜能的极致软件优化能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;GEMM(通用矩阵乘法),正是衡量软件能力的核心标尺。作为触达GPU算力峰值、检验架构效率与存储带宽极限的核心算子,它既是验证硬件潜力与软件栈成熟度的试金石,也是每一位追求极致的开发者渴望征服的“性能圣杯”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此刻,我们诚邀所有心怀极致追求的开发者,共同开启这场极限挑战——基于摩尔线程训推一体全功能智算卡&amp;nbsp;MTT S4000,在MUSA架构GPU上深度优化GEMM,共同挑战GPU的性能巅峰。在这里,用你的代码与智慧,亲手将矩阵乘法的性能推向极限!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;赛题丨FP16 GEMM Kernel 极致性能开发&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次挑战赛聚焦于底层&amp;nbsp;Kernel 开发,要求参赛者在摩尔线程MTT S4000上,将FP16精度的通用矩阵乘法(GEMM)性能优化到极致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;计算任务:在&amp;nbsp;MTT S4000 上,实现矩阵乘法(M=8192, N=8192, K=16384)的高性能计算。精度要求:计算采用FP16进行乘加运算,中间累加过程使用FP32。硬件架构:所有优化工作须基于MTT S4000的硬件特性展开,参赛者需深入研究并充分利用其特性。优化边界:禁止调用muBLAS/muDNN 等高层库。鼓励参赛者深挖共享内存分块、寄存器优化等硬件潜力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;评分丨严谨性与高性能的统一&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最终比赛结果由主办方统一依据官方评测方案进行综合评定,总分为正确性与性能两部分之和,缺一不可。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 正确性测试:不容有失的基石&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;测试范围:参赛代码必须通过主办方设置的四组不同规模的测试用例验证。精度要求:计算结果必须严格准确。与官方muBLAS库提供的参考结果相比,每个元素的相对误差必须控制在1e-2以内。一票否决:任一测试用例失败,或任一输出元素误差超限,则正确性部分得分为0,且将直接终止评测,无法进入后续性能评估环节。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 性能评估:追求极致的竞技场&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;评估标准:在通过全部正确性测试后,性能评估将在本次比赛的核心规模——8192 x 8192 x 16384上展开。系统将进行多次迭代测试,取平均GFLOPS作为性能指标。评分参考:为帮助参赛者了解自身优化水平,我们将根据参赛者代码性能相对于官方muBLAS基线性能的百分比效率,进行线性插值计算,提供一个参考性分数。绝对排名:比赛的最终官方成绩与总排名,严格依据在标准评测环境下测得的绝对GFLOPS性能值进行排序。性能越高,排名越前。自测工具:我们为参赛者提供了性能绝对值测试脚本,参赛者可自行读取并分析Kernel的实际性能数据,以便进行针对性优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;资源丨云端环境与算力支持&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;摩尔线程将为每一位参赛者提供专业、完备的云端开发环境与算力支持。如下设计致力于最大限度地消除环境差异,确保参赛者自测的性能结果具有高度参考价值,助力大家精准优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算力平台:我们将提供本次赛题指定硬件MTT S4000的云端算力资源供参赛者调优、测试。参赛账户:每位参赛者将获得一个专属的AutoDL子账号,确保开发环境的独立性与数据安全。预置镜像:该账号中已内置比赛专用镜像。镜像环境预先配置了所有必要的驱动、工具链,并包含了官方的评估脚本、编译工具及基础示例代码,参赛者登录后即可立即开始开发工作。标准化工具链:我们提供统一的评测脚本与摩尔线程官方编译器&amp;nbsp;mcc。参赛者在本地自测时使用的编译命令、优化选项与评测流程,将与最终官方评审环境完全一致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;奖项丨激励卓越,丰厚礼遇&lt;/h2&gt;&lt;p&gt;&lt;/p&

...

@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

http://localhost:1200/infoq/recommend - Failed ❌
HTTPError: Response code 503 (Service Unavailable)

Error Message:<br/>FetchError: [POST] &quot;https://www.infoq.cn/public/v1/article/getDetail&quot;: 451
Route: /infoq/recommend
Full Route: /infoq/recommend
Node Version: v24.14.1
Git Hash: 597b32de

@github-actions github-actions bot removed the auto: not ready to review Users can't get the RSS feed output according to automated testing results label Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 06:37:28 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>35 年只卖设计,今天亲自下场造芯!Arm 首款自研芯片发布,Meta 抢下首单</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/96/bd2a783fdb8597628458b8acc4e02096.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;36年来,半导体与软件公司 Arm 一直将芯片设计授权给英伟达、苹果等企业使用,如今终于开始自主研发并制造自有芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在近日举办的发布活动上,该公司正式推出一款面向AI数据中心推理场景、可直接量产的处理器Arm AGI CPU。这家英国企业基于自研Neoverse系列CPU IP内核,并与Meta合作完成了这款芯片的开发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,Meta也是Arm AGI CPU的首位客户,该芯片专为与Meta的AI训练及推理加速器协同工作而设计。Arm的首批合作方还包括OpenAI、Cerebras、Cloudflare等多家科技公司。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;市场对Arm转型自研芯片的动向早有预期。据外媒报道,该公司早在2023年便启动了芯片研发工作,目前相关处理器已开放订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管此举在预料之中,却标志着Arm历史性地打破了长期以来仅向其他芯片厂商授权设计的传统模式。这家由日本软银集团控股的公司,未来将与众多合作伙伴直接展开竞争。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm选择推出CPU而非GPU,这一点同样值得关注。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;代理式AI基础设施崛起&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI系统正日益以全球规模持续运行。在过去,人是计算环节的瓶颈——人们与系统的交互速度决定了工作推进的速度。而在代理式AI时代,因为软件智能体可自主协同任务、与多个模型交互,并实时做出决策,这种局限性将不复存在。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着AI系统持续运行且工作负载复杂度不断提升,CPU已成为现代基础设施中决定运行节奏的关键要素——负责保持分布式AI系统大规模的高效运行。在现下的AI数据中心中,CPU管理数千个分布式任务,包括协调加速器、管理内存与存储、调度工作负载、跨系统迁移数据,加上当今的代理式&amp;nbsp;AI场景兴起,CPU&amp;nbsp;还需面向海量智能体实现大规模协同调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这一转变对CPU提出了全新要求,驱动处理器架构的演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm Neoverse 现已成为当今众多领先超大规模云服务及AI平台的核心支撑,包括Amazon&amp;nbsp;Graviton、Google&amp;nbsp;Axion、Microsoft&amp;nbsp;Azure Cobalt&amp;nbsp;及&amp;nbsp;NVIDIA&amp;nbsp;Vera&amp;nbsp;等。随着AI基础设施在全球范围内不断扩展,生态系统的合作伙伴纷纷期待Arm&amp;nbsp;能够提供更多能力。为应对这一变革,Arm AGI CPU应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Arm AGI CPU:专为机架级代理式AI效率而生&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;代理式AI&amp;nbsp;工作负载需要在大规模场景下实现持续稳定的性能输出。Arm AGI CPU&amp;nbsp;正是为此而设计,能够在数千核心并行的持续高负载下,为每个任务提供高性能表现,且满足现代数据中心功耗与散热的严格要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从运行频率到内存及I/O架构,Arm AGI CPU的每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的代理式&amp;nbsp;AI&amp;nbsp;工作负载。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成两颗CPU&amp;nbsp;芯片,并配备独立内存与&amp;nbsp;I/O,共计&amp;nbsp;272 个核心。这些刀片服务器可在标准风冷&amp;nbsp;36 千瓦&amp;nbsp;(kW) 机架中满配部署,30 台刀片服务器可提供总计&amp;nbsp;8160 个核心。此外,Arm 还与&amp;nbsp;Supermicro 合作推出&amp;nbsp;200 千瓦&amp;nbsp;(kW) 液冷设计方案,可容纳&amp;nbsp;336 颗&amp;nbsp;Arm AGI CPU,提供超过&amp;nbsp;45000 个核心。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在该配置下,凭借Arm架构的根本优势,以及系统资源与计算能力的精准匹配,Arm AGI CPU 可实现单机架性能达到最新x86系统的两倍以上:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Arm AGI CPU具备业界领先的内存带宽,使每个机架能够支持更多高效执行的线程;相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降;高性能、高能效的单线程&lt;a href=&quot;https://www.arm.com/products/silicon-ip-cpu/neoverse/neoverse-v3&quot;&gt;Arm Neoverse V3处理器&lt;/a&gt;&quot;核心性能出众,优于传统架构——每个Arm线程可处理更多任务;更多可用线程与更高单线程处理能力相互叠加,最终实现单机架性能的大幅提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm AGI CPU已获得合作伙伴的认可,这些合作伙伴均处于代理式AI基础设施规模化部署的前沿领域。计划部署场景涵盖加速器管理、代理式&amp;nbsp;AI&amp;nbsp;协同调度,以及支撑代理式&amp;nbsp;AI&amp;nbsp;任务规模化扩展所需的服务、应用与工具的高密度部署,同时还包括为AI数据中心提供更强的网络与数据面计算能力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化吉瓦级规模基础设施,并与Meta自研的MTIA加速器协同运行。其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯——这些企业均与Arm合作部署Arm AGI CPU,以加速云、网络及企业环境中的AI驱动型服务落地。目前,永擎电子、联想及Supermicro已开放商用系统订购。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为进一步加速产品采用,Arm推出Arm AGI CPU 1OU双节点参考服务器,该服务器采用符合开放计算项目&amp;nbsp;(Open Compute Project,OCP)的DC-MHS标准规格设计。Arm计划向社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;图形处理器(GPU)因承担AI模型训练与运行任务而备受瞩目,而CPU在数据中心机架中同样扮演着不可或缺的关键角色。Arm在主推这款CPU时强调,此类芯片负责处理成千上万项分布式任务,包括内存与存储管理、任务调度、系统间数据传输等。该公司表示,CPU已成为“现代基础设施的节奏核心,保障分布式AI系统实现高效规模化运行”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Arm指出,这一趋势对CPU提出了全新要求,也推动处理器必须迭代升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,全球CPU供应也日趋紧张。据外媒此前报道,今年3月,英特尔与AMD均告知中国客户,受CPU短缺影响,产品交付周期将进一步延长。随着短缺状况加剧,电脑产品价格也已开始上涨。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&quot;&gt;https://techcrunch.com/2026/03/24/arm-is-releasing-its-first-in-house-chip-in-its-35-year-history/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/SKhCim03Cgu5QvflVoba</guid>
      <pubDate>Wed, 25 Mar 2026 03:53:18 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>英伟达联手 Akamai:AI Grid 背后的 Token 成本与吞吐博弈</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/73/e6/73a91bfcbb4d60e78aa703a2bf7e3fe6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026年3月18日,Akamai 宣布在人工智能演进过程中达成的一个重要里程碑:发布首个全球规模的NVIDIA® AI Grid参考设计实施方案 。通过将NVIDIA AI基础设施集成到Akamai的架构中,并利用网络层面的智能工作负载编排,Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此举标志着去年底推出的&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-inference-cloud-transforms-ai-from-core-to-edge-with-nvidia&quot;&gt;Akamai Inference Cloud&lt;/a&gt;&quot;&amp;nbsp;在演进中迈出重要一步。作为首家实现AI网格运营化的公司,Akamai正部署&lt;a href=&quot;https://www.akamai.com/newsroom/press-release/akamai-to-deploy-thousands-of-nvidia-blackwell-gpus-to-create-one-of-the-worlds-most-widely-distributed-ai-platforms&quot;&gt;数千个&lt;/a&gt;&quot;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/rtx-pro-6000-blackwell-server-edition/&quot;&gt;NVIDIA RTX PRO 6000 Blackwell服务器版GPU&lt;/a&gt;&quot;的平台,为企业提供能够运行智能体和物理AI的解决方案,同时兼具本地计算的响应速度和全球网络的规模优势。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“AI工厂是为训练和前沿模型工作负载而构建的,中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics),”Akamai云技术事业部首席运营官兼总经理Adam Karon表示 。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行,而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构,在4400个站点以合适的成本和时间路由AI工作负载”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;“Token经济”的架构&amp;nbsp;&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;AI Grid的核心是一个智能编排器,充当AI请求的实时代理 。通过将Akamai在应用性能优化方面的专业知识应用于AI,这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai的主要优势在于,客户可以通过其庞大的全球边缘节点网络,访问经过微调或稀疏化的模型,这为长尾AI工作负载提供了巨大的成本和性能优势 。例如:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;规模化成本效率:企业可以通过自动将工作负载与合适的计算层匹配,大幅降低推理成本。编排器应用语义缓存和智能路由技术,将请求导向规模合适的资源,为高端任务保留优质GPU周期 。Akamai Cloud基于开源架构,提供慷慨的出站流量额度,以支持大规模数据密集型AI操作。实时响应能力:游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互,维持玩家沉浸感 。金融机构可以在登录到首屏之间的瞬间,执行个性化欺诈检测和营销推荐 。广播公司可以为全球观众实时转码和配音 。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络,通过集成缓存、无服务器边缘计算和高性能连接,在用户接触点处理请求,绕过了中心云的往返延迟 。核心节点的生产级AI:大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群,为最重的工作负载提供集中算力,与分布式边缘形成补充 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/products/ai-enterprise/&quot;&gt;NVIDIA AI Enterprise&lt;/a&gt;&quot;、&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/&quot;&gt;Blackwell架构&lt;/a&gt;&quot;和&lt;a href=&quot;https://www.nvidia.com/en-us/networking/products/data-processing-unit/&quot;&gt;NVIDIA BlueField DPU&lt;/a&gt;&quot;,Akamai能够管理跨边缘和核心位置的复杂服务等级协议 :&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;边缘(4,400+个站点):为物理AI和自主智能体提供极速响应 。它利用语义缓存和WebAssembly等服务器端功能(Akamai Functions和EdgeWorkers)提供模型亲和性和稳定的性能 。Akamai Cloud IaaS与专用GPU集群:核心公有云基础设施支持大规模负载的迁移与成本节约,而Blackwell GPU阵列则助力繁重的后训练和多模态推理 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;NVIDIA电信业务发展全球副总裁Chris Penrose表示:“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率 。通过将NVIDIA AI Grid投入运营,Akamai正在构建生成式、代理式和物理AI的连接纽带,将智能直接带到数据所在地,开启下一波实时应用潮”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一波AI基础设施由少数几个中心化地点的海量GPU集群定义,旨在优化训练 。但随着推理成为主导负载,且企业专注于构建AI代理,中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束 。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Akamai正通过相同的基本方法解决这些挑战:分布式网络、智能编排和专用系统,使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂,通过将高密度计算从核心分发到边缘,开启下一波增长。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/cBqdxzzI0YOXSUAbsaxz</guid>
      <pubDate>Tue, 24 Mar 2026 03:15:34 GMT</pubDate>
      <author>Akamai</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>黄仁勋 GTC 2026 演讲实录:所有SaaS公司都将消失;Token 成本全球最低;2027 营收将到 1 万亿;Feynman 架构已在路上;</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/11/f4/115d52389f4a43db78a749c9b88b06f4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/5f/5fb74fd8c08eca05c28144f0711ed342.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;北京时间2026年3月17日凌晨两点半,当英伟达 CEO 黄仁勋穿着那件标志性的黑色皮衣踏上SAP中心的舞台时,台下近万名开发者心里清楚:这一次,老黄要讲的不是某个单一芯片,而是一整套AI“全家桶”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款“前所未见的芯片”,被普遍认为是采用台积电1.6nm&amp;nbsp;制程、引入光通信技术的下一代Feynman架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;今天揭晓的Feynman架构、Vera Rubin平台的量产进展,以及面向企业级自主代理的开源平台NemoClaw,不过是这座基础设施落地所需的“钢筋水泥”。黄仁勋用两个小时向资本市场证明了一件事:英伟达早已不是那个卖显卡的公司,现在的英伟达是一家为“数万亿美元AI基建时代”搭建完整技术栈的“总包工头”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;回顾 CUDA 20年:安装基数引爆飞轮,GPU算力成本持续下降&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;演讲刚开始,黄仁勋用近十分钟篇幅,回溯了CUDA架构诞生20年的演进历程。他将这套软件生态定义为英伟达一切业务的“中心”,并直言:真正难以复制的壁垒,是底层的安装基数。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“二十年来,我们一直致力于这种革命性架构——单指令多线程(SIMT),让开发者编写的扩展代码能够轻松生成多线程应用,编程难度远低于传统方法。”黄仁勋回忆道。他特别提到近期引入的“tiles”(张量核心编程块)功能,旨在帮助开发者调用Tensor Core以及支撑当今AI的数学结构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如今,围绕CUDA已形成庞大的工具链生态:数千种工具、编译器、框架和库;仅开源领域就有数十万个公开项目。“CUDA真正融入了每一个生态系统,”黄仁勋说,“这张图,基本上描述了100%的媒体战略——你们从一开始就看我讲这张幻灯片。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/84/84b6bc25cb1fa808e64e51b5de28dbaa.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他随后指向图表底层:“最难实现的东西在这里——安装基数。我们花了20年,才在全球建立起数亿块运行CUDA的GPU和计算系统。我们在每一朵云里,在每一家计算机公司里,服务几乎每一个行业。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋将这套逻辑总结为“飞轮效应”:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“CUDA的安装基数,是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,带来技术突破——比如深度学习,还有很多其他领域。这些突破催生全新市场,围绕它们形成新的生态,更多公司加入,进而扩大安装基数。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他称这一飞轮正在加速:“NVIDIA库的下载量增长极快,规模巨大,增速前所未有。这个飞轮让计算平台能够承载如此多的应用和突破,更重要的是,它赋予了这些基础设施极长的有效生命周期。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;背后的逻辑很直接:CUDA支持的应用程序范围足够广,覆盖AI生命周期的每一个阶段,对接每一种数据处理平台,加速各类科学原理求解器。“一旦安装NVIDIA GPU,它的使用寿命极高。这也是为什么六年前出货的Ampere架构,在云上的定价反而在上涨。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当安装基数足够大、飞轮足够快、开发者触达足够广,并且软件持续更新时,结果就是计算成本不断下降。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“加速计算让应用性能大幅提升,而我们在其生命周期内持续优化软件,”黄仁勋总结道,“你不仅获得初期的性能跃升,还能获得持续的算力成本降低。我们愿意支持全球每一块GPU,因为它们架构兼容。为什么愿意?因为安装基数足够大——每发布一项新优化,数百万用户受益。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他最后补充道:“这套动态机制,让NVIDIA架构不断扩展应用范围,加速自身增长,同时降低计算成本,最终催生新的增长。CUDA就在这一切的中心。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为结尾的轻松注脚,黄仁勋提及了GeForce的历史:“我知道你们中有多少人是从GFORCE成长起来的——那是最棒的市场营销,我们在很早之前就开始吸引未来的客户。”&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为数据处理打造新的核心软件库&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;演讲中,老黄提到下面这张图是本场演讲中最重要的一张图,因为里面提到了英伟达为数据处理打造的新的核心软件库。老黄在演讲中谈到,随着 AI 的快速发展,全球数据处理体系正迎来一次结构性的变革,其中最核心的变化,是结构化数据与非结构化数据的全面加速。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/05/05fdddc05dd6bc73f4685555bc058402.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋指出,长期以来企业计算的基础建立在结构化数据之上。无论是 SQL、Spark、Pandas 等技术体系,还是诸如 Snowflake、Databricks、Amazon 的 EMR、Microsoft 的 Azure Fabric,以及 Google 的 BigQuery 等大型数据平台,本质上都在处理一种核心数据结构——数据框(DataFrame)。这些数据框可以被理解为巨型电子表格,承载着企业运营和业务决策所依赖的关键信息,是企业计算体系中的“事实来源”(ground truth)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;过去,对结构化数据的加速主要是为了提升企业的数据分析效率:让计算任务完成得更多、成本更低,并且能够在一天内更频繁地运行数据处理流程,从而让企业运营更加高效、更加同步。但在 AI 时代,这一逻辑正在发生变化。黄仁勋表示,未来不仅人类会使用这些数据结构,AI 系统和智能体(Agent)也将直接访问和使用结构化数据库,而 AI 的处理速度远远快于人类,这意味着数据处理基础设施必须获得数量级的性能提升。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/a7/a77054d74f495ee94b71011c7e669e9a.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,另一类更庞大的数据也正在成为 AI 时代的重要资源——非结构化数据。黄仁勋指出,向量数据库、PDF 文档、视频、语音和演讲内容等都属于非结构化数据。全球每年产生的数据中,大约 90% 都是非结构化数据。然而在很长一段时间里,这些数据几乎无法被计算系统有效利用,人们只是阅读这些内容,然后把它们存储在文件系统中,却很难对其进行查询和搜索。其根本原因在于,非结构化数据缺乏可直接建立索引的结构,要使用这些数据,首先必须理解其语义和目的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;而 AI 的多模态理解能力正在改变这一状况。正如 AI 已经在多模态感知和理解方面取得突破一样,同样的技术可以用于读取 PDF、理解视频和语音内容,并将其语义信息嵌入到可计算的数据结构中,从而使这些数据能够被搜索、查询和分析。换句话说,AI 正在把原本难以利用的海量非结构化数据转化为可计算的信息资源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了支持这一转变,NVIDIA 构建了两项关键基础技术。黄仁勋表示,就像当年为 3D 图形计算推出 RTX 技术一样,NVIDIA 现在为数据处理打造了新的核心软件库。其中 cuDF 用于加速数据框计算,主要面向结构化数据处理;而 cuVS 则面向向量存储和语义数据,用于处理非结构化数据和 AI 数据。这两项技术将成为未来数据基础设施中最重要的平台之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋透露,目前这两项技术正在逐步融入全球复杂的数据处理生态系统。由于数据处理产业已经发展了数十年,围绕它已经形成了大量公司、平台和服务,因此将新的加速技术深度整合进整个生态需要时间。但 NVIDIA 已经看到越来越多的合作伙伴开始采用这些技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;例如,IBM——SQL 的发明者之一,也是历史上最重要数据库技术的推动者——正在利用 cuDF 来加速其数据平台 IBM watsonx.data。在黄仁勋看来,这类合作标志着 AI 正在逐步重塑整个数据处理基础设施,使企业能够同时高效利用结构化数据和海量的非结构化数据。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI 原生行业的爆发和英伟达万亿美金的信心&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;AI重塑整个基础设施的另一个标志是涌现出海量的AI原生企业。去年,这个行业经历了史无前例的飞跃。风险投资对初创公司的投入高达 1500 亿美元,创人类历史之最。投资规模也从千万美元级跃升至数十亿美金级。究其原因,是这些公司历史性地都需要海量算力和 Token。无论它们是创造 Token 还是为 Token 增值,它们对算力的渴望是共同的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,“正如 PC、互联网、移动云革命催生了谷歌、亚马逊和 Meta,这次计算平台的迁移也将孕育出一批对世界未来至关重要的新巨头。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;那为什么这种AI企业的爆发会发生在这两年?黄仁勋称这因为发生了三件大事:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;ChatGPT 开启生成式 AI 时代: 计算从“基于检索”转向“基于生成”。这彻底改变了计算机的架构、供应和建设方式。推理 AI(o1/o3)的出现: AI 开始拥有反思、规划、拆解问题的能力。o1 让生成式 AI 变得可靠且基于事实。为了“思考”,输入和输出 Token 的使用量呈爆炸式增长。Claude Code 开启代理(Agentic)时代: 这是首个代理模型。它能阅读文件、编码、编译、测试并迭代。它革新了软件工程。现在 NVIDIA 内部每个工程师都在使用 AI 代理辅助编程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/17/17118ee96a34b892bf1037971287a0d3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,“AI 已经从“感知”进化到“生成”,再到“推理”,现在已经可以执行极其高效的实际工作。 “推理拐点”已经到来。 AI 要思考、要行动、要阅读、要推理,每一环都在进行推理(Inference)。现在已经远超训练阶段,进入了推理的疆场。过去两年,计算需求增长了约 10,000 倍,而使用量增长了约 100 倍。我深感这两年的计算需求实际增长了 100 万倍。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;紧接着,老黄又分享了几个数据,让现场的气氛达到了高潮。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他高兴地向观众分享道,“去年我说 Blackwell 和 Rubin 到 2026 年的订单额将达 5000 亿美元,你们可能没觉得惊艳。但今天,在这里,我预见通过 2027 年的营收将至少达到 1 万亿美元。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他进一步强调了这不是空话,因为计算需求只会更高。2025 年是 NVIDIA 的“推理之年”,NVIDIA 系统是全球成本最低的 AI 基础设施——使用寿命越长,成本就越低。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他这么说的背后有着坚实的数据支撑。目前,全球三分之一的 AI 计算开源模型(如 Anthropic 和 Meta 的模型)都跑在英伟达芯片上。NVIDIA 是全球唯一能运行 AI 所有领域的平台:语言、生物、图形、视觉、机器人、边缘或云端。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在英伟达的业务中,60% 来自顶级云服务商(Hyperscalers),不仅支持其内部 AI 消费(如推荐系统、搜索向大模型的迁移),更通过英伟达的生态系统加速每一家 AI 实验室。另外 40% 则遍布区域云、主权云、企业级服务器及工业自动化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0e/0e806cea61a12db814d69e0f9ed55533.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Token 成本全球最低&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋介绍了 NVIDIA 在 AI 推理基础设施上的最新进展。他表示,AI 性能的突破并不仅来自单一技术,而是由计算架构、软件栈和算法的系统级协同设计共同推动。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋提到,NVIDIA 推出的 NVFP4(FP4)计算体系不仅是一种更低精度的数据格式,而是一种全新的 Tensor Core 计算架构。通过 NVFP4,NVIDIA 已经实现了在推理阶段几乎不损失精度的情况下,大幅提升性能和能效,同时这一计算格式也开始应用于模型训练。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;结合 NVLink 72 高速互连,以及 Dynamo、TensorRT-LLM 等软件优化,NVIDIA 构建起一套面向大模型推理的完整技术体系。为优化底层软件与 GPU 内核,公司还投入数十亿美元建设 NVIDIA DGX Cloud 超级计算平台,用于开发和调优 AI 推理软件栈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/2c/2ca4a822b3054612b6ec3b2be3b1ae20.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋强调,很多人曾认为推理是 AI 系统中最简单的部分,但实际上 推理既是最困难的环节,也是最关键的商业环节,因为它直接决定 AI 服务的收入来源。根据研究机构 SemiAnalysis 的评测,在数据中心层面,衡量 AI 系统效率的关键指标是每瓦特能够生成多少 token(tokens per watt)。由于数据中心受到电力等物理条件限制,本质上更像一个“AI 工厂”,企业必须在固定功率下尽可能多地生产 token。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;评测结果显示,NVIDIA 在 AI 推理性能和效率上依然保持领先。按照传统 Moore&#39;s Law,新一代芯片通常只能带来约 1.5 倍性能提升,但从 Hopper H200 到 Grace Blackwell NVLink 72 架构,NVIDIA 的 每瓦特性能提升约 35 倍。SemiAnalysis 分析师 Dylan Patel 甚至认为实际提升接近 50 倍。这一架构也带来了更低的 token 成本,在当前市场上具有明显优势。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3f/3f362a51e80793a3d483c69b03eb9744.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,这种极致的软硬件协同设计还能显著提升现有系统性能。例如在部分 AI 推理平台中,仅通过更新 NVIDIA 软件栈,就能将生成速度从 约 700 token/秒提升至接近 5000 token/秒,性能提升约 7 倍。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋强调,NVIDIA 的 Token 成本在世界范围内是“不可触碰”的。 即便竞争对手的架构是免费的,它也不够便宜。因为建立一个 1GW 的工厂,即便里面什么都不放,15 年的摊销成本也高达 400 亿美元。你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的 Token 生产成本。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/61/616c7d590295721c6809df83623166a3.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在他看来,数据中心的角色正在发生变化:过去它是存储和计算中心,而未来将成为生产 token 的 AI 工厂。随着 AI 的普及,无论是云厂商、AI 公司还是传统企业,都将开始从“Token 工厂效率”的角度来衡量自己的计算基础设施,因为在 AI 时代,token 将成为新的数字商品,而计算能力则直接决定企业的价值创造能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;Vera Rubin 时代降临&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据介绍,这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。该平台包含40个机架、1.2千万亿个晶体管、近2万个NVIDIA芯片、1152个&lt;a href=&quot;https://www.nvidia.com/en-us/data-center/technologies/rubin/&quot;&gt;NVIDIA Rubin&lt;/a&gt;&quot;&amp;nbsp;GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。&amp;nbsp;该平台目前已全面投产,并得到了包括 Anthropic、OpenAI、Meta 和 Mistral AI 以及所有主要云提供商在内的众多客户的鼎力支持。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f4/f4136a5debe86247ff02c8d0745cfa87.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;他表示,过去十年间 AI 计算能力已经实现了 约 4000 万倍的提升,而这一变化正推动数据中心向“AI 超级计算机”形态演进。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;“过去我发布产品时,可能只是手里举着一块芯片(比如 Hopper);但现在,当我谈到 Vera Rubin 时,我说的是一个全栈垂直整合的庞大系统。”&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋展示了 NVIDIA 最新的 Vera Rubin AI Supercomputer 系统,并强调这是一套从硬件到软件 完全纵向整合(vertically integrated) 的计算平台,专门为 Agentic AI(智能体 AI) 设计。随着大语言模型不断扩大规模、生成更多 token 并处理更长上下文,系统不仅需要更强的计算能力,还需要更高带宽的内存和存储访问能力,例如 KV Cache、结构化数据处理(cuDF)以及非结构化向量数据(cuVS)等。因此,NVIDIA 对整个系统架构进行了重新设计,包括计算、存储和网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/71/717f0b14f1c8c06e588ccd08e1f12e2b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在硬件层面,NVIDIA 为这一平台开发了一款全新的数据中心 CPU——NVIDIA Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用 LPDDR5 内存 的 CPU,从而实现领先的性能功耗比。黄仁勋透露,这款 CPU 已经开始单独销售,并有望成为 NVIDIA 的一项数十亿美元级业务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在系统设计方面,Vera Rubin 超级计算机采用 100% 液冷架构,并通过 45°C 热水散热,大幅降低数据中心制冷成本。同时,系统内部布线被大幅简化,使得整机安装时间从过去的两天缩短至约两小时,从而显著提升数据中心部署效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;网络互连是这一系统的核心技术之一。NVIDIA 在该平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。黄仁勋表示,这是目前全球最先进、实现难度最高的大规模 GPU 互连系统之一。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/29/29fdbedbddd9ed2df005c08b7e06f053.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还推出了全球首个 CPO(Co-Packaged Optics)光电共封装的 NVIDIA Spectrum-X Ethernet Switch,将光模块直接集成到芯片封装中,实现电子信号与光信号的直接转换,从而显著提升数据中心网络带宽与能效。这项技术由 NVIDIA 与台积电共同开发,目前已经进入量产阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在更大规模的系统扩展上,NVIDIA 还展示了 Rubin Ultra Compute System。该系统通过新的 Kyber 机架架构,可以在一个 NVLink 域中连接 144 个 GPU,形成一台规模极大的统一计算机:前部为计算节点,后部为 NVLink 交换系统,通过中板结构连接,从而突破传统铜缆互连的距离限制。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e236d53b93509b9d41531b3d9018189c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋表示,随着 AI 模型规模和推理需求持续增长,未来的数据中心将越来越像一台完整的超级计算机。而像 Vera Rubin 这样的系统,正是为下一代 AI 工作负载——尤其是智能体系统——而设计的核心计算基础设施。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/10/1011821217d3744426d719db8dd37ce6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;下一代 AI 平台:Feynman 架构前瞻&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,值得注意的是,NVIDIA 的&amp;nbsp;Feynman GPU 架构早在 2025 年 GTC 大会上就已得到确认。在本次演讲中,NVIDIA 列出了 Feynman GPU 与下一代 HBM、Vera CPU 以及构成 AI 数据中心基础的其他几个连接芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/cd/cd302fb2aecc077ced93e4f635488ae5.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;存储性能是制约 AI 推理的瓶颈,为此 NVIDIA 改变了以往使用标准 HBM 的策略,转而为 Feynman GPU 配备 定制化 HBM 技术。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;超越标准: 现有的 Rubin 系列分别采用 HBM4 和 HBM4E,而 Feynman 将跳过通用规格,可能采用基于 HBM4E 的定制增强版 甚至提前布局 定制化 HBM5 方案。深度整合: 这种定制化方案允许 NVIDIA 将部分 GPU 的数据处理逻辑直接嵌入存储底层的 Base Die(基础晶圆)中,从而实现超高的带宽与极低的延迟。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 平台将不再沿用目前的 Vera CPU 架构,而是确认搭载代号为 Rosa 的全新 CPU。&lt;/p&gt;&lt;p&gt;这种命名延续了 NVIDIA 以卓越女性科学家命名的传统,Rosa 架构致敬了美国物理学家、诺贝尔奖得主 罗莎琳·萨斯曼(Rosalyn Sussman Yalow),同时也呼应了发现 DNA 结构的 罗莎琳·富兰克林(Rosalind Franklin)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Rosa CPU 被设计为 AI 智能体(Agentic AI)的编排中枢,旨在更高效地调度 GPU、存储与网络之间的 Token 流动,优化处理极其复杂的逻辑决策任务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Feynman 时代标志着 NVIDIA 将计算、存储和封装三者进行了深度耦合。通过“3D 堆叠核心 + 定制化内存 + 专用 Rosa CPU”的组合,NVIDIA 正在将数据中心从传统的服务器集群演进为一台高度集成的“巨型超级计算机”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/f9/f900e49838d48102684c87012bc4328c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推出&amp;nbsp;NVIDIA DSX——面向“AI 工厂”的基础设施平台&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随后,黄仁勋还介绍了 AI 基础设施与数字孪生技术的发展,以及 NVIDIA 在其中的角色。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,当前 AI 基础设施的建设已经开始依赖完整的数字仿真体系。在数据中心建设阶段,系统会通过多种行业领先的工程仿真工具进行验证,例如使用 Siemens Simcenter STAR-CCM+ 进行外部热力学仿真、Cadence Design Systems 的相关工具进行内部热设计、ETAP 进行电力系统分析,以及 NVIDIA 自身的网络模拟平台 NVIDIA DSX Air。通过这些工具,可以在实际建设前完成“虚拟调试”(virtual commissioning),从而大幅缩短数据中心建设周期。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;当数据中心正式投入运行后,其数字孪生系统会成为基础设施的“操作系统”。AI 智能体会与 NVIDIA DSX MaxQ 协同工作,动态调度整个基础设施:实时监控冷却、电力和网络系统,并不断优化计算吞吐量和能源效率。同时,AI 还可以根据电网实时负载和压力信号动态调整功率分配,从而在保证稳定性的同时提升整体效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 及其合作伙伴正在全球范围内加速建设 AI 基础设施,以实现更高水平的可靠性、效率和计算吞吐能力。这一体系的核心平台就是 NVIDIA 新推出的 NVIDIA DSX——一个面向“AI 工厂”的基础设施平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/56/560d03359a09e9f49edcfae37bb10088.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在数字孪生方面,NVIDIA 的 NVIDIA Omniverse 平台被设计用于承载全球规模的数字孪生模型。从地球级别的系统到各种规模的工业设施,未来都可以在这一平台上构建和运行数字孪生。黄仁勋特别感谢生态合作伙伴,并表示这些企业在过去几年中迅速加入 NVIDIA 的生态,共同建设可能是“世界上最大的计算系统”,并在全球范围内部署。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还透露,NVIDIA 的 AI 计算基础设施正在向太空延伸。公司此前已经在卫星领域部署计算系统,并计划与合作伙伴开发新的太空计算平台 Vera Rubin Space One,用于在轨道上建设数据中心。由于太空环境中不存在对流或传导散热,只能通过辐射散热,因此系统冷却将成为一项极具挑战的工程问题,目前 NVIDIA 正在与工程团队共同研究解决方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6e/6ef916d83130200f9c8073510f96b7ef.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;联合 OpenClaw之父推出&amp;nbsp;NemoClaw&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;整场演讲中对软件开发者影响最深远的部分是老黄对于最近爆火的“龙虾”现象的评论。黄仁勋高度评价了由 Peter Steinberger 创建的开源项目 OpenClaw。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,OpenClaw 的增长速度甚至超过了 Linux 在过去几十年的传播速度,其影响力“极其深远”。NVIDIA 也宣布将正式支持这一项目。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/82/8228f2db32767aceb5d53a3803f209ba.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;黄仁勋提到,AI大佬 Andrej Karpathy 最近提出的一种“AI 研究助手”模式很好地体现了智能体系统的能力:用户只需给 AI 一个任务,然后去休息,AI 便可以在后台自动运行数十甚至上百个实验,不断保留有效结果、淘汰无效方案。类似的案例正在不断出现。例如有人将 OpenClaw 安装在自己父亲的设备上,通过蓝牙连接酿酒设备,实现从生产流程到网站订单系统的全流程自动化,甚至在深圳已经出现用户排队购买相关产品的案例。随着这一项目迅速流行,社区甚至已经开始举办专门的开发者活动,足以说明其热度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋认为,从技术本质上看,OpenClaw 可以被理解为一种智能体计算机的操作系统。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;正因如此,OpenClaw 的意义类似于过去的关键基础软件。黄仁勋表示,就像 Linux 让个人计算机和服务器生态得以发展,Kubernetes 推动了云计算时代的基础设施,而 HTML 构建了互联网应用基础一样,OpenClaw 为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——“你的 OpenClaw 战略是什么?” 因为企业软件正在从传统工具型软件,转向以智能体为核心的系统。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在传统企业 IT 架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生变化。黄仁勋认为,未来几乎所有 SaaS(Software as a Service) 公司都将演变为 AaaS(Agentic as a Service)——即以智能体为核心的服务平台。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。为此,NVIDIA 与 OpenClaw 作者 Peter Steinberger 以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出 NVIDIA NemoClaw 参考架构。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/9d/9ddf87f17fe0a404d32251fa6cb37597.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该架构在 OpenClaw 基础上加入了名为 OpenShell 的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行 AI 智能体。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;推进开放模型生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,NVIDIA 还在推进开放模型生态。黄仁勋表示,现实世界的需求高度多样化,不可能由单一模型满足所有行业。因此,开放模型正在形成一个规模庞大的 AI 生态系统,目前已经包含接近 300 万个开放模型,覆盖语言、视觉、生物、物理和自动驾驶等多个领域。作为其中的重要贡献者,NVIDIA 已发布多条开放模型产品线,包括 Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并同时开放训练数据、训练方法和框架工具,以推动整个 AI 生态的发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;黄仁勋表示,NVIDIA 的开放模型之所以能够在多个榜单中处于领先位置,不仅因为其性能达到世界级水平,更重要的是公司会持续投入长期研发。“我们不会停止改进这些模型,”他说。例如 Nemotron 模型已经从 Nemotron 3 走向 Nemotron 4,Cosmos World Foundation Model 也从 Cosmos 1 发展到 Cosmos 2,而机器人模型 Project GR00T 也在不断迭代。NVIDIA 的策略是“纵向整合、横向开放”,在持续提升模型能力的同时,让整个生态都能参与到 AI 发展中来。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他还展示了 Nemotron 3 在智能体框架 OpenClaw 中的表现。根据公开评测数据,当前全球排名前三的模型均处于这一技术前沿。黄仁勋表示,NVIDIA 不仅希望构建领先的基础模型,更重要的是让开发者能够在此基础上进行微调和后训练,构建适用于不同领域的专用 AI 系统。为此,NVIDIA推出了 Nemotron 3 Ultra 作为新一代基础模型,并希望借此帮助各个国家和行业构建属于自己的 “主权 AI(Sovereign AI)”。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步推动这一生态,NVIDIA 在大会上宣布成立 Nemotron Coalition。该联盟将与多家技术公司合作,共同推进 Nemotron 系列模型的发展。参与合作的公司包括图像技术公司 Black Forest Labs、AI 编程平台 Cursor、智能体开发框架 LangChain、欧洲 AI 公司 Mistral AI、AI 搜索平台 Perplexity AI、印度 AI 公司 Sarvam AI 以及 Thinking Machines Lab 等。黄仁勋表示,随着越来越多企业加入合作,AI 模型将能够覆盖从语言到生物、从物理到自动驾驶等广泛领域。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在企业软件层面,黄仁勋再次强调,未来所有公司都需要制定自己的 OpenClaw 战略。随着智能体系统的发展,传统的 SaaS 软件模式将逐渐转向 Agentic as a Service(AaaS)。企业不仅会使用 token 来增强员工生产力,还会通过 AI 工厂生产 token,并向客户提供智能体服务。他甚至预测,未来科技公司招聘工程师时,除了薪资外,还会提供“token 配额”,因为拥有更多 AI 计算资源的工程师能够获得更高的生产效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;除了数字智能体,NVIDIA 还在推进 物理 AI(Physical AI)。黄仁勋表示,目前全球几乎所有机器人公司都在与 NVIDIA 合作,现场展示的机器人数量超过 100 台。NVIDIA 为机器人开发提供完整技术体系,包括训练计算平台、合成数据与仿真平台,以及部署在机器人内部的计算系统。同时,公司还提供完整的软件和模型生态,例如机器人仿真与训练平台 NVIDIA Isaac Lab、世界模型 Cosmos World Foundation Model 以及机器人基础模型 Project GR00T。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/99/992411aed6580dcd6e779e05cfe49082.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在自动驾驶领域,黄仁勋表示“自动驾驶的 ChatGPT 时刻已经到来”。基于 NVIDIA Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。NVIDIA 还宣布新的 Robotaxi 合作伙伴,包括 BYD、Hyundai Motor Company、Nissan 和 Geely,这些公司每年合计生产约 1800 万辆汽车。同时,NVIDIA 还将与 Uber 合作,在多个城市部署自动驾驶出租车网络。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在机器人产业方面,NVIDIA 正与 ABB、Universal Robots、KUKA 等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。黄仁勋还提到,未来通信基础设施也将成为 AI 系统的一部分,例如 T-Mobile 的通信塔未来可能演变为“机器人 AI 基站”,能够实时分析交通和网络情况并动态调整信号。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在总结演讲时,黄仁勋表示,AI 产业正同时经历三大变革:AI 推理与 AI 工厂、智能体系统革命,以及物理 AI 与机器人时代。随着这些技术逐渐成熟,计算能力、AI 模型和基础设施将共同推动全球产业进入新的发展阶段。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/MSc2PuVcBuYd1afpAGC1</guid>
      <pubDate>Tue, 17 Mar 2026 00:52:46 GMT</pubDate>
      <author>李冬梅</author>
      <category>英伟达</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>国内首个国产AI推理千卡集群落地梁文锋家乡,采用云天励飞全自研AI推理芯片</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/e7/bdf9600354c5a761e126505b32d6b0e7.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;AI算力从“训练优先”走向“推理优先”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的 Seedance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;Gartner 预测,到 2026 年,终端用户在推理方面的支出将超过训练密集型工作负载。预计用于推理应用的支出将从 2025 年的 92 亿美元增至 206 亿美元。约55%的AI专用云基础设施支出将用于推理工作负载。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;面向推理时代的千卡集群架构&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;自研芯片构建低成本推理能力&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。&lt;/p&gt;&lt;p&gt;根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/IPr0osV9pNO48ThJL2ds</guid>
      <pubDate>Thu, 12 Mar 2026 03:55:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>传字节今年要造10万颗推理芯片,1600 亿预算砸向AI!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/44/51/44bd7c5dd1b98a4e9a2edaa8afcf1551.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;整理 | 华卫&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;近日,据两位知情人士透露,字节跳动正研发AI芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为AI 推理任务设计,公司计划今年至少生产10 万颗,并有望逐步将产能提升至35 万颗。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&quot;&gt;https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/AradpbWZZoiWVmehvBLB</guid>
      <pubDate>Wed, 11 Feb 2026 09:40:36 GMT</pubDate>
      <author>华卫</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/b6/6d/b63c9c9733211c111d3a1b60fdb3036d.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/88/882ad7697fdc8328b84b398e401f293d.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;智能的繁荣与底层的“枯竭”&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中最核心的一环,正是高性能算子的开发。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;KernelCAT:计算加速专家级别的 Agent&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/8f/8faf0bf997be96bcfd5f8bcb5396620f.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/69/6920f6c41c59b89f3d72dd73255fd27b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;为国产芯片生态写高性能算子&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/90/90a7b4e9f17290018d9342b3ed31e0a4.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;没有坚不可破的生态,包括 CUDA&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上&quot;说上了母语&quot;。实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://kernelcat.cn/&quot;&gt;KernelCAT 限时免费内测&lt;/a&gt;&quot;中,点击链接,马上体验~&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/wechat/images/14/140a6c0e97d8e4f35ef00ee8f4f9f40e.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/JAmVx35sxdz0ubB7l0Ua</guid>
      <pubDate>Fri, 30 Jan 2026 09:46:03 GMT</pubDate>
      <author>InfoQ</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/9f/e5/9f01dbbbe47906ef536a31f2a1f344e5.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;blockquote&gt;采访嘉宾 | 天数智芯 AI 与加速计算技术负责人 单天逸&lt;/blockquote&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那一刻,下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断,被放到了更公开也更严苛的舞台上,谁能撑起资本市场和大众期待,谁就能撑起市值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是为什么,天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式,把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中,围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考,天数智芯公布了过去一代以及未来三代的架构路线图:&lt;/p&gt;&lt;p&gt;2025 年,天数天枢架构已经超越英伟达 Hopper,在 DeepSeek V3 场景中实测性能数据超出 20%;2026 年,天数天璇架构对标 Blackwell,新增 ixFP4 精度支持;2026 年,天数天玑架构超越 Blackwell,覆盖全场景 AI/加速计算;2027 年,天数天权架构超越 Rubin,支持更多精度与创新设计。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/93/93a5511a47ea59c34947fa5622e43f57.jpeg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;国产 GPU,开启 AI++ 计算新范式&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;根据天数智芯公布的架构路线图及阶段发展目标,在 2027 年之前,天数智芯将通过多代产品完成对英伟达的追赶;在 2027 年之后,将转向更富创新性的架构设计,聚焦更具突破性的超级计算芯片架构设计。看似宏大,但对于仍处于爬坡阶段的国产 GPU 行业来说,这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越,国产 GPU 才有资格进入更大规模的生产环境中。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;而在规模化落地阶段的竞争,焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料,当算力消耗开始对标真实业务产出,无论是国际顶尖 GPU 厂商还是国内 GPU 企业,核心命题都只有一个:如何在真实业务中,把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一命题,天数智芯提出了两条明确的架构判断:其一,回归计算本质;其二,提供高质量算力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;回归计算本质,核心在于“不设限”&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去十年,规模的快速扩张带来了阶段性的产业繁荣,也使得算力实现野蛮增长。但这种粗放式发展,也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例,路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此,计算、通讯、存储都会带来各种障碍。所以,幻想奔跑在平坦的赛道上毫无意义,产业真正需要的,是能够翻山越岭的全能越野车。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/64/64709d562cae987749119744a750d556.webp&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;广义上,芯片可分为专用芯片和通用芯片:专用芯片类似“应试教育”,它的优势和边界都很清晰,能加速特定算法、特定指令,比如矩阵乘法、Softmax 这些主流任务,但一旦计算范式发生变化,适应空间就会迅速收紧;通用芯片的设计哲学,不是为了押中某一类算法,而是回归计算本质,覆盖更广泛,甚至全新的计算需求。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来,硬件与算法的关系本来就不应该相互掣肘,算力的僵化不应限制算法的进化,而是通过通用算力为探索未知算法提供一个坚实的底座。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑探索未来算法的关键,实则就是“不设限”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;基于这一判断,天数智芯的芯片设计哲学,在计算层面追求的是覆盖几乎所有的数学运算图谱,而非某一类、某一种计算:从 Scalar、Vector、Tensor 到 Cube,支持从高精度科学计算到 AI 精度计算,从 MMA 到 DPX,不管是 AI 的 Attention 机制、前沿的科学计算,还是未来的量子计算相关模拟,天数智芯全都支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在执行层面,追求的是更高的算力利用率:大、中、小任务会被精准分配到不同的计算单元中执行,配合高密度的多任务核心设计,算力可以被拆解、调度得更加精细,从而减少算力浪费,提高计算效率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/d2/d21f6e06061719cd4a9a199eb6e5fed0.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这种“不设限”的设计哲学,让天数天枢架构得以实现三大创新,这也是天枢能够超越英伟达 Hopper 架构的根因:&lt;/p&gt;&lt;p&gt;TPC BroadCast(计算组广播机制)设计:不是简单粗暴地放大带宽,而是从单位带宽的使用效率入手,存在相同地址的数据时,芯片内部的 load store 单元不会进行重复、无用的访问,而是在上游进行 BroadCast,减少不必要的内存访问次数,从而有效降低访存功耗,等效提升访存带宽,用更小的功耗和面积实现相同的功能。Instruction Co-Exec(多指令并行处理系统)设计:在指令执行层面,通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力,不仅支持 Tensor Core 与 Vector Core 的并行协同,还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中,通过极低的成本增强了不同指令之间的并行处理能力,无论是 MLA、Engram,还是面向更复杂模型场景的计算需求,都可以在这一并行框架下被同时处理,从而提升整体执行效率。Dynamic Warp Scheduling(动态线程组调度系统)设计:随着 MoE 架构在大模型中被广泛采用,模型厂商普遍面临推理效率低等现实挑战。为提升并行度,微架构层面允许芯片中同时驻留更多 warp,但 warp 的增加也意味着对计算资源的竞争更为激烈。为此,天数智芯首创了 Dynamic Warp Scheduling 机制,通过动态调度让不同 warp 在资源使用上实现有序协作,避免计算资源闲置,也减少了对同一资源的无序争抢。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这三项设计的出发点本质上都指向相同的目标:高性能与高效率。数据显示,这些创新让天数天枢的效率较当前行业平均水平提升 60%,基于这些效率优势,实现在DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从这三项设计中可以看出,天数智芯在架构层面的创新,并不是围绕某一个具体模型或算子展开,而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示,在天数智芯提出 Dynamic Warp Scheduling 设计之前,几乎没有人从调度机制的角度去思考,还能为 MoE 带来哪些性能空间。从更深层次意义来看,这类微架构层面的调度和优化,一直是英伟达、AMD 等巨头保持领先的“内功”,天数智芯在这些单点上的突破,实际上也是国产 GPU 向顶级玩家看齐的重要一步。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;提供高质量算力:高效率、可预期、可持续&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在天数智芯的架构语境中,回归计算本质并不是一个抽象的口号,而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责,高质量算力才成为可能。基于这一判断,天数智芯将高质量算力拆解为三个核心维度:高效率、可预期与可持续。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/7a/7ace836faccd159427d7c71b330df3ca.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;高效率意味着能为客户创造最优的 TCO(总体拥有成本),节省使用成本;可预期则通过精准的仿真模拟,让客户在拿到芯片、部署算力之前,就能清晰预判最终的性能表现,做到所见即所得;可持续指的是从现在主流的 CNN、RNN,到当下火热的 Transformer,再到未来还未诞生的全新算法,算力始终能无缝适配。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这三个方向,天数智芯在架构及系统设计上,选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项,其实哪个都值得单独展开探讨。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;比如,基于“不设限”的设计理念,在当前 PD 分离的架构下,天数智芯的 GPU 不只做计算,还支撑通信、KV 数据传输这些关键任务,通过打造 Ⅸ 并行任务处理模块,GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务,让它们并行不冲突。在真实业务场景中,该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/b4/b473b037acf6e72c5b667dd838e26e33.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;为了提高算力可持续性,天数智芯统一了芯片内、外,来构建算力系统,并通过不断更新的软件栈和软件系统,三类库共同支持和保障多场景的高效运行。其中,AI 库、通讯库(ixccl)、加速计算库是基石,在基石之上,直接支撑各类神经网络模型CNN、Transformer、LSTM 与高性能计算的各个领域,并以此提供各类 AI 应用,包括支持 AI4Sci 的相关应用,如蛋白质结构预测(AlphaFold)、医疗影像分析(Clara)、气候模拟(Earth2)等,以及量子计算的平台 cudaQ、分子动力学 Gromacs,大规模方程组求解器 HPL 等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;这套算力系统被命名为 IXAI++,寓意为自我迭代,不止于 AI。其最终的目标是,成为一座连接算法创新与物理世界的桥梁,带领人类科技通往未知探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;但给业内带来最多惊喜的,是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题,后者解决的是企业部署算力系统最头疼的不可控难题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在大模型推理场景中,长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上,Attention 的执行效率依然不高,如果不对其进行针对性优化,首字延迟将明显偏高,模型响应速度差,推理成本高昂,最终影响大模型在真实业务中的可用性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕这一痛点,天数智芯设计了 Ⅸ Attention 模块,从底层对 Attention 的执行路径进行重构:Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子,Ⅸ Attention 模块的核心思路,是将这些分散的组件有机地拼装到一起,如同指挥一支乐队一般,确保多种乐器能够和谐共鸣。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/19/1931cf31a98c3a57d61ca5cbaf8caa44.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;“其中的技术难点在于调度,多种乐器需要同时演奏,任何一个环节拖慢节奏,都会成为整个系统的瓶颈”,单天逸表示,在实际的长上下文推理中,Ⅸ Attention 模块有效改善了 Attention 的执行效率,带来了约 20% 的提升。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;针对企业部署算力系统最头疼的不可控难题,天数智芯搭建了 IX-SIMU 全栈软件仿真系统,这套仿真系统的目标,就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真,能精准输出任意模型的性能表现,提升算力在真实场景中的可控性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/c1/c15d79ed9346cf49898ee0193b585926.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;单天逸表示,在算力系统的仿真与评估中,最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于,能够对底层指令执行进行精细建模。在实际使用中,用户只需输入软件代码,IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件,匹配网络拓扑,再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略,最终精准输出 Deepseek、千问等任意模型的性能表现,实现从单卡到万卡集群的 “精密扩展”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕高效率、可预期、可持续三大判断,天数智芯在算力侧从硬件架构到系统设计进行了整体布局,并用未来三代架构路线图提前回答下一个问题:当算力僵化开始掣肘未来计算,架构层还能怎么演进?&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;决定上限的,最终还是应用和生态&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;架构代表的其实是下限,决定上限的,最终还是应用和生态。数据显示,截至 2025 年年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用,服务客户数量超过 300 家,并通过软硬件协同优化,完成 1000+ 次模型部署,让产品能力真正达到商用级别。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;支撑这些场景应用的,早已不是一个产品的能力范畴,而是“产品 + 解决方案” 双轨模式,这一模式其实与英伟达定位非常相近,聚焦的都是解决方案落地。在大模型深入产业应用的当下,这套组合打法相当务实,毕竟应用落地才是唯一真理,谁能在企业真实业务场景中快速部署、持续稳定运行,谁就能赢得先机。在速度和兼容性上,天数智芯也交出了一份不错的答卷:国内新的大模型发布当天便能跑通,目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子,数千卡集群稳定运行超 1000 天。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在这次发布会上,天数智芯面向物理 AI 场景落地,一口气发布了四款边端算力产品“彤央”系列:包括边端 AI 算力模组 TY1000、TY1100,以及边端 AI 算力终端 TY1100_NX、TY1200。 据了解,“彤央”系列产品的标称算力均为实测稠密算力,覆盖 100T 到 300T 范围。数据显示,在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中,彤央 TY1000 的性能全面优于英伟达 AGX Orin。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在发布会中,天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用:具身智能领域,为格蓝若机器人提供高算力、低延迟的“大脑”支撑;在工业智能领域,落地园区与产线,推动产线自动化升级;在商业智能领域,瑞幸咖啡数千家门店部署彤央方案,高效处理视频流、挖掘消费数据价值;在交通智能领域,与“车路云一体化”20 个头部试点城市合作,验证车路协同方案。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;整体来看,天数智芯走的路线虽然是底层技术自研,但在生态上并非封闭。在生态建设上,天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议,进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态,持续开放底层能力,降低开发者迁移和使用门槛。未来,天数智芯还会持续增加在生态共建上的资本与人力投入,从应用到芯片与开发者一同优化 AI 应用系统,共同为应用落地提供性能、性价比与生态易用的价值。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从底层架构到产品,从应用到生态,国产算力正在实现完整闭环,这种从芯片到生态的协同能力,不仅让国产算力更可用、更可持续,也为行业探索新模式提供了更多想象空间。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/hR5WX4alMiNZumPR5ukC</guid>
      <pubDate>Thu, 29 Jan 2026 06:54:56 GMT</pubDate>
      <author>凌敏</author>
      <category>企业动态</category>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>从算力规模到系统级竞争:智算竞争核心已变,金山云战略升级曝行业“隐形拐点”</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/bd/1f/bd2b4b1668393b4b5d9bf91cf845761f.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;从训练到推理:智算需求正在经历一场结构性转向&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;过去一年,如果仅从“算力需求增长”来理解中国智算产业的变化,显然是不够的。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在2026年1月21日举办的金山云年度Tech Talk上,金山云对其过去一年智算业务的演进进行了系统性回顾。从公开财报数据到客户侧真实使用情况,这些信息拼凑出了一幅更清晰的图景:智算需求并非简单放量,而是在训练、推理、应用形态和工程方式等多个层面同时发生结构性变化。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这场变化的核心,不再只是“谁拥有更大规模算力”,而是围绕模型如何被使用、Token如何被消耗、算力如何被组织展开。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;变化首先体现在财务数据上。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据金山云披露的公开财报,其智算云业务在过去一年实现了高速增长。以2025&amp;nbsp;年第三季度为例,智算云账单收入达到7.8亿元人民币,同比增长接近120%。这一数据并非孤立,而是延续了此前多个季度的增长趋势,显示智算已成为金山云收入结构中的重要组成部分。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;金山云高级副总裁刘涛在分享中提到了金山云对这一趋势的判断:智算需求的增长重心,正在从训练侧逐步向推理侧转移。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从训练视角看,过去几年国内智算需求的主要推动力,来自少数对算力高度敏感的行业。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;自动驾驶与具身智能,是其中最典型的代表。这些行业往往需要长期训练模型,并处理视频、点云、传感器等海量多模态数据。在早期阶段,它们对算力的需求更多集中在训练规模本身。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;但与通用大模型不同,这类行业模型并不一味追求参数规模最大化。刘涛在分享中指出,自动驾驶和具身智能模型在训练阶段,对算力密度的要求并不极端,但对显存容量和数据处理能力要求更高。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这意味着,它们对算力平台的诉求,正在从“算力数量”转向“系统能力”——包括数据接入、预处理、多模态调度以及训练全流程的工程化效率。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理侧的变化更加显著。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;如果说训练侧的变化仍然是渐进的,那么推理侧的变化则更为直接和激烈。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;一个被反复引用的数据,来自火山引擎在其公开发布会上的披露:平台每日Token调用量已达到50万亿级别。这是当前国内少数被明确对外公布的Token规模数据之一,也成为行业理解推理负载的重要参考。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,多个面向大众或企业的模型产品正在持续扩大推理需求。例如豆包、通义千问以及近期加大投入的腾讯元宝,都在不同程度上推动Token消耗快速增长。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些产品并不完全运行在同一云平台上,但它们共同指向一个事实:推理阶段正在成为智算需求增长的主要来源,且这种增长具备明显的外溢性。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在所有推理场景中,编程类应用被反复强调。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;刘涛指出,2025年一个尤为显著的变化在于:编程相关请求正在成为Token消耗的主力场景之一。这一判断并非孤立,而是与海外模型使用结构的统计结果高度一致。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“Vibe Coding”成为一个关键词。一个广为流传的事实是,Claude Code的大量代码本身,正是由Claude Code参与生成的。这意味着模型不再只是辅助工具,而是深度介入软件生产过程。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;从全球Token调用结构来看,编程类请求在多家模型服务商中长期占据最高比例。金山云也观察到了同样的趋势:代码生成、重构和理解能力的提升,正在显著改变程序员的工作方式,并直接放大推理侧算力需求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在具体应用层面,互联网客户仍然是智算需求的重要来源,但其需求形态已经发生变化。刘涛提到,当前互联网场景呈现出三个明显特征:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;其一,多模态需求显著增长。视频生成、视频理解以及复杂推理任务,带动了训练与推理负载的持续上升;&lt;/p&gt;&lt;p&gt;其二,模型参数规模不再单向膨胀,而是围绕具体任务进行结构性调整;&lt;/p&gt;&lt;p&gt;其三,Vibe Coding在头部互联网公司中已较为普及,使用更强的商用模型进行代码开发,正在成为常态。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这些变化意味着,互联网客户对智算平台的期待,已经从“算力服务”升级为对模型生命周期管理和工程体系的整体依赖。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了满足更多元化的需求,刘涛表示,2025年,智算平台金山云星流已完成从资源管理平台向一站式AI训推全流程平台的战略升级。从训推平台、机器人平台到模型API服务,升级后的金山云星流平台构建了从异构资源调度、训练任务故障自愈到机器人行业应用支撑、模型API服务商业化落地的全链路闭环。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;实现三维进阶,智算云AI势能全释放&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;尽管各行各业大规模应用AI还处于早期探索阶段,但定位行业助力者的金山云,多年来持续打磨全栈AI能力。从2023年的智算网基础设施,到2024年智算云的平台化和Serverless化,再到2025年的一站式AI训推全流程平台,通过提升平台效率、突破行业边界、加速推理布局,金山云为迎接AI应用爆发做好了充分准备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在平台效率方面,金山云星流训推平台提供从模型开发、训练到推理的完整生命周期管理,具备开发、训练、推理和数据处理四大模块能力,通过降低多模块协同复杂度,能实现“开箱即用”的AI开发体验。自研的GPU故障自愈技术结合任务可观测性设计,可实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;作为面向机器人开发与落地的全链路云原生平台,金山云星流机器人平台深度融合数据采集、存储、标注、模型开发、训练、部署与仿真等核心环节,打造具身场景专属的数据、模型、仿真一体化引擎。平台率先实现具身智能数据工程领域采集、标注、管理的全链路闭环,可高效服务具身智能行业模型训练、仿真应用场景分析等核心需求,助力客户快速完成从算法研发到真实场景部署的全流程落地,最终推动机器人产业的智能化升级。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;面向大模型应用开发者和企业用户,金山云星流平台模型API服务提供高可用、易集成的模型调用与管理能力,覆盖模型调用的全生命周期。该服务支持高并发推理与多模型管理,能够帮助用户高效接入多种模型资源,助力大模型应用落地。目前,金山云星流平台模型API服务已积累诸多行业客户。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;同时,金山云星流平台的模型生态也在持续丰富。目前,平台已支持近40种不同模型,包括DeepSeek、Xiaomi MiMo、Qwen3、Kimi等。客户通过一站式访问,即可高效接入多种模型,在畅享稳定高效云服务的同时,更加聚焦AI业务创新和价值创造。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/ELmQulBO3oXOzC1F76It</guid>
      <pubDate>Tue, 27 Jan 2026 03:58:35 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>聚焦算力市场痛点,嘉唐算力供应链平台重磅发布</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/4d/34/4d3f7yy64d506d55f7b8018028747e34.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在近期举行的第五届AIGC开发者大会上,上海嘉唐科技发布了名为“算力供应链服务平台”的全栈式解决方案。该平台以“生态共建,供需协同”为理念,围绕算力交易、金融配套、资产管理及算电协同等维度展开设计,旨在应对当前算力行业存在的价格透明度低、流程不规范、服务缺乏标准化及供需匹配效率不高等问题,致力于为构建全国算力服务统一市场提供技术支持。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;当前,算力作为数字经济发展的重要基础设施,已成为衡量新质生产力的关键指标之一。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;据统计,近五年来我国算力产业规模年均增速超过30%,但与此同时,行业仍面临资源结构性失衡、整合程度不足等制约高质量发展的挑战。为此,市场上陆续出现多种服务模式探索。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;嘉唐科技此次推出的平台整合了撮合与直营等模式,尝试在供需对接、资源保障、产业链协同及能耗优化等方面提供系统性支持,其中算电协同方案通过引入绿电直供等方式,尝试推动算力行业能耗成本优化与绿色化转型。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;从平台架构来看,其采用“1+3+N”的设计思路,即一个综合服务底座,涵盖算力交易、资产管理、金融服务三大核心模块,并计划拓展至多个行业应用场景。该架构试图在资源整合、智能调度与服务标准化等方面做出探索,与行业主管部门推动的算力互联互通方向具有一定的契合性。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;在生态合作方面,多家来自能源、金融、科技等领域的企业参与了此次发布仪式,并表达了在资源共享与产业协同方面的合作意向。行业分析指出,此类跨领域协作有助于将企业单体优势扩展为产业链整体效能,对推动AI技术在不同行业的落地应用可能形成一定支撑。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;业内观察显示,随着算力在经济社会各领域渗透不断加深,构建开放、高效、协同的算力供应链体系逐渐成为行业共同关注的议题。相关平台的出现,反映了市场主体在整合算力资源、提升服务能效方面的尝试,其长期成效仍有赖于技术可靠性、模式可持续性及行业协同机制的进一步完善。在算力市场竞争日趋全球化、绿色化的背景下,此类探索也为推动产业高质量发展提供了可供观察的案例。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vbx7cX5Mvva7szH6Fl53</guid>
      <pubDate>Tue, 20 Jan 2026 09:59:30 GMT</pubDate>
      <author>李冬梅</author>
      <category>芯片&amp;算力</category>
    </item>
    <item>
      <title>MUSA开发者大赛丨GEMM优化挑战赛火热开启!</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/fb/74/fb8b0824bb93b0825f442f79a92c3474.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;MUSA开发者集结!与摩尔线程算力共振,谁将登顶矩阵乘法的性能巅峰?&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;国产算力生态的崛起,不仅需要坚实可靠的硬件基座,更呼唤能够彻底释放硬件潜能的极致软件优化能力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;GEMM(通用矩阵乘法),正是衡量软件能力的核心标尺。作为触达GPU算力峰值、检验架构效率与存储带宽极限的核心算子,它既是验证硬件潜力与软件栈成熟度的试金石,也是每一位追求极致的开发者渴望征服的“性能圣杯”。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此刻,我们诚邀所有心怀极致追求的开发者,共同开启这场极限挑战——基于摩尔线程训推一体全功能智算卡&amp;nbsp;MTT S4000,在MUSA架构GPU上深度优化GEMM,共同挑战GPU的性能巅峰。在这里,用你的代码与智慧,亲手将矩阵乘法的性能推向极限!&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;赛题丨FP16 GEMM Kernel 极致性能开发&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;本次挑战赛聚焦于底层&amp;nbsp;Kernel 开发,要求参赛者在摩尔线程MTT S4000上,将FP16精度的通用矩阵乘法(GEMM)性能优化到极致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;计算任务:在&amp;nbsp;MTT S4000 上,实现矩阵乘法(M=8192, N=8192, K=16384)的高性能计算。精度要求:计算采用FP16进行乘加运算,中间累加过程使用FP32。硬件架构:所有优化工作须基于MTT S4000的硬件特性展开,参赛者需深入研究并充分利用其特性。优化边界:禁止调用muBLAS/muDNN 等高层库。鼓励参赛者深挖共享内存分块、寄存器优化等硬件潜力。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;评分丨严谨性与高性能的统一&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;最终比赛结果由主办方统一依据官方评测方案进行综合评定,总分为正确性与性能两部分之和,缺一不可。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;1. 正确性测试:不容有失的基石&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;测试范围:参赛代码必须通过主办方设置的四组不同规模的测试用例验证。精度要求:计算结果必须严格准确。与官方muBLAS库提供的参考结果相比,每个元素的相对误差必须控制在1e-2以内。一票否决:任一测试用例失败,或任一输出元素误差超限,则正确性部分得分为0,且将直接终止评测,无法进入后续性能评估环节。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;2. 性能评估:追求极致的竞技场&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;评估标准:在通过全部正确性测试后,性能评估将在本次比赛的核心规模——8192 x 8192 x 16384上展开。系统将进行多次迭代测试,取平均GFLOPS作为性能指标。评分参考:为帮助参赛者了解自身优化水平,我们将根据参赛者代码性能相对于官方muBLAS基线性能的百分比效率,进行线性插值计算,提供一个参考性分数。绝对排名:比赛的最终官方成绩与总排名,严格依据在标准评测环境下测得的绝对GFLOPS性能值进行排序。性能越高,排名越前。自测工具:我们为参赛者提供了性能绝对值测试脚本,参赛者可自行读取并分析Kernel的实际性能数据,以便进行针对性优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;资源丨云端环境与算力支持&lt;/h2&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;摩尔线程将为每一位参赛者提供专业、完备的云端开发环境与算力支持。如下设计致力于最大限度地消除环境差异,确保参赛者自测的性能结果具有高度参考价值,助力大家精准优化。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;算力平台:我们将提供本次赛题指定硬件MTT S4000的云端算力资源供参赛者调优、测试。参赛账户:每位参赛者将获得一个专属的AutoDL子账号,确保开发环境的独立性与数据安全。预置镜像:该账号中已内置比赛专用镜像。镜像环境预先配置了所有必要的驱动、工具链,并包含了官方的评估脚本、编译工具及基础示例代码,参赛者登录后即可立即开始开发工作。标准化工具链:我们提供统一的评测脚本与摩尔线程官方编译器&amp;nbsp;mcc。参赛者在本地自测时使用的编译命令、优化选项与评测流程,将与最终官方评审环境完全一致。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h2&gt;奖项丨激励卓越,丰厚礼遇&lt;/h2&gt;&lt;p&gt;&lt;/p&

...

@github-actions github-actions bot added the auto: not ready to review Users can't get the RSS feed output according to automated testing results label Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

http://localhost:1200/infoq/recommend - Failed ❌
HTTPError: Response code 503 (Service Unavailable)

Error Message:<br/>FetchError: [POST] &quot;https://www.infoq.cn/public/v1/article/getDetail&quot;: 451
Route: /infoq/recommend
Full Route: /infoq/recommend
Node Version: v24.14.1
Git Hash: 0c592d45

@github-actions github-actions bot added auto: ready to review and removed auto: not ready to review Users can't get the RSS feed output according to automated testing results labels Apr 3, 2026
@github-actions
Copy link
Copy Markdown
Contributor

github-actions bot commented Apr 3, 2026

Successfully generated as following:

http://localhost:1200/infoq/topic/1187?limit=1 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 话题 - 芯片&amp;算力</title>
    <link>https://www.infoq.cn/topic/1187</link>
    <atom:link href="http://localhost:1200/infoq/topic/1187?limit=1" rel="self" type="application/rss+xml"></atom:link>
    <description>关注芯片&amp;算力行业发展趋势,重点关注国产芯片&amp;算力的研究进展和发布情况 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 06:45:30 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>AI 原生时代,如何提供可用、易用、高效的算力服务?</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/c9/9a/c9c554aa40319dccd7345c677647a89a.jpg&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;在大模型与推理需求持续增长的背景下,算力基础设施正在从云原生阶段向 AI 原生阶段演进。围绕这一趋势,如何将底层软硬件能力转化为可用、易用、高效的算力服务,成为当前基础设施设计中的关键问题。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;近日,商汤大装置首席架构师项铁尧在 2026中关村论坛上发表了《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为客户可用、易用、高效的算力服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在他看来,当算力集群的发展进入AI原生时代,新的架构范式应具备统一的规范、极致弹性的扩缩容机制以及为大模型训练和推理深度优化的AI集群Runtime。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/e2/e2696e023e746c79df71501f9cfc089c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;1. AI算力池:面向角色、水平分层、资源自由流转&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;项铁尧从底层技术视角切入,指出Kubernetes(全球最流行的容器编排平台)正朝着AI方向发展。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;随着动态资源分配(DRA)、Workload API与Gateway API三项核心新特性的引入,K8s逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;据了解,AI算力池面向AI原生时代全新算力服务需求,采用&quot;三明治&quot;水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及Agentic Engine的完整PaaS产品体系,全面杜绝不同产品之间的资源孤岛问题。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/46/46057e5ab902ad0d442c9db8779a375c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;其中,大装置AI算力池具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)面向角色。面对客户内部角色多元、需求复杂的现实,分别设计服务形态、提供差异化的解决方案。比如针对集群管理员与平台工程师提供高弹性虚拟集群资源;针对AI研究员,可提供丰富的脚本工具与高效研发环境等等。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)水平分层。AI算力池采用“三明治”结构,杜绝产品间信息、资源孤岛的可能。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)资源自由流转。用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AI Code Space开发机等不同产品形态之间秒级自由切换,充分应对国内普遍存在的算力潮汐效应,大幅提升集群整体资源利用率。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;2. 虚拟集群:全量托管,秒级弹性扩缩容&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;值得一提的是,在底层Infra层,商汤大装置创新应用虚拟集群技术,解决了传统云托管服务中“数据面管理重、扩容慢”的痛点。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;有别于主流云厂商仅托管控制面,数据面仍需用户自行管理的传统模式,全新的虚拟集群技术,实现了控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8s API,用户无需对现有代码做任何修改即可无缝接入。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;3. 三大自研套件:护航超大规模AI训练与推理&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在虚拟集群基础上,项铁尧进一步提出AI集群Runtime产品概念。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧指出,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)SenseCore Scheduler:高性能调度器,支持复杂异构硬件的在离线混合调度。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;2)容错引擎:解决超大规模训练中的不稳定性,实现故障自动检测与隔离。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;3)Agentic Engine:针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;4. 虚拟节点:打通弹性算力最后一环&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;为了以更灵活的规格为客户提供算力资源,商汤大装置同步自研虚拟节点技术,它具备三大优势:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;1)虚拟集群体系无缝集成;&lt;/p&gt;&lt;p&gt;2)提供相比于虚拟机更轻量级的使用体验以及更高效的性能;&lt;/p&gt;&lt;p&gt;3)提供相比于runc更好的安全性和隔离度。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h4&gt;5. 生态合作,共同助推国产推理基础设施迭代&lt;/h4&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;目前,商汤大装置已与趋境科技展开深度合作,为其 ATaaS 高效能 AI Token 生产服务平台提供算力支撑。该平台目前可支撑万级 AI 推理需求,达到日均万亿级 Token 的整体产能。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;此外,作为九源智能计算系统生态联合体理事单位,商汤大装置正积极参与国产智能计算系统的建设。通过产学研用协作,旨在统一软件生态并加速技术成果转化,共同推动国产推理基础设施的迭代升级,为新质生产力的落地提供支撑。&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/vh9j9d6ceChVul80VLG4</guid>
      <pubDate>Thu, 02 Apr 2026 10:43:27 GMT</pubDate>
      <author>李忠良</author>
      <category>芯片&amp;算力</category>
    </item>
  </channel>
</rss>
http://localhost:1200/infoq/recommend?limit=1 - Success ✔️
<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>InfoQ 推荐</title>
    <link>https://www.infoq.cn</link>
    <atom:link href="http://localhost:1200/infoq/recommend?limit=1" rel="self" type="application/rss+xml"></atom:link>
    <description>InfoQ 推荐 - Powered by RSSHub</description>
    <generator>RSSHub</generator>
    <webMaster>contact@rsshub.app (RSSHub)</webMaster>
    <language>en</language>
    <lastBuildDate>Fri, 03 Apr 2026 06:45:31 GMT</lastBuildDate>
    <ttl>5</ttl>
    <item>
      <title>谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决</title>
      <description>&lt;p&gt;&lt;img src=&quot;https://static001.infoq.cn/resource/image/34/9b/34441459abc6a0906b91f988e7cc6b9b.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;今天凌晨,谷歌正式发布 Gemma 4,称“这是其迄今为止最智能的开放模型系列”。该系列面向复杂推理与智能体工作流设计,采用商业许可的 Apache 2.0 许可证开源。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Gemma 4 提供四种规格:Effective 2B(E2B)、Effective 4B(E4B)、26B 混合专家模型(MoE)和 31B 稠密模型(Dense)。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;在端侧,E2B 和 E4B 模型针对移动和物联网设备优化,推理时分别激活约 20 亿和 40 亿参数,以降低内存和电量消耗。据介绍,这两个模型已与谷歌Pixel 团队、高通和联发科等硬件厂商合作,可在手机、Raspberry Pi、NVIDIA Jetson Nano 等设备上离线运行,延迟接近零。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;与此同时,研究人员表示,26B MoE 模型有一个巧妙之处:在推理任务中,它只会激活 38 亿参数,因此既能保持较高运行速度,又不会牺牲大模型所具备的深厚知识储备。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;26B 和 31B 模型提供面向 IDE、编程助手和 Agent 工作流的高级推理能力。模型针对消费级 GPU 进行了优化,让学生、研究人员和开发者能够把自己的工作站变成以本地优先为核心的 AI 服务器。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;谷歌DeepMind 研究人员 Clement Farabet 和 Olivier Lacombe 表示,在 Gemma 4 上,他们设法进一步压榨出了更多“单位参数智能”,让这些模型能够显著实现“越级发挥”。例如,31B Dense 版本目前在行业标准榜单的开源模型中排名第三。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Gemma 4 建立在与 Gemini 3 相同的架构基础之上,旨在处理复杂推理任务,并支持在工作站、智能手机等低功耗设备上本地运行的自主 AI Agent。这次关键提升包括:&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;推理能力更强:该系列所有模型都面向复杂推理任务进行了优化,并提供可配置的“思考”模式。多模态能力进一步扩展:所有模型都支持文本和图像输入,其中图像支持可变宽高比和不同分辨率;E2B 和 E4B 还原生支持视频与音频输入。上下文窗口更大:端侧模型为 128K,较大模型(26B/31B)最高 256K;编码与智能体能力增强:模型在代码能力基准测试中有明显提升,同时内置函数调用支持,能够更好地驱动自主 Agent 执行任务。原生支持系统提示词:Gemma 4 内置了 system role 支持,让对话结构更清晰,也更容易控制模型行为。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Farabet 和 Lacombe 解释称,每个 Gemma 4 模型都更适合用于运行 AI Agent。此前几代 Gemma 模型往往需要开发者额外调整设计,才能与其他软件工具交互;而 Gemma 4 已原生支持函数调用和结构化 JSON 输出、原生系统指令以及超过 140 种语言。这意味着,开发者可以用它们来驱动自主 Agent,与第三方工具交互,并执行多步骤任务规划。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;根据 Arena AI 文本排行榜(截至 2026 年 2 月 1 日),31B 模型排名全球开放模型第 3 位,26B MoE 模型排名第 6 位。&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/45/45ff01a868201e720fb237d970edefa6.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;谷歌表示,Gemma 4 在部分基准测试中表现优于参数大 20 倍的模型。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/6a/6aa13853553c3ecfe3bc265f8282701c.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;不过,有网友自己测算结果Qwen3.5-27B 要略优于Gemma 4 31B。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/0a/0a767a019c925db3afcbeb385c832192.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;还有网友评价道,“最让人眼前一亮的部分在于:一共四种尺寸,全部都为 Agent 场景做好了准备,而且全都可以在本地运行。我们一直都在呼吁,需要那种不用每次‘思考’都把数据传回云端的模型。现在他们终于听进去了,而且给出的东西甚至比预期还多。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;h3&gt;开源+本地,谷歌扩大优势&lt;/h3&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此次,Gemma 4 采用 Apache 2.0许可证,允许商业使用、自由修改和部署。谷歌称,这一选择旨在给予开发者对数据、基础设施和模型的完全控制权,支持本地或云端环境的安全部署。这消除了其他一些 AI 模型在商业使用上的诸多限制,或会成为企业应用开发者的理想选择。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;这次发布再次凸显了谷歌想要主导“本地 AI”产业的雄心。Constellation Research 分析师 Holger Mueller 表示,即便是较大规模的 Gemma 4,也小到足以在单张图形处理器上运行,因此它们非常适合边缘场景以及那些对低延迟和数字主权有较高要求的应用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;他认为,“谷歌正在扩大自己在 AI 领域的领先优势,不只是依靠 Gemini,也包括通过 Gemma 4 家族这样的开放模型。这些模型对于构建 AI 开发者生态非常重要,也将帮助公司切入不同设备形态下的功能型和垂直行业应用场景。谷歌在此前发布 Gemma 3 时已经树立了很高的门槛,因此这次发布也承载了很多期待。”&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,谷歌还详细列出了使用各种大小的 Gemma 4 模型版本运行推理所需的大致 GPU 或 TPU 内存。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&lt;img src=&quot;https://static001.geekbang.org/infoq/3e/3e03959323810e8676bbf73c97542458.png&quot; referrerpolicy=&quot;no-referrer&quot;&gt;&lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Gemma 4 在架构设计上进一步兼顾了效率与部署现实。E2B 和 E4B 中的 “E” 指的是“有效参数”,这两款小模型采用了 PLE(每层嵌入)技术,以提升端侧部署时的参数利用效率。需要注意的是,PLE 虽然不会增加模型层数,但会为每层解码器中的每个 token 配置独立的小型嵌入,因此模型实际加载到内存中的静态权重,往往会高于“有效参数规模”表面上对应的占用。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;26B 版本采用了混合专家(MoE)架构,虽然生成时每个 token 实际只会激活约 40 亿参数,但为了保证路由和推理速度,全部 260 亿参数仍需提前载入内存,所以它的实际显存需求更接近稠密 26B 模型,而不是 4B 模型。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,官方给出的内存估算通常只覆盖静态模型权重本身,并不包含运行框架、上下文窗口和 KV Cache 带来的额外显存开销;如果进一步进行微调,显存需求还会明显高于推理阶段,具体占用则取决于开发框架、批量大小,以及采用全参数微调还是 LoRA 等参数高效微调方案。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;现在,开发者可以通过谷歌云直接访问这些模型,也可以在 Hugging Face、Kaggle 和 Ollama 上获取模型及其开放权重。Android 开发者可在 AICore Developer Preview 中试用智能体工作流原型。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;此外,谷歌提供了多种推理和微调路径,包括:Hugging Face、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang、Cactus、Docker、MaxText、Tunix、Keras。云上部署支持 Vertex AI、Cloud Run、GKE、Sovereign Cloud 及 TPU 加速服务。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;Gemma 4 开箱支持 NVIDIA(从 Jetson Nano 到 Blackwell GPU)、AMD GPU(通过开源 ROCm™ 栈)以及 谷歌Cloud TPU。谷歌方面称,新模型采用与谷歌专有模型相同等级的基础设施安全协议,适用于企业和主权机构的高标准安全与可靠性要求。&lt;/p&gt;&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;参考链接:&lt;/p&gt;&lt;p&gt;&lt;a href=&quot;https://deepmind.google/models/gemma/gemma-4/#e2b-and-e4b&quot;&gt;https://deepmind.google/models/gemma/gemma-4/#e2b-and-e4b&lt;/a&gt;&quot;&lt;/p&gt;</description>
      <link>https://www.infoq.cn/article/X1c6ZllztrQhGEIoYrBR</link>
      <guid isPermaLink="false">https://www.infoq.cn/article/X1c6ZllztrQhGEIoYrBR</guid>
      <pubDate>Fri, 03 Apr 2026 06:40:36 GMT</pubDate>
      <author>褚杏娟</author>
      <category>AI&amp;大模型</category>
    </item>
  </channel>
</rss>

@baiyunchen
Copy link
Copy Markdown
Author

It looks like the existing /infoq/recommend route is not stable enough and it may got 451 some time. I have no idea to fix it but I believe it's not caused by my PR.

Please take a look for my PR and hope it can be approved.
Thanks in advance.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants