Inference · 上线/更新

2026-07-17 22:02

AI推理初创公司General Compute获4亿美元贷款，以推理专用ASIC芯片抵押

AI 推理云初创公司 General Compute 从 Upper90 取得 4 亿美元贷款，该笔交易为全球首例以推理专用芯片作为抵押品的融资项目。公司基于 SambaNova 自研 ASIC 芯片搭建专属 AI 推理云平台，主打 Agent 类 AI 算力负载，相较传统 GPU 云拥有更快令牌处理速度和更低运行延迟；硬件可直接部署在传统数据中心与闲置加密矿场设施。（mezha.net）

2026-07-09 20:45

Meta 自研 AI 芯片"Iris"计划于9月启动量产，2027年算力目标达14吉瓦

据路透社报道，Meta 计划自 9 月起量产自研数据中心 AI 芯片“Iris”，作为其 Meta Training and Inference Accelerators 四代项目的一部分，以提升 Facebook和 Instagram 等平台 AI 能力并降低对 Nvidia、AMD 等外部 GPU 依赖。内部备忘录显示，Iris 仅用 6 周完成测试，无重大缺陷；Meta 计划今年部署 7 吉瓦算力，并在 2027 年增至 14 吉瓦，2024年 AI 基础设施支出最高或达 1450 亿美元。为保障扩张，公司已与三星电子、Sandisk 和住友电工签署长期供应协议，应对内存与 AI 芯片“涨价”与短缺。

2026-07-07 19:01

DeepSeek 自研 AI 推理芯片，拟摆脱英伟达与华为依赖

据路透社报道，中国 AI 初创公司 DeepSeek 正在开发自研 AI 芯片，三位知情人士透露，该芯片专为推理场景设计，而非用于模型训练。项目启动约一年前，目前仍处早期阶段，公司已与芯片设计、晶圆代工及存储企业展开接触，并悄然增招芯片设计工程师，未公开发布招聘信息。若研发成功，DeepSeek 将减少对英伟达及华为 Ascend 芯片的依赖，跟随 OpenAI、Anthropic 等全球 AI 巨头自研硬件的趋势。受美国出口管制影响，DeepSeek 此前已从英伟达 H800 转向华为芯片，此次自研芯片被视为重大战略转型。与此同时，DeepSeek 还计划完成首轮外部融资，募资规模约 70 亿美元，估值达 520 亿至 590 亿美元。

2026-06-12 15:53

消息人士：英伟达拟向中国客户推销Vera AI CPU，部分云厂商拟启动测试部署

知情人士称，英伟达开始向中国客户推销其首款独立中央处理器（CPU）产品 Vera。该芯片专为 Agentic AI（自主智能体）系统设计，目前已进入量产阶段，标志着英伟达正尝试通过 CPU 产品进一步拓展中国市场。消息人士称，部分中国客户已对 Vera 表现出兴趣。其中一家大型中国云计算公司计划采购 300 余台搭载双 Vera CPU 的服务器进行测试，并将在测试完成后决定是否扩大采购规模。Vera 基于 Arm Holdings 架构打造，是英伟达首次推出的独立 CPU 产品。英伟达此前表示，Vera 在 AI 智能体相关计算任务中的性能可达到竞争对手同类产品的 1.8 倍，并预计该产品将在本财年结束前（截至明年 1 月底）贡献约 200 亿美元收入。报道指出，随着 AI 行业重心逐步从模型训练转向推理计算（Inference），CPU 与定制芯片正获得更多关注。Vera 也使英伟达直接与长期主导服务器 CPU 市场的 Intel 和 Advanced Micro Devices（AMD）展开竞争。知情人士表示，由于美国对高端 GPU 出口实施严格限制，相较于 GPU 产品，CPU 在中国市场面临的监管障碍相对较小。目前部分中国客户计划先在海外数据中心部署 Vera 芯片进行测试。与此同时，软件生态兼容性以及现有国产 AI 芯片部署体系，仍可能影响 Vera 后续的大规模采用。（Reuters）

2026-06-08 22:30

AMD 宣布向英国 AI 基础设施投资 20 亿英镑，联合初创公司 Oriole 落地全球首个纯光子网络 AI 系统

据 Tech Funding News 报道，AMD 首席执行官 Lisa Su 于伦敦科技周宣布，公司将在未来五年内向英国 AI 基础设施投资最高 20 亿英镑，涵盖国家超算基础设施建设及高校研究合作。与此同时，AMD 与伦敦 UCL 衍生初创公司 Oriole Networks 合作，依托英国政府 5000 万英镑 ARIA 推理扩展实验室项目，部署全球首个大规模纯光子网络 AI 系统。该系统以 Oriole 的 PRISM 光子网络平台搭配 AMD Instinct GPU 及 EPYC CPU，通过彻底移除网络核心中的电子开关，将核心网络能耗降低 81%，GPU 闲置时间从 60% 压缩至 1% 以下。

2026-04-29 00:07

NVIDIA推出Nemotron 3 Nano Omni模型，多模态推理效率提升9倍

NVIDIA 在 X 平台发文表示，今日推出开源多模态模型 Nemotron 3 Nano Omni。该模型采用 30B-A3B 混合专家架构（MoE），支持 256K 上下文，可统一处理视频、音频、图像及文本输入。与同类交互水平的开源全能模型相比，该模型吞吐量提升达 9 倍，大幅降低推理成本并提高扩展性。目前 Nemotron 3 Nano Omni 已在 Hugging Face、OpenRouter 及 NVIDIA NIM 上线，并获得 Aible、Applied Scientific Intelligence、H Company 等企业采用。

2026-04-10 14:28

SK 电信联合 Arm与 Rebellions，三方合作开发 AI 数据中心推理解决方案

据韩联社报道，SK 电信宣布与英国芯片设计公司 Arm 及韩国 AI 芯片初创企业 Rebellions 签署三方谅解备忘录（MOU），共同开发 AI 数据中心推理服务器解决方案。根据协议，三方将结合 Arm 新发布的 AGI CPU与 Rebellions 预计于今年第三季度推出的 AI 加速芯片 RebelCard，联合开发 AI 推理服务器，并在 SK 电信的 AI 数据中心进行测试与验证。其中，Arm AGI CPU 针对高密度推理环境与大规模 AI 部署优化，RebelCard 则专为大规模 AI 推理设计。