Inference

運營中

用於 LLM 推理的分佈式 GPU 集羣

inference.net X Doc

新聞熱度趨勢

項目概述

Inference 是一個基於 Solana、用於 LLM 推理的分佈式 GPU 集羣，爲DeepSeek V3和Llama 3.3等模型提供快速、可擴展、按 Token 付費的 API 。

AI 基礎設施

事件相關快訊

查看更多查看更多查看更多查看更多

2026-07-17 22:02

AI推理初創公司General Compute獲4億美元貸款，以推理專用ASIC芯片抵押

AI 推理雲初創公司 General Compute 從 Upper90 取得 4 億美元貸款，該筆交易爲全球首例以推理專用芯片作爲抵押品的融資項目。公司基於 SambaNova 自研 ASIC 芯片搭建專屬 AI 推理雲平臺，主打 Agent 類 AI 算力負載，相較傳統 GPU 雲擁有更快令牌處理速度和更低運行延遲；硬件可直接部署在傳統數據中心與閒置加密礦場設施。（mezha.net）

2026-07-07 19:01

DeepSeek 自研 AI 推理芯片，擬擺脫英偉達與華爲依賴

據路透社報道，中國 AI 初創公司 DeepSeek 正在開發自研 AI 芯片，三位知情人士透露，該芯片專爲推理場景設計，而非用於模型訓練。項目啓動約一年前，目前仍處早期階段，公司已與芯片設計、晶圓代工及存儲企業展開接觸，並悄然增招芯片設計工程師，未公開發布招聘信息。若研發成功，DeepSeek 將減少對英偉達及華爲 Ascend 芯片的依賴，跟隨 OpenAI、Anthropic 等全球 AI 巨頭自研硬件的趨勢。受美國出口管制影響，DeepSeek 此前已從英偉達 H800 轉向華爲芯片，此次自研芯片被視爲重大戰略轉型。與此同時，DeepSeek 還計劃完成首輪外部融資，募資規模約 70 億美元，估值達 520 億至 590 億美元。

2026-06-26 21:14

Serenity：美國AI公司需要壓低推理成本以應對“模型蒸餾”挑戰

“白毛股神”Serenity 發文表示，儘管 UBS 報告中的部分觀察具有軼事層面的真實性，但更值得關注的是，關於 Anthropic 模型被蒸餾的相關中文報告正在增多。目前不少美國初創公司與科技企業在 AI 應用中，傾向使用更便宜的中國模型（如 DeepSeek），原因在於其單位任務成本顯著低於 Gemini、OpenAI 及 Anthropic 等推理模型。Serenity 認爲，這種趨勢在資本主義驅動下形成“典型悖論”——企業天然會選擇更低成本方案，從而削弱美國模型的領先優勢，同時提出美國需要在兩方面發力應對：一是構建更強的訪問控制與認證體系，例如面向美國本土的“重 KYC 前沿模型”，以及針對盟友的分級訪問機制，以降低模型被蒸餾與濫用風險；同時可引入類似“AI 版銀行級認證”的身份驗證體系（如生物識別+短時權限令牌），提升模型調用門檻，並通過監管手段限制賬號共享與訪問轉售。二是提升推理模型的成本效率，使其在價格與性能上全面壓制 DeepSeek 等競爭對手。Serenity 同時表示，當前一些高端模型頻繁被“蒸餾利用”，理想情況下應對接近 AGI 級別的模型訪問，增加更多摩擦成本。總結來看，美國 AI 產業的核心挑戰在於：既要實現“低成本推理能力”，也要建立類似金融體系級別的模型訪問安全機制。

2026-06-12 15:53

消息人士：英偉達擬向中國客戶推銷Vera AI CPU，部分雲廠商擬啓動測試部署

知情人士稱，英偉達開始向中國客戶推銷其首款獨立中央處理器（CPU）產品 Vera。該芯片專爲 Agentic AI（自主智能體）系統設計，目前已進入量產階段，標誌着英偉達正嘗試通過 CPU 產品進一步拓展中國市場。消息人士稱，部分中國客戶已對 Vera 表現出興趣。其中一家大型中國雲計算公司計劃採購 300 餘臺搭載雙 Vera CPU 的服務器進行測試，並將在測試完成後決定是否擴大采購規模。Vera 基於 Arm Holdings 架構打造，是英偉達首次推出的獨立 CPU 產品。英偉達此前表示，Vera 在 AI 智能體相關計算任務中的性能可達到競爭對手同類產品的 1.8 倍，並預計該產品將在本財年結束前（截至明年 1 月底）貢獻約 200 億美元收入。報道指出，隨着 AI 行業重心逐步從模型訓練轉向推理計算（Inference），CPU 與定製芯片正獲得更多關注。Vera 也使英偉達直接與長期主導服務器 CPU 市場的 Intel 和 Advanced Micro Devices（AMD）展開競爭。知情人士表示，由於美國對高端 GPU 出口實施嚴格限制，相較於 GPU 產品，CPU 在中國市場面臨的監管障礙相對較小。目前部分中國客戶計劃先在海外數據中心部署 Vera 芯片進行測試。與此同時，軟件生態兼容性以及現有國產 AI 芯片部署體系，仍可能影響 Vera 後續的大規模採用。（Reuters）

2026-06-29 14:29

美光（MU）比英偉達更重要！Citrini分析師稱AI模型推理性能更依賴內存而非GPU

針對社區討論的“美光 VS 英偉達”之爭，Citrini Research 分析師 Jukan 在 X 平臺發文表示，“MU（Micron）雖非 Nvidia，但未來重要性或超越 Nvidia。推理現已直接與收益掛鉤，但推理性能提升並非僅靠增加 Nvidia GPU 實現，GPU 在推理中常因內存瓶頸處於低利用率閒置狀態。對於推理而言，增加內存價值更高。推理的投資回報率最終取決於內存而非 GPU。因此，人們爲什麼仍然關注通過 NVIDIA 的框架來獲取 Micron？要考慮得更全面。推理就是內存。”

2026-07-17 22:02

AI推理初創公司General Compute獲4億美元貸款，以推理專用ASIC芯片抵押

2026-07-09 20:45

Meta 自研 AI 芯片"Iris"計劃於9月啓動量產，2027年算力目標達14吉瓦

據路透社報道，Meta 計劃自 9 月起量產自研數據中心 AI 芯片“Iris”，作爲其 Meta Training and Inference Accelerators 四代項目的一部分，以提升 Facebook和 Instagram 等平臺 AI 能力並降低對 Nvidia、AMD 等外部 GPU 依賴。內部備忘錄顯示，Iris 僅用 6 周完成測試，無重大缺陷；Meta 計劃今年部署 7 吉瓦算力，並在 2027 年增至 14 吉瓦，2024年 AI 基礎設施支出最高或達 1450 億美元。爲保障擴張，公司已與三星電子、Sandisk 和住友電工簽署長期供應協議，應對內存與 AI 芯片“漲價”與短缺。

2026-07-07 19:01

DeepSeek 自研 AI 推理芯片，擬擺脫英偉達與華爲依賴

2026-06-12 15:53

消息人士：英偉達擬向中國客戶推銷Vera AI CPU，部分雲廠商擬啓動測試部署

2026-06-08 22:30

AMD 宣佈向英國 AI 基礎設施投資 20 億英鎊，聯合初創公司 Oriole 落地全球首個純光子網絡 AI 系統

據 Tech Funding News 報道，AMD 首席執行官 Lisa Su 於倫敦科技周宣佈，公司將在未來五年內向英國 AI 基礎設施投資最高 20 億英鎊，涵蓋國家超算基礎設施建設及高校研究合作。與此同時，AMD 與倫敦 UCL 衍生初創公司 Oriole Networks 合作，依託英國政府 5000 萬英鎊 ARIA 推理擴展實驗室項目，部署全球首個大規模純光子網絡 AI 系統。該系統以 Oriole 的 PRISM 光子網絡平臺搭配 AMD Instinct GPU 及 EPYC CPU，通過徹底移除網絡核心中的電子開關，將核心網絡能耗降低 81%，GPU 閒置時間從 60% 壓縮至 1% 以下。

2026-04-29 00:07

NVIDIA推出Nemotron 3 Nano Omni模型，多模態推理效率提升9倍

NVIDIA 在 X 平臺發文表示，今日推出開源多模態模型 Nemotron 3 Nano Omni。該模型採用 30B-A3B 混合專家架構（MoE），支持 256K 上下文，可統一處理視頻、音頻、圖像及文本輸入。與同類交互水平的開源全能模型相比，該模型吞吐量提升達 9 倍，大幅降低推理成本並提高擴展性。目前 Nemotron 3 Nano Omni 已在 Hugging Face、OpenRouter 及 NVIDIA NIM 上線，並獲得 Aible、Applied Scientific Intelligence、H Company 等企業採用。

Inference

新聞熱度趨勢

項目概述

事件相關快訊

AI推理初創公司General Compute獲4億美元貸款，以推理專用ASIC芯片抵押

DeepSeek 自研 AI 推理芯片，擬擺脫英偉達與華爲依賴

Serenity：美國AI公司需要壓低推理成本以應對“模型蒸餾”挑戰

消息人士：英偉達擬向中國客戶推銷Vera AI CPU，部分雲廠商擬啓動測試部署

美光（MU）比英偉達更重要！Citrini分析師稱AI模型推理性能更依賴內存而非GPU

AI推理初創公司General Compute獲4億美元貸款，以推理專用ASIC芯片抵押

Meta 自研 AI 芯片"Iris"計劃於9月啓動量產，2027年算力目標達14吉瓦

DeepSeek 自研 AI 推理芯片，擬擺脫英偉達與華爲依賴

消息人士：英偉達擬向中國客戶推銷Vera AI CPU，部分雲廠商擬啓動測試部署

AMD 宣佈向英國 AI 基礎設施投資 20 億英鎊，聯合初創公司 Oriole 落地全球首個純光子網絡 AI 系統

NVIDIA推出Nemotron 3 Nano Omni模型，多模態推理效率提升9倍

相關新聞

WASTE 推理引擎實現 Kimi K3 2.78T 模型在 64GB 筆記本本地運行

OpenAI 研究員稱讚 AMD 聯合 Cerebras AI 推理方案，預估每瓦性能提升 5 倍

AI推理初創公司General Compute獲4億美元貸款，以推理專用ASIC芯片抵押

摩根大通：AI 推理拉長服務器週期，內存漲價壓制 PC 需求

Meta 自研 AI 芯片"Iris"計劃於9月啓動量產，2027年算力目標達14吉瓦

DeepSeek 自研 AI 推理芯片，擬擺脫英偉達與華爲依賴