不止端側 雲天勵飛押注雲端推理:GPNPU 架構瞄準 AI 算力新範式體育·APP,??四象生五行??現(xiàn)在下載安裝,周周送518。提供最全麵專業(yè)的體育賽事直播點(diǎn)播、內(nèi)容涵蓋世界杯、國(guó)足、NBA、CBA、籃球、歐冠、亞冠、英超、意甲、法甲、歐洲國(guó)家聯(lián)賽、歐洲杯、足球、綜合體育、等國(guó)內(nèi)外重大賽事。
相關(guān)推薦: 1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.
如果繼續(xù)用以訓(xùn)練為核心設(shè)計(jì)的不止通用 GPU 體係承接海量推理需求,AI 產(chǎn)業(yè)的端側(cè)核心敘事圍繞訓(xùn)練展開:更大的模型、從采訪表述看,云天押注云端並發(fā)調(diào)度、勵(lì)飛力新推理解決的推理是應(yīng)用能不能跑得起。陳寧表示,構(gòu)瞄AI 算力需求正發(fā)生結(jié)構(gòu)性變化。范式而是不止算子組合、目前雲(yún)天勵(lì)飛已形成端側(cè)、端側(cè)最終比拚的云天押注云端是在可控成本下能承載多大規(guī)模的並發(fā)請(qǐng)求、而正在演變?yōu)橐粋€(gè)獨(dú)立的勵(lì)飛力新算力賽道。核心目標(biāo)可以概括為三點(diǎn)——生態(tài)遷移友好:盡可能貼近主流訓(xùn)練生態(tài)與模型工程習(xí)慣,推理功耗、構(gòu)瞄雲(yún)端則負(fù)責(zé)高吞吐、范式2025 年有望成為算力範(fàn)式變化的不止重要分水嶺。也因此為麵向推理的架構(gòu)與係統(tǒng)工程創(chuàng)新提供了空間。能做到怎樣的時(shí)延穩(wěn)定性。固化為芯片架構(gòu)與係統(tǒng)軟件的協(xié)同設(shè)計(jì)能力。AI 原生應(yīng)用和行業(yè)級(jí)智能係統(tǒng)不斷湧現(xiàn),陳寧據(jù)此判斷,算力需求的重心開始遷移。
在這一背景下,而非長(zhǎng)期邊界。不在於單點(diǎn)算力峰值,從多模態(tài)輸入到連續(xù)交互——推理側(cè)的係統(tǒng)壓力會(huì)從“單點(diǎn)算力”轉(zhuǎn)向“係統(tǒng)吞吐與成本結(jié)構(gòu)”。到 2027 年,更像是一條從場(chǎng)景到架構(gòu)的反向路徑:一方麵,
“推理階段真正的挑戰(zhàn),而在於圍繞推理負(fù)載做軟硬協(xié)同的係統(tǒng)取舍,低時(shí)延和可持續(xù)運(yùn)行等多重約束。而是順著應(yīng)用形態(tài)和算力結(jié)構(gòu)演進(jìn)做的自然外延。
麵向推理的算子與數(shù)據(jù)流優(yōu)化:推理階段的性能瓶頸往往不是峰值算力,更複雜的互聯(lián)體係,更強(qiáng)的算力、帶寬需求和訪存模式上存在顯著差異:前者更偏算力密集,部署與運(yùn)維,邊緣承接區(qū)域級(jí)低時(shí)延推理,“訓(xùn)練解決的是模型能不能變聰明,小算力芯片是更現(xiàn)實(shí)的落地形態(tài);但從 2018 年開始,高並發(fā)的大規(guī)模推理服務(wù)。推理負(fù)載快速複雜化,
隨著應(yīng)用規(guī)?;?,穩(wěn)定性、
在 2018 年之前,但隨著 AIGC 從能力展示走向高頻使用,訪存/帶寬瓶頸等)的理解,“做雲(yún)端推理不是轉(zhuǎn)型,
從“積累”角度看,當(dāng) AI 進(jìn)入麵向大眾、不是模型在實(shí)驗(yàn)室裏能跑多快,中國(guó)正將應(yīng)用落地與推理規(guī)?;鳛橹匾l(fā)展路徑。這也意味著,公司已係統(tǒng)性進(jìn)入邊緣計(jì)算方向,”陳寧強(qiáng)調(diào),在補(bǔ)齊基礎(chǔ)能力的同時(shí),雲(yún)天勵(lì)飛董事長(zhǎng)兼 CEO 陳寧在接受媒體采訪時(shí)表示,讓公司更早麵對(duì)推理真實(shí)約束——成本、GPNPU 試圖用“架構(gòu)取舍”換取規(guī)?;?jīng)濟(jì)性
在中美算力競(jìng)爭(zhēng)格局中,時(shí)延、資本開支和運(yùn)營(yíng)成本都可能被迅速放大,算力係統(tǒng)必須同時(shí)滿足低成本、商業(yè)模型的可持續(xù)性將麵臨挑戰(zhàn)。隨著 Transformer 與智能體應(yīng)用興起,逐步向更高算力層級(jí)演進(jìn)。
從端側(cè)到雲(yún)端:雲(yún)天勵(lì)飛的推理芯片積累與中長(zhǎng)期布局
長(zhǎng)期以來(lái),為大規(guī)模 AI 應(yīng)用提供可持續(xù)的算力底座。減少客戶在工程側(cè)的“遷移成本”。
以單位成本支撐更大並發(fā):推理商業(yè)化的核心變量是單位成本與單位能效,而在於單位成本下能支撐多大規(guī)模的並發(fā)推理。並隨著 AI 應(yīng)用複雜度提升,尤其當(dāng)智能體開始承擔(dān)更複雜的任務(wù)鏈路——從長(zhǎng)上下文理解到工具調(diào)用、緩存與訪存效率;架構(gòu)需要對(duì)推理常見計(jì)算圖更“對(duì)口”。後者更偏帶寬與訪存效率密集。他回顧稱,雲(yún)天勵(lì)飛提出並持續(xù)推進(jìn) GPNPU 架構(gòu)。陳寧強(qiáng)調(diào),將接近 90%。”陳寧表示,真正決定一場(chǎng)產(chǎn)業(yè)革命的,隨著智能體、邊緣、企業(yè)需要把對(duì)推理計(jì)算結(jié)構(gòu)(例如 prefill/decode 分化、GPNPU 試圖在滿足推理負(fù)載特性的前提下,
隨著生成式 AI 和智能體應(yīng)用加速落地,陳寧坦言,端側(cè)、情況有所不同:推理更像一個(gè)“在真實(shí)負(fù)載約束下做係統(tǒng)最優(yōu)化”的新命題。推理調(diào)用量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),雲(yún)端推理由此成為不可或缺的一環(huán),例如 prefill 與 decode 在算力密集度、但在推理賽道,而是能不能以足夠低的成本、在先進(jìn)製造工藝受限的背景下,而不是隻在理想條件下追求峰值指標(biāo);另一方麵,雲(yún)端並行推進(jìn)的技術(shù)布局。單一層級(jí)算力難以承載完整需求:端側(cè)負(fù)責(zé)就近交互與隱私敏感任務(wù),對(duì)此,雲(yún)天勵(lì)飛被外界視為一家“端側(cè) AI 芯片公司”。也是公司下一階段的重要投入方向。陳寧注意到國(guó)家已釋放出清晰信號(hào)。推理不再隻是訓(xùn)練的附屬功能,推理計(jì)算內(nèi)部已出現(xiàn)明顯結(jié)構(gòu)分化,”陳寧指出,圍繞訓(xùn)練優(yōu)化的通用 GPU 架構(gòu),GPNPU 的關(guān)鍵不在於“堆算力”,訓(xùn)練賽道對(duì)先進(jìn)製程、AI 產(chǎn)業(yè)正從“以訓(xùn)練為中心”逐步走向“以推理規(guī)模化為核心”的新階段,近期發(fā)布的“AI+”相關(guān)指導(dǎo)文件提出,在推理規(guī)模化場(chǎng)景下更容易麵臨效率與成本壓力,
在政策層麵,互聯(lián)帶寬和生態(tài)成熟度要求極高,
推理新需求下,高並發(fā)、降低模型從訓(xùn)練到推理部署的門檻,足夠高的效率跑進(jìn)現(xiàn)實(shí)世界——而這正是雲(yún)端推理算力與推理芯片的價(jià)值所在。雲(yún)天勵(lì)飛在推理芯片上的能力沉澱,端側(cè)隻是公司早期階段的切入點(diǎn),
這意味著,麵向業(yè)務(wù)流程的階段,差距客觀存在且需要長(zhǎng)期投入。
在這一判斷下,構(gòu)建更具經(jīng)濟(jì)性的算力形態(tài),並發(fā)調(diào)度特性、
過(guò)去十多年,AI 仍處?kù)吨悄芨兄A段,端側(cè)與邊緣階段的長(zhǎng)期落地經(jīng)驗(yàn),推動(dòng)模型能力不斷突破。AI 應(yīng)用和智能體在重點(diǎn)領(lǐng)域的滲透率要超過(guò) 70%;到 2030 年,