當(dāng)前,人工智能正邁向場景落地的關(guān)鍵階段。隨著大模型數(shù)量逐漸收斂、推理應(yīng)用爆發(fā)式增長,以Token數(shù)為量綱的AI推理成本與效率問題日益凸顯。在這一背景下,先進(jìn)存力作為數(shù)據(jù)要素的核心載體,成為提升AI推理效能、控制成本的關(guān)鍵。

11月4日,在中國信息通信研究院組織的“存力中國行”北京站活動上,來自信通院、中國移動云、華為、硅基流動等機構(gòu)與企業(yè)的嘉賓,深入探討了AI時代下先進(jìn)存力對AI大模型發(fā)展的支撐作用和未來發(fā)展趨勢。

AI推理面臨成本與效率之困

“大模型落地元年”中,各行各業(yè)不再滿足于擁有龐大的模型,而是迫切希望將模型能力無縫融入實際業(yè)務(wù)場景。從投研分析、卷宗分析到智能客服、醫(yī)療影像輔助診斷等,AI推理正深入千行百業(yè)發(fā)揮作用。然而,隨著Token調(diào)用量爆發(fā)式增長,推理成本持續(xù)攀升,“推不動、推得慢、推得貴”成為行業(yè)共性難題。

與會專家指出,當(dāng)前,AI推理已不再是簡單的單次問答,而是處理海量、多模態(tài)、動態(tài)增長數(shù)據(jù)的持續(xù)過程。數(shù)據(jù)類型的多樣性要求存儲系統(tǒng)能同時高效處理文、圖、音、視頻乃至傳感器數(shù)據(jù)。同時,構(gòu)建高質(zhì)量數(shù)據(jù)集也成為關(guān)鍵。

“AI時代,IT基礎(chǔ)設(shè)施能力面臨‘管不好’的數(shù)據(jù)、‘喂不飽’的算力、‘降不下’的成本三大挑戰(zhàn)?!痹谌A為數(shù)據(jù)存儲產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東看來,推理數(shù)據(jù)來源多樣難以形成高質(zhì)量、可持續(xù)供應(yīng)的數(shù)據(jù)集,存儲系統(tǒng)的帶寬和IOPS(每秒讀寫次數(shù))不足,導(dǎo)致GPU等昂貴算力資源長時間空閑。傳統(tǒng)存儲架構(gòu)難以兼顧高吞吐、低時延及異構(gòu)數(shù)據(jù)融合的需求,造成業(yè)務(wù)發(fā)展瓶頸,阻礙AI應(yīng)用落地。

要打破推理困境,還需突破“內(nèi)存墻”與“容量墻”兩道技術(shù)關(guān)卡。與會專家介紹,昂貴的HBM(高帶寬內(nèi)存)雖然性能強悍,但價格極高,無法無節(jié)制擴(kuò)展,這限制了模型的理解長度,也推高了硬件成本,可以通過高性能的AI SSD,對HBM進(jìn)行更好的擴(kuò)展,同時,用大容量AI SSD替代HDD。

除此之外,綠色、可靠、安全的數(shù)據(jù)存儲解決方案,也成為企業(yè)的剛性需求。

先進(jìn)存力成破局關(guān)鍵

新京報貝殼財經(jīng)記者從會上了解到,在AI場景中,我國存儲技術(shù)取得技術(shù)突破,并具備全球領(lǐng)先的實力。通過技術(shù)創(chuàng)新和生態(tài)協(xié)同的模式,加速在千行百業(yè)的落地應(yīng)用。

中國移動云能力中心項目總師周宇表示,移動云針對性采用分層緩存調(diào)度、高速數(shù)據(jù)互聯(lián)技術(shù)提升帶寬、多模數(shù)據(jù)專屬存儲與標(biāo)準(zhǔn)化、架構(gòu)池化重組等技術(shù)破局,還通過高密全閃存儲、數(shù)據(jù)縮減、自研SPU高密服務(wù)器提高存儲效能和降低成本。未來趨勢上,移動云推動存儲從被動存儲轉(zhuǎn)向智算協(xié)同,分階段落地高密全閃存儲、數(shù)據(jù)高速互聯(lián)、存算一體等技術(shù),長遠(yuǎn)構(gòu)建池化多體存儲體系,同時強調(diào)技術(shù)整合與生態(tài)協(xié)同。

王旭東介紹,華為發(fā)布了針對AI推理的UCM推理記憶數(shù)據(jù)管理技術(shù),通過“集中高質(zhì)數(shù)據(jù)、提速AI訓(xùn)練、優(yōu)化推理效能”三個角度,打造AI推理加速解決方案。據(jù)悉,UCM可將首Token時延最高降低90%,系統(tǒng)吞吐率最高可提升22倍,上下文推理的窗口擴(kuò)展10倍以上。

北京硅基流動科技有限公司解決方案總監(jiān)唐安波表示,硅基流動構(gòu)建的AI infra工具鏈,核心推理框架適配多模態(tài)模型與國內(nèi)外算力,適配昇騰并優(yōu)化DeepSeek模型實現(xiàn)性價比提升。從推理框架延伸至MaaS服務(wù)平臺,部署主流開源模型,通過推理加速和API向開發(fā)者提供服務(wù),聚焦提升算力利用率。解決方案上,結(jié)合UCM技術(shù)卸載KVCache釋放顯存、提升性能,還通過智能網(wǎng)關(guān)優(yōu)化調(diào)度、彈性擴(kuò)縮容應(yīng)對長上下文等痛點,基于存儲的KVCache方案可大幅提升系統(tǒng)吞吐。

中國信息通信研究院首席專家石友康表示,信通院在政策研究、標(biāo)準(zhǔn)制定、測試服務(wù)等方面開展多項工作,并聯(lián)合產(chǎn)業(yè)鏈企業(yè)成立“算力產(chǎn)業(yè)發(fā)展方陣先進(jìn)存力AI推理工作組”。同時,他提出了三點建議:鼓勵前沿存儲技術(shù)研發(fā)創(chuàng)新,推動存算運深度融合,加強存算協(xié)同產(chǎn)業(yè)生態(tài)建設(shè)。其呼吁業(yè)界同仁凝聚共識,共同推動我國存算協(xié)同發(fā)展。

新京報貝殼財經(jīng)記者 韋博雅

編輯 楊娟娟

校對 穆祥桐