當(dāng)寒武紀(jì)、華為昇騰被同時適配,商湯科技在下一盤什么棋?
過去一年,國產(chǎn)化已成為人工智能領(lǐng)域的“必答題”。然而,真正的挑戰(zhàn)并不在于誰喊得早,而在于能否解決一個更具現(xiàn)實意義的問題:在模型規(guī)模持續(xù)膨脹、應(yīng)用深入真實業(yè)務(wù)場景的背景下,國產(chǎn)算力如何才能實現(xiàn)長期、穩(wěn)定的運行保障。
在當(dāng)前全球算力供應(yīng)鏈不確定性加劇的背景下,這一挑戰(zhàn)已遠超技術(shù)路線之爭,直接觸及人工智能產(chǎn)業(yè)能否持續(xù)穩(wěn)健擴張的根本所在。
商湯科技給出的答案,顯得尤為克制和務(wù)實。在過去一年中,華為昇騰、寒武紀(jì)、沐曦等多家國產(chǎn)芯片,被同時納入商湯的AI體系。這并非簡單的“點亮”兼容,而是深度集成至同一套AI基礎(chǔ)設(shè)施、同一套模型架構(gòu),以及同一條應(yīng)用交付鏈路之中。這背后,清晰地展現(xiàn)了商湯圍繞“大裝置—大模型—應(yīng)用”所構(gòu)建的三位一體戰(zhàn)略。
在這一戰(zhàn)略下,國產(chǎn)化不再是被動應(yīng)對外部環(huán)境的權(quán)宜之計,而是被拆解為一項長期任務(wù):算力層面,要構(gòu)建多元、穩(wěn)定的國產(chǎn)算力供給;模型層面,要讓多模態(tài)大模型真正跑在不同國產(chǎn)芯片之上;應(yīng)用層面,則必須把算力能力轉(zhuǎn)化為客戶可用、可交付的產(chǎn)品。
當(dāng)華為昇騰、寒武紀(jì)、沐曦被同時接入,商湯真正關(guān)心的,或許并不是某一款芯片的上限,而是如何讓國產(chǎn)算力在真實業(yè)務(wù)中跑得久、跑得穩(wěn)。
助力國產(chǎn)算力從“可用”到“好用”
在大模型訓(xùn)練與推理場景中,算力瓶頸早已不只取決于單卡性能。異構(gòu)芯片之間的調(diào)度復(fù)雜度、跨域訓(xùn)練的穩(wěn)定性,正在成為影響整體算力效率的關(guān)鍵變量。
基于這一判斷,商湯突破口放在基礎(chǔ)設(shè)施層。作為商湯的 AI 云原生平臺,商湯大裝置試圖解決的,正是異構(gòu)算力規(guī);褂弥械南到y(tǒng)性問題。通過提供統(tǒng)一調(diào)度、彈性擴展和高可靠性的 AI 基礎(chǔ)設(shè)施服務(wù),商湯大裝置希望以更高的性價比,推動大模型能力在真實業(yè)務(wù)中的落地。
目前,寒武紀(jì)、壁仞、沐曦、華為昇騰、摩爾線程等多家國產(chǎn)芯片,已完成與商湯大裝置的深度適配,并支撐商湯“日日新”多模態(tài)大模型體系的訓(xùn)練與推理。這意味著,國產(chǎn) GPU 首次在千億參數(shù)級任務(wù)中,接受系統(tǒng)級、工業(yè)級的持續(xù)運行檢驗。
但真正的難點,并不在“接入”本身。不同芯片在架構(gòu)設(shè)計、軟件棧上的差異,使統(tǒng)一訓(xùn)練與調(diào)度的復(fù)雜度顯著上升。
為此,上海AI實驗室率先探索并研發(fā)了DeepLink超大規(guī)模跨域混訓(xùn)技術(shù)方案,通過訓(xùn)練加速、異構(gòu)通信、并行策略等核心技術(shù),打破芯片架構(gòu)差異帶來的協(xié)同壁壘,重構(gòu)計算資源調(diào)度體系。
而商湯大裝置發(fā)布基于DeepLink的異構(gòu)混合調(diào)度方案,將DeepLink深度融入商湯大裝置核心能力體系。通過這一方案,多種國產(chǎn)芯片之間可實現(xiàn)協(xié)同通信與統(tǒng)一調(diào)度,并自動進行并行策略優(yōu)化和負載均衡,真正做到“不同芯片,同一平臺”的協(xié)同工作,釋放異構(gòu)集群的計算潛力。
在集群層面,商湯大裝置與華為昇騰384超節(jié)點率先完成全面適配。超節(jié)點(SuperPod)是一種通過高速互聯(lián)技術(shù),將多個GPU/NPU整合為統(tǒng)一計算單元的新型架構(gòu),解決AI大模型訓(xùn)練中的算力協(xié)同與通信效率問題。圍繞昇騰384超節(jié)點,商湯在調(diào)度優(yōu)化、跨 POD 訓(xùn)練穩(wěn)定性和多層級故障恢復(fù)方面進行了針對性設(shè)計,使多租戶、大規(guī)模、彈性AI云服務(wù)成為可能。
在推理環(huán)節(jié),商湯還與記憶張量合作,在國產(chǎn) GPGPU 上跑通了業(yè)內(nèi)首個以“記憶—計算—調(diào)度”一體化為核心的 PD 分離商用推理集群。在真實 C 端負載下,該方案實現(xiàn)單卡并發(fā)效率提升20%、吞吐提升75%,綜合推理性價比達到英偉達A100的150%,為高性能模型的大規(guī)模落地打開了新的降本增效空間。
此外,商湯聯(lián)合華為、庫帕思、海光、寒武紀(jì)、曦望 Sunrise、壁仞科技、麒麟軟件、摩爾線程等十余家國產(chǎn)廠商,共同發(fā)布“商湯大裝置算力 Mall”。這一平臺試圖構(gòu)建一個“算力超級市場”,讓開發(fā)者和企業(yè)像選購商品一樣,自由組合算力資源、平臺工具和行業(yè)模型服務(wù)。
在商湯科技看來,“商湯大裝置算力 Mall”的價值不僅在于降低 AI 應(yīng)用門檻,更在于為用戶提供靈活、自主的國產(chǎn)算力選擇路徑,從系統(tǒng)層面削弱對單一海外技術(shù)體系的依賴,推動中國 AI 產(chǎn)業(yè)向更加自主、可控的方向演進。
低成本的視頻生成國產(chǎn)化生態(tài)
在多模態(tài)應(yīng)用中,視頻生成對算力的要求幾乎是一個極端場景。相比文本和圖像,視頻不僅引入了“時間”這一維度,使數(shù)據(jù)規(guī)模呈幾何級增長,還對連續(xù)性、物理一致性提出更高要求,模型必須在極短時間內(nèi)完成大量推理計算。這也使得視頻生成成為當(dāng)前所有 AI 模態(tài)中,算力消耗最高的領(lǐng)域。
今年,商湯開源了支持實時視頻生成的推理框架 LightX2V,試圖解決的正是這一問題。LightX2V 的設(shè)計目標(biāo)非常明確:把視頻生成從“實驗室效果”拉進可規(guī)模化部署的工程體系。
在具體實現(xiàn)上,LightX2V 通過步數(shù)蒸餾、低比特量化、稀疏注意力、特征緩存和張量卸載等一系列工程化手段,將顯存需求壓縮至 8GB 以下,使入門級消費級顯卡也具備運行條件;在速度上,框架支持最高 1:1的實時生成能力,即 5 秒視頻可在 5 秒內(nèi)完成生成。
在國產(chǎn)化適配上,LightX2V 設(shè)計了強兼容的國產(chǎn)化適配插件模式,可快速完成各類國產(chǎn)硬件的適配,目前已支持寒武紀(jì)、沐曦、海光、昇騰等多款芯片。與此同時,為更充分釋放國產(chǎn)算力特性,商湯在模型側(cè)同步調(diào)整,Seko 系列模型在設(shè)計階段就引入低比特量化、壓縮通信和稀疏注意力等硬件友好機制,使整體推理性能提升超過 3 倍。
據(jù)悉,適配完成后,商湯與寒武紀(jì)還將在算力利用率與成本效率、大規(guī)模并行處理能力等多個方向進一步展開深度優(yōu)化,進一步降低多模態(tài)AI的使用門檻并提升整體體驗。
由于在加速視頻創(chuàng)作上優(yōu)勢明顯,可實現(xiàn)極致性價比,截至目前,LightX2V 的累計下載量已超過 350 萬次。這一數(shù)字不只是開源項目的熱度指標(biāo),更反映出一個趨勢:在視頻生成這一場景中,國產(chǎn)算力開始擁有低成本的國產(chǎn)化生態(tài)。
國產(chǎn)化進入產(chǎn)品與交付階段
相較于基礎(chǔ)設(shè)施和模型層面的技術(shù)驗證,產(chǎn)品與項目交付更能檢驗國產(chǎn)化的“含金量”。是否被持續(xù)使用、是否進入業(yè)務(wù)核心流程,往往比單次跑通技術(shù)指標(biāo)更具說服力。國產(chǎn)化能否成立,最終要看它能否在真實場景中替代、并長期運轉(zhuǎn)。
在應(yīng)用層,商湯將這一判斷率先落在生成式內(nèi)容生產(chǎn)上。12 月15日,商湯科技基于其在生成式 AI 與多模態(tài)交互領(lǐng)域的積累,發(fā)布 Seko 2.0——行業(yè)首個面向多劇集生成的智能體。在長視頻生成場景中,角色一致性、畫面風(fēng)格穩(wěn)定性始終是制約規(guī)模化生產(chǎn)的核心難題,而Seko 2.0在多劇集視頻生成的一致性方面展現(xiàn)出顯著優(yōu)勢,其背后依托的是商湯自研的日日新Seko系列模型,包括SekoIDX、SekoTalk等圖像與視頻生成多模態(tài)模型所構(gòu)建的技術(shù)底座。
更重要的是,這套能力已完成在國產(chǎn)算力上的適配。商湯日日新 Seko 系列模型已支持寒武紀(jì)等國產(chǎn) AI 芯片,在 AIGC 核心場景中實現(xiàn)了從語言模型到多模態(tài)生成的關(guān)鍵跨越。這不僅是技術(shù)協(xié)同的深化,更是國產(chǎn)AI生態(tài)的重要完善,為視覺內(nèi)容的創(chuàng)新開發(fā)提供了更堅實、自主的底層支撐。
在終端側(cè),商湯旗下 AI 智能助手“小浣熊”已完成多種國產(chǎn)芯片的適配,并針對個人 PC 使用場景進行專項優(yōu)化。在端側(cè)運行條件下,其模型精度與云端保持一致。同時,小浣熊也已適配多種國產(chǎn)芯片一體機方案,形成軟硬件協(xié)同的全國產(chǎn)化部署路徑,為對數(shù)據(jù)安全和自主可控要求較高的用戶提供現(xiàn)實選擇。
此外,在計算機視覺、金融、醫(yī)療以及“大裝置”等私有化業(yè)務(wù)中,商湯也已完成國產(chǎn)芯片的適配與交付。在外部環(huán)境不確定性加大的背景下,企業(yè)選擇國產(chǎn)算力并非單一動因,合規(guī)要求、供應(yīng)鏈穩(wěn)定性以及長期成本結(jié)構(gòu)共同構(gòu)成決策邏輯。而能否在產(chǎn)品與交付階段順利落地,正是國產(chǎn)算力跨越這一門檻的關(guān)鍵。
從大裝置、大模型到應(yīng)用層,商湯與多家國產(chǎn) AI 芯片企業(yè)展開深度合作,在實際項目中磨合能力邊界,形成“技術(shù)互補、資源共享、場景互哺”的協(xié)同模式。這種以交付為牽引的合作路徑,不僅推動了國產(chǎn)算力的可用性提升,也在一定程度上緩解了市場對供應(yīng)鏈不確定性的擔(dān)憂。
0人