商湯 NEO 架構(gòu)以硬核技術(shù)重塑多模態(tài)模型底層邏輯

讓投資變得更簡單首頁 >股票 > 港股 > 港股公司新聞 > 正文

商湯 NEO 架構(gòu)以硬核技術(shù)重塑多模態(tài)模型底層邏輯

2025-12-15 12:19:11 來源： IT之家

　　商湯科技正式發(fā)布并開源了與南洋理工大學(xué) S-Lab 合作研發(fā)的全新多模態(tài)模型架構(gòu) —— NEO，為日日新 SenseNova 多模態(tài)模型奠定了新一代架構(gòu)的基石。

　　作為行業(yè)首個可用的、實現(xiàn)深層次融合的原生多模態(tài)架構(gòu)（Native VLM），NEO 從底層原理出發(fā)，打破了傳統(tǒng)“模塊化”范式的桎梏，以“專為多模態(tài)而生”的創(chuàng)新設(shè)計，通過核心架構(gòu)層面的多模態(tài)深層融合，實現(xiàn)了性能、效率和通用性的整體突破，重新定義了多模態(tài)模型的效能邊界，標(biāo)志著人工智能多模態(tài)技術(shù)正式邁入“原生架構(gòu)”的新時代。

　　論文網(wǎng)址：https://arxiv.org/abs/2510.14979

　　打破瓶頸：告別“拼湊”，擁抱“原生”

　　當(dāng)前，業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器 + 投影器 + 語言模型”的模塊化范式。這種基于大語言模型（LLM）的擴(kuò)展方式，雖然實現(xiàn)了圖像輸入的兼容，但本質(zhì)上仍以語言為中心，圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計不僅學(xué)習(xí)效率低下，更限制了模型在復(fù)雜多模態(tài)場景下（比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解）的處理能力。

　　商湯 NEO 架構(gòu)正是為了解決這一痛點而生。早在 2024 年下半年，商湯便在國內(nèi)率先突破多模態(tài)原生融合訓(xùn)練技術(shù)，以單一模型在 SuperCLUE 語言評測和 OpenCompass 多模態(tài)評測中奪冠，并基于這一核心技術(shù)打造了日日新 SenseNova 6.0，實現(xiàn)多模態(tài)推理能力領(lǐng)先。之后，在 2025 年 7 月發(fā)布日日新 SenseNova 6.5 通過實現(xiàn)編碼器層面的早期融合，把多模態(tài)模型性價比提升 3 倍，并在國內(nèi)率先推出商用級別的圖文交錯推理。商湯此次更進(jìn)一步，徹底摒棄了傳統(tǒng)的模塊化結(jié)構(gòu)，從底層原理出發(fā)，推出了從零設(shè)計的 NEO 原生架構(gòu)。

　　三大內(nèi)核創(chuàng)新：實現(xiàn)視覺和語言的深層統(tǒng)一

　　NEO 架構(gòu)以極致效率和深度融合為核心理念，通過在注意力機(jī)制、位置編碼和語義映射三個關(guān)鍵維度的底層創(chuàng)新，讓模型天生具備了統(tǒng)一處理視覺與語言的能力：

　　原生圖塊嵌入 (Native Patch Embedding)：摒棄了離散的圖像 tokenizer，通過獨創(chuàng)的 Patch Embedding Layer (PEL) 自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設(shè)計能更精細(xì)地捕捉圖像細(xì)節(jié)，從根本上突破了主流模型的圖像建模瓶頸。原生三維旋轉(zhuǎn)位置編碼 (Native-RoPE)：創(chuàng)新性地解耦了三維時空頻率分配，視覺維度采用高頻、文本維度采用低頻，完美適配兩種模態(tài)的自然結(jié)構(gòu)。這使得 NEO 不僅能精準(zhǔn)捕獲圖像的空間結(jié)構(gòu)，更具備向視頻處理、跨幀建模等復(fù)雜場景無縫擴(kuò)展的潛力。原生多頭注意力 (Native Multi-Head Attention)：針對不同模態(tài)特點，NEO 在統(tǒng)一框架下實現(xiàn)了文本 token 的自回歸注意力和視覺 token 的雙向注意力并存。這種設(shè)計極大地提升了模型對空間結(jié)構(gòu)關(guān)聯(lián)的利用率，從而更好地支撐復(fù)雜的圖文混合理解與推理。

　　此外，配合創(chuàng)新的 Pre-Buffer & Post-LLM 雙階段融合訓(xùn)練策略，NEO 能夠在吸收原始 LLM 完整語言推理能力的同時，從零構(gòu)建強(qiáng)大的視覺感知能力，徹底解決了傳統(tǒng)跨模態(tài)訓(xùn)練中語言能力受損的難題。

　　實測表現(xiàn)：十分之一的數(shù)據(jù)，追平旗艦級性能

　　在架構(gòu)創(chuàng)新的驅(qū)動下，NEO 展現(xiàn)出了驚人的數(shù)據(jù)效率與性能優(yōu)勢：

　　極高數(shù)據(jù)效率：僅需業(yè)界同等性能模型 1/10 的數(shù)據(jù)量（3.9 億圖像文本示例），NEO 便能開發(fā)出頂尖的視覺感知能力。無需依賴海量數(shù)據(jù)（603138）及額外視覺編碼器，其簡潔的架構(gòu)便能在多項視覺理解任務(wù)中追平 Qwen2-VL、InternVL3 等頂級模塊化旗艦?zāi)Ｐ汀?/p>

　　性能卓越且均衡：在 MMMU、MMB、MMStar、SEED-I、POPE 等多項公開權(quán)威評測中，NEO 架構(gòu)均斬獲高分，展現(xiàn)出優(yōu)于其他原生 VLM 的綜合性能，真正實現(xiàn)了原生架構(gòu)的“精度無損”。

　　極致推理性價比：特別是在 0.6B-8B 的參數(shù)區(qū)間內(nèi)，NEO 在邊緣部署方面優(yōu)勢顯著。它不僅實現(xiàn)了精度與效率的雙重躍遷，更大幅降低了推理成本，將多模態(tài)視覺感知的“性價比”推向了極致。

　　開源共建：構(gòu)建下一代 AI 基礎(chǔ)設(shè)施

　　架構(gòu)是模型的“骨架”，只有骨架扎實，才能支撐起多模態(tài)技術(shù)的未來。NEO 架構(gòu)的早期融合設(shè)計支持任意分辨率與長圖像輸入，能夠無縫擴(kuò)展至視頻、具身智能等前沿領(lǐng)域，實現(xiàn)了從底層到頂層、端到端的真正融合。從應(yīng)用角度，端到端的“原生一體化”設(shè)計，為機(jī)器人具身交互、智能終端多模態(tài)響應(yīng)、視頻理解、3D 交互及具身智能等多元化場景的應(yīng)用，提供了堅實的技術(shù)支撐。

　　目前，商湯已正式開源基于 NEO 架構(gòu)的 2B 與 9B 兩種規(guī)格模型，以推動開源社區(qū)在原生多模態(tài)架構(gòu)上的創(chuàng)新與應(yīng)用。商湯科技表示，致力于通過開源協(xié)作與場景落地雙輪驅(qū)動，將 NEO 打造為可擴(kuò)展、可復(fù)用的下一代 AI 基礎(chǔ)設(shè)施，推動原生多模態(tài)技術(shù)從實驗室走向廣泛的產(chǎn)業(yè)化應(yīng)用，加速構(gòu)建下一代產(chǎn)業(yè)級原生多模態(tài)技術(shù)標(biāo)準(zhǔn)。

關(guān)注同花順財經(jīng)（ths518），獲取更多機(jī)會

0人

24小時播報>>

我的自選股自選股新聞

代碼\|股票名稱	最新	漲跌幅

日排行評論排行

1.獨家資金：早盤主力進(jìn)散戶逃前10股 2.獨家資金：今日主力買入前10股 3.獨家資金：早盤主力買入前10股 4.李斌回應(yīng)新車定價：蔚來活下去最重要 5.富蘭克林鄧普頓：全球投資者對中國興趣上升新興市場迎來拐點 6.獨家資金：主力進(jìn)散戶逃前10股 7.光大證券觸及漲停 8.科創(chuàng)50漲超7％

網(wǎng)站地圖

頻道資訊
財經(jīng)
財經(jīng)要聞宏觀經(jīng)濟(jì) 產(chǎn)經(jīng)新聞國際財經(jīng) 金融市場財經(jīng)評論

股票
大盤分析公司頻道行業(yè)頻道獨家股指期貨新股頻道創(chuàng)業(yè)板融資融券
投資熱點
必讀
四大報刊早盤必讀每日復(fù)盤投資日歷投資參考個股期權(quán) 牛叉診股交易提示智能選股限售解禁互動平臺公告速遞

全球
港股美股外匯
數(shù)據(jù)精華
數(shù)據(jù)中心
龍虎榜單大宗交易融資融券期指持倉業(yè)績預(yù)告個股資金滬港通行業(yè)資金新股申購大單追蹤創(chuàng)新高連續(xù)上漲

行情中心
同花順行業(yè) 概念板塊地域板塊指數(shù)列表風(fēng)險警示板退市整理板
其他
理財
房產(chǎn) 基金

同順號
T策略視角

期貨
期貨開戶期貨訓(xùn)練營期貨APP

其他
網(wǎng)上商城股民學(xué)校量化回測私募之家銀柿財經(jīng) 企洞察

下載中心
PC免費(fèi)版 PC新一代期貨PC版

掃描添加同花順財經(jīng)官方微信號

掃描添加手機(jī)同花順財經(jīng)

掃描添加專業(yè)炒股利器

掃描添加同花順愛基金

投資者關(guān)系 | 關(guān)于同花順 | 軟件下載 | 法律聲明 | 運(yùn)營許可 | 聯(lián)系我們 | 友情鏈接 | 招聘英才 | 用戶體驗計劃
 有害信息舉報 | 涉未成年人違規(guī)內(nèi)容舉報 | 算法推薦專項舉報

不良信息舉報電話：(0571)88933003 舉報郵箱：jubao@myhexin.com

浙江同花順互聯(lián)信息技術(shù)有限公司版權(quán)所有

網(wǎng)站備案號：浙ICP備18032105號-4 證券投資咨詢服務(wù)提供：浙江同花順云軟件有限公司（中國證監(jiān)會核發(fā)證書編號：ZX0050）

不良信息舉報

浙江市場監(jiān)管