小米多模態(tài)大模型 MiMo-VL 開(kāi)源,官方稱(chēng)多方面領(lǐng)先 Qwen2.5-VL-7B

2025-05-30 21:27:10 來(lái)源: IT之家

  IT之家 5 月 30 日消息,Xiaomi MiMo 官方公眾號(hào)今日發(fā)文宣布,小米多模態(tài)大模型 Xiaomi MiMo-VL 現(xiàn)已正式開(kāi)源。官方表示,其在圖片、視頻、語(yǔ)言的通用問(wèn)答和理解推理等多個(gè)任務(wù)上,大幅領(lǐng)先同尺寸標(biāo)桿多模態(tài)模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任務(wù)上比肩專(zhuān)用模型,為 Agent 時(shí)代而來(lái)。

  MiMo-VL-7B 在保持 MiMo-7B 純文本推理能力的同時(shí),在多模態(tài)推理任務(wù)上,僅用 7B 參數(shù)規(guī)模,在奧林匹克競(jìng)賽(OlympiadBench)和多個(gè)數(shù)學(xué)競(jìng)賽(MathVision、MathVerse)大幅領(lǐng)先 10 倍參數(shù)大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越閉源模型 GPT-4o。

  在評(píng)估真實(shí)用戶體驗(yàn)的內(nèi)部大模型競(jìng)技場(chǎng)中,MiMo-VL-7B 超越 GPT-4o,成為開(kāi)源模型第一。

  其能夠完成復(fù)雜圖片推理和問(wèn)答等任務(wù),在長(zhǎng)達(dá) 10 多步的 GUI 操作上,MiMo-VL-7B 也展示了不錯(cuò)的潛力,甚至能幫你加購(gòu)小米 SU7 至心愿單。

  其采用了高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)以及創(chuàng)新的混合在線強(qiáng)化學(xué)習(xí)算法(Mixed On-policy Reinforcement Learning, MORL):

  多階段預(yù)訓(xùn)練:

  收集、清洗、合成了高質(zhì)量的預(yù)訓(xùn)練多模態(tài)數(shù)據(jù),涵蓋圖片-文本對(duì)、視頻-文本對(duì)、GUI 操作序列等數(shù)據(jù)類(lèi)型,總計(jì) 2.4T tokens。通過(guò)分階段調(diào)整不同類(lèi)型數(shù)據(jù)的比例,強(qiáng)化長(zhǎng)程多模態(tài)推理的能力。

  混合在線強(qiáng)化學(xué)習(xí):

  混合文本推理、多模態(tài)感知 + 推理、RLHF 等反饋信號(hào),并通過(guò)在線強(qiáng)化學(xué)習(xí)算法穩(wěn)定加速訓(xùn)練,全方位提升模型推理、感知性能和用戶體驗(yàn)。

關(guān)注同花順財(cái)經(jīng)(ths518),獲取更多機(jī)會(huì)

0

+1
  • 三德科技
  • 沃爾核材
  • 電光科技
  • 鈞崴電子
  • 金安國(guó)紀(jì)
  • 長(zhǎng)盛軸承
  • 廣和通
  • 科泰電源
  • 代碼|股票名稱(chēng) 最新 漲跌幅