小米大模型團(tuán)隊近日宣布,在音頻推理技術(shù)方面取得了顯著進(jìn)步。該團(tuán)隊受DeepSeek-R1項目的啟發(fā),成功將強(qiáng)化學(xué)習(xí)算法應(yīng)用于多模態(tài)音頻理解任務(wù),這一創(chuàng)新實踐僅耗時一周,便在國際權(quán)威的MMAU音頻理解評測中取得了64.5%的準(zhǔn)確率,成功登頂榜首,并且已經(jīng)同步開源。
據(jù)悉,DeepSeek-R1項目中提出的Group Relative Policy Optimization(GRPO)方法,使得模型能夠通過“試錯-獎勵”機(jī)制自主進(jìn)化,展現(xiàn)出類似人類的反思和多步驗證等高級推理能力。小米團(tuán)隊受此啟發(fā),嘗試將GRPO算法遷移到自家的Qwen2-Audio-7B模型上,取得了令人矚目的成果。
在訓(xùn)練樣本方面,小米團(tuán)隊僅使用了AVQA數(shù)據(jù)集中的3.8萬條樣本進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),便在MMAU評測集上實現(xiàn)了64.5%的準(zhǔn)確率。這一成績不僅刷新了記錄,而且相比目前榜單上排名第一的商業(yè)閉源模型GPT-4o,有近10個百分點的優(yōu)勢。
盡管取得了如此顯著的進(jìn)步,但小米團(tuán)隊表示,當(dāng)前模型的準(zhǔn)確率距離人類專家的82%水平仍有差距。他們將繼續(xù)努力,不斷優(yōu)化算法和模型,以期達(dá)到更高的準(zhǔn)確率。
在官方提供的交互demo中,小米團(tuán)隊選擇了雷軍2015年“R U OK”的視頻作為默認(rèn)分析對象,展示了模型在實際應(yīng)用中的表現(xiàn)。這一選擇不僅富有趣味性,也體現(xiàn)了小米團(tuán)隊對于用戶需求和場景理解的深入洞察。
小米技術(shù)官微在發(fā)布這一消息時表示,音頻推理技術(shù)的突破將為智能語音助手、智能家居等領(lǐng)域帶來更加智能和人性化的體驗。他們期待與更多合作伙伴共同探索這一技術(shù)的廣闊應(yīng)用前景。
小米團(tuán)隊還強(qiáng)調(diào)了開源的重要性。他們認(rèn)為,通過開源可以吸引更多開發(fā)者參與到技術(shù)的創(chuàng)新和優(yōu)化中來,共同推動人工智能技術(shù)的發(fā)展和進(jìn)步。