騰訊云AI代碼助手近日迎來(lái)重大更新,正式引入了DeepSeek-V3-0324這一頂級(jí)模型,標(biāo)志著其在AI輔助編程領(lǐng)域邁出了重要一步。
用戶無(wú)需繁瑣配置,只需簡(jiǎn)單下載或更新AI代碼助手插件,即可享受這一強(qiáng)大的功能。據(jù)騰訊云官方宣稱,該模型的引入將使得開發(fā)效率直接翻倍,甚至達(dá)到提升100倍的驚人效果。
DeepSeek-V3-0324作為DeepSeek-V3系列的一次小版本迭代,其模型參數(shù)從初代的6710億小幅增加至6850億。該模型繼續(xù)采用混合專家(MoE)架構(gòu),每個(gè)token激活約370億參數(shù),從而在推理、編程、數(shù)學(xué)、中文處理等多個(gè)關(guān)鍵領(lǐng)域均展現(xiàn)出了行業(yè)領(lǐng)先的性能。
DeepSeek-V3-0324在面對(duì)一些復(fù)雜的邏輯問題時(shí),如近期熱議的“7米甘蔗過2米門”AI測(cè)試題,能夠自主發(fā)現(xiàn)隱藏解法,并給出合理的答案,進(jìn)一步彰顯了其強(qiáng)大的智能處理能力。
騰訊云對(duì)DeepSeek-V3-0324的五大強(qiáng)項(xiàng)進(jìn)行了總結(jié)。首先,該模型采用了創(chuàng)新的訓(xùn)練策略,包括無(wú)輔助損失的負(fù)載均衡、多token預(yù)測(cè)訓(xùn)練以及FP8混合精度訓(xùn)練等,這些策略不僅避免了傳統(tǒng)方法的性能損失,還顯著降低了計(jì)算成本,提高了訓(xùn)練效率。
其次,DeepSeek-V3-0324優(yōu)化了MoE架構(gòu),通過動(dòng)態(tài)調(diào)整偏差項(xiàng)、節(jié)點(diǎn)受限路由機(jī)制以及支持128K超長(zhǎng)上下文等改進(jìn),使得模型的性能得到了15%以上的提升,訓(xùn)練效率更是提高了40%。同時(shí),該模型還支持處理長(zhǎng)達(dá)50頁(yè)的PDF或完整代碼庫(kù),多輪對(duì)話記憶能力更強(qiáng)。
在綜合能力方面,DeepSeek-V3-0324相較于初代V3,在各項(xiàng)權(quán)威基準(zhǔn)測(cè)試中均展現(xiàn)出了突破性進(jìn)步。特別是在多領(lǐng)域知識(shí)理解能力、專業(yè)問答能力、數(shù)學(xué)競(jìng)賽解題能力以及代碼生成與調(diào)試能力等方面,該模型均取得了顯著的提升。其中,數(shù)學(xué)推理能力尤為突出,AIME競(jìng)賽正確率提升近20%,超越了Grok3等競(jìng)爭(zhēng)對(duì)手。
DeepSeek-V3-0324還展現(xiàn)出了頂尖的編程生成能力。在單一提示詞下,該模型能夠精準(zhǔn)生成800行無(wú)錯(cuò)誤的網(wǎng)頁(yè)代碼,且代碼可運(yùn)行率高達(dá)92%。同時(shí),該模型還支持20多種編程語(yǔ)言,前端開發(fā)效率更是提升了80%。在kcores-llm-arena評(píng)測(cè)中,該模型也超越了Claude 3 Sonnet普通版。
最后,DeepSeek-V3-0324在推理與開發(fā)者體驗(yàn)方面也進(jìn)行了優(yōu)化。借鑒DeepSeek R1模型訓(xùn)練技術(shù),該模型在M3 Ultra設(shè)備上實(shí)現(xiàn)了每秒20+token的生成速度,響應(yīng)速度比前代快了40%。同時(shí),智能補(bǔ)全、代碼糾錯(cuò)、API兼容性檢測(cè)等功能也得到了大幅提升,進(jìn)一步提高了開發(fā)效率。