在今日的百度AI DAY盛會(huì)上,百度公司震撼發(fā)布了其首個(gè)基于創(chuàng)新互相關(guān)注意力(Cross-Attention)機(jī)制的端到端語(yǔ)音語(yǔ)言大模型。這一突破性技術(shù)不僅在電話(huà)語(yǔ)音問(wèn)答場(chǎng)景中實(shí)現(xiàn)了超低時(shí)延與超低成本,還使得調(diào)用成本較行業(yè)平均水平顯著降低了50%至90%。
與此同時(shí),百度旗下的文小言品牌也迎來(lái)了煥新時(shí)刻,率先接入了這一前沿模型。文小言不僅迎來(lái)了多模型融合調(diào)度、圖片問(wèn)答等功能上的全面升級(jí),更在語(yǔ)聊效果上實(shí)現(xiàn)了擬真度的飛躍。此次升級(jí)后,文小言支持重慶、廣西、河南、廣東、山東等多地特色方言,進(jìn)一步拓寬了使用場(chǎng)景。
據(jù)百度介紹,該語(yǔ)音大模型在訓(xùn)練和使用成本上極具優(yōu)勢(shì),推理響應(yīng)速度極快,將用戶(hù)等待時(shí)長(zhǎng)從行業(yè)常見(jiàn)的3-5秒縮短至約1秒,極大地提升了語(yǔ)音交互的流暢性。這一技術(shù)突破,無(wú)疑將為用戶(hù)帶來(lái)更加高效、便捷的語(yǔ)音交互體驗(yàn)。
更新后的文小言還支持“多模型融合調(diào)度”功能,整合了百度自研的文心X1、文心4.5等模型,并接入了DeepSeek-R1等第三方優(yōu)質(zhì)模型。用戶(hù)可以根據(jù)需求選擇“自動(dòng)模式”,一鍵調(diào)用最優(yōu)模型組合,或者選擇特定模型完成特定任務(wù),從而進(jìn)一步提升響應(yīng)速度與任務(wù)處理能力。
文小言的圖片問(wèn)答功能也得到了顯著加強(qiáng)。用戶(hù)只需拍攝或上傳圖片,即可通過(guò)文字或語(yǔ)音提問(wèn),直接獲取深度解析。這一功能不僅適用于數(shù)學(xué)題目的實(shí)時(shí)解析,還能幫助用戶(hù)對(duì)比商品參數(shù)、價(jià)格,輔助購(gòu)物決策。
為了滿(mǎn)足用戶(hù)對(duì)圖片多維解讀的需求,文小言還新增了“圖個(gè)冷知識(shí)”功能。用戶(hù)可以預(yù)設(shè)“歷史學(xué)者”、“科技達(dá)人”等人設(shè)視角,為同一圖片賦予不同維度的解讀。例如,當(dāng)用戶(hù)詢(xún)問(wèn)“貓為何偏愛(ài)窗邊”時(shí),文小言能從狩獵本能、能量獲取、領(lǐng)地意識(shí)等多個(gè)角度給出獨(dú)特且有趣的解讀。
百度語(yǔ)音首席架構(gòu)師賈磊在活動(dòng)中透露,這是百度在業(yè)界首個(gè)推出的基于全新互相關(guān)注意力(Cross-Attention)機(jī)制的端到端語(yǔ)音語(yǔ)言大模型。他表示:“在滿(mǎn)足一定交互指標(biāo)的前提下,該大模型的調(diào)用成本遠(yuǎn)低于行業(yè)平均水平,推理響應(yīng)速度極快,將語(yǔ)音交互等待時(shí)間壓縮至約1秒,極大提升了交互的流暢性和用戶(hù)體驗(yàn)。同時(shí),在大模型的加持下,我們實(shí)現(xiàn)了流式逐字的LLM驅(qū)動(dòng)的多情感語(yǔ)音合成,使得語(yǔ)音交互更加情感飽滿(mǎn)、逼真且擬人化。”