亞馬遜近日震撼發布其最新一代生成式AI語音模型——Nova Sonic,標志著語音交互技術邁入全新紀元。據官方介紹,Nova Sonic在語音對話方面展現出了卓越的能力,能夠無縫對接說話者的自然停頓與打斷,精準把握對話節奏,相比前代Alexa,用戶體驗顯著提升,更加流暢自然。
在多語言性能測試中,Nova Sonic同樣表現出色。在LibriSpeech基準測試中,該模型在英語、法語、意大利語、德語和西班牙語上的單詞錯誤率平均僅為4.2%,遠低于業界平均水平。特別是在高音量多人互動場景下,Nova Sonic的單詞錯誤率相較于OpenAI的GPT-4o-transcribe模型降低了46.7%,展現出強大的語音識別能力。
Nova Sonic在響應速度上也實現了突破,平均感知延遲僅為1.09秒,比OpenAI的GPT-4o模型快了0.09秒。亞馬遜自豪地宣稱,Nova Sonic是市場上最具成本效益的AI語音模型,其價格相比GPT-4o便宜了約80%,為用戶提供了高性價比的選擇。
為了讓更多開發者能夠利用這一先進技術,亞馬遜通過Bedrock開發者平臺提供了Nova Sonic。該平臺專注于企業級AI應用的構建,為開發者提供了強大的支持。同時,Nova Sonic還支持全新的雙向流式API,使得開發者能夠更加便捷地部署和使用該模型。事實上,Nova Sonic的部分組件已經應用于亞馬遜升級版數字語音助手Alexa+,進一步提升了其語音交互的精準度和流暢性。
Nova Sonic的發布,也是亞馬遜構建人工通用智能(AGI)戰略的重要一環。AGI被定義為能夠完成人類所能做的一切事情的AI系統,是亞馬遜在AI領域追求的最高目標。亞馬遜透露,未來還將推出更多能夠理解不同模態(包括圖像、視頻和語音)的AI模型,以進一步拓展其在AI領域的布局。
亞馬遜還計劃逐步將更多內部AI模型開放給開發者使用,以激發更多創新應用的誕生。同時,亞馬遜還推出了Nova Act的預覽版,這是一個基于瀏覽器的AI模型,為Alexa+和“代我購買”功能提供了有力支持,進一步提升了用戶體驗。