近日,中國移動攜手南京大學(xué)團(tuán)隊(duì),在人工智能領(lǐng)域取得了一項(xiàng)重要突破,成功研發(fā)出了一種高保真2D數(shù)字人說話驅(qū)動系統(tǒng)。這一創(chuàng)新旨在優(yōu)化客戶服務(wù)體驗(yàn),降低運(yùn)營成本,并為智能客服、教育培訓(xùn)及廣告營銷等多個領(lǐng)域帶來革新。
作為全球用戶規(guī)模最大的通信運(yùn)營商,中國移動面臨著巨大的客戶服務(wù)需求。盡管智能語音客服已經(jīng)廣泛應(yīng)用于日常業(yè)務(wù)中,但其提供的服務(wù)體驗(yàn)仍無法與人工客服的面對面、個性化服務(wù)相提并論。為了改善這一現(xiàn)狀,中國移動九天視覺團(tuán)隊(duì)與南京大學(xué)邰穎團(tuán)隊(duì)攜手,共同研發(fā)了這款高保真2D數(shù)字人說話驅(qū)動系統(tǒng)。
該系統(tǒng)能夠根據(jù)目標(biāo)人物的照片或視頻以及任意音頻,生成與之同步的說話視頻流。生成的數(shù)字人形象逼真,表情姿態(tài)自然,且具備較高的實(shí)時性。這一技術(shù)不僅實(shí)現(xiàn)了人物數(shù)字替身的構(gòu)建,還與語言大模型、音頻合成能力進(jìn)行了有機(jī)整合,為用戶提供了更為真實(shí)、自然的交互體驗(yàn)。
在技術(shù)攻堅(jiān)和方案創(chuàng)新方面,該系統(tǒng)取得了顯著的成果。首先,在實(shí)時播報口型生成技術(shù)上,該系統(tǒng)達(dá)到了學(xué)術(shù)界的領(lǐng)先水平,支持中英文數(shù)字人口型驅(qū)動,實(shí)時性能達(dá)到了30毫秒每幀。其次,通過研發(fā)二階段學(xué)習(xí)框架,系統(tǒng)將數(shù)字人說話驅(qū)動過程拆解為從音頻到口型系數(shù)、從口型系數(shù)到生成人像兩部分,降低了學(xué)習(xí)難度,提升了生成效果。最后,該系統(tǒng)還引入了情緒引導(dǎo)學(xué)習(xí)模塊,支持正常、微笑、驚訝、憤怒、恐懼、悲傷等七種主流情緒控制生成能力,使生成的數(shù)字人具備更加豐富的情感表達(dá)能力。
在實(shí)際應(yīng)用中,該系統(tǒng)已經(jīng)實(shí)現(xiàn)了端到端的二階段30幀每秒實(shí)時生成性能,并支持512×512人臉區(qū)域生成。同時,該系統(tǒng)還具備高興、悲傷等七種主流情緒控制生成能力,為用戶帶來了更加豐富的視覺體驗(yàn)。在評測集VoxCeleb指標(biāo)方面,該技術(shù)的口型準(zhǔn)確性LMD達(dá)到了4.3,生成自然度FID達(dá)到了11.1,均表現(xiàn)出色。
據(jù)中國移動官方介紹,這一研發(fā)成果的應(yīng)用前景廣闊。它不僅有效降低了創(chuàng)作門檻,提升了生成人物的視覺質(zhì)量,還為5G新通話、和留言小秘書等品牌業(yè)務(wù)的拓展提供了有力支持。未來,隨著技術(shù)的不斷成熟和應(yīng)用場景的不斷拓展,這一系統(tǒng)有望為更多領(lǐng)域帶來創(chuàng)新和變革。