谷歌DeepMind在人工智能領(lǐng)域再次邁出重要一步,推出了兩款旨在增強(qiáng)機(jī)器人現(xiàn)實世界應(yīng)用能力的新型AI模型。這一消息在科技界引起了廣泛關(guān)注。
其中一款名為Gemini Robotics的模型,融合了視覺、語言和行動能力,使機(jī)器人能夠在未經(jīng)特定訓(xùn)練的情況下,理解并適應(yīng)新環(huán)境。這一突破性進(jìn)展得益于Gemini 2.0,谷歌最新的AI旗艦?zāi)P汀?jù)DeepMind機(jī)器人部門的高級總監(jiān)Carolina Parada介紹,Gemini Robotics通過引入物理行動的新模態(tài),將Gemini的多模態(tài)世界理解能力應(yīng)用到了現(xiàn)實場景中。
Gemini Robotics在構(gòu)建高效機(jī)器人所需的三大核心領(lǐng)域——通用性、互動性和靈活性上取得了顯著進(jìn)展。它不僅能夠應(yīng)對各種新情境,還在與人類及環(huán)境的互動中表現(xiàn)出色,且能執(zhí)行更加精細(xì)的物理操作,如折紙或開啟瓶蓋等。
另一款模型名為Gemini Robotics-ER(具象推理),它被描述為一種先進(jìn)的視覺語言模型,能夠“理解復(fù)雜且動態(tài)的世界”。Parada解釋說,在日常活動中,如裝便當(dāng)盒時,機(jī)器人需要考慮物品的位置和操作步驟,這正是Gemini Robotics-ER所擅長的。機(jī)器人專家可以通過該模型與現(xiàn)有的低級控制系統(tǒng)對接,實現(xiàn)由Gemini Robotics-ER驅(qū)動的新功能。
DeepMind的研究員Vikas Sindhwani透露,公司正在開發(fā)一種“分層安全策略”,并指出Gemini Robotics-ER模型已被訓(xùn)練用于評估特定情境下動作的安全性。DeepMind還發(fā)布了新的基準(zhǔn)和框架,以推動AI領(lǐng)域的安全研究。去年DeepMind推出了“機(jī)器人憲法”,這是一套受艾薩克·阿西莫夫啟發(fā)的機(jī)器人行為規(guī)范。
在合作方面,DeepMind與Apptronik攜手,共同致力于“打造下一代人形機(jī)器人”。同時,DeepMind還向包括Agile Robots、Agility Robotics、波士頓動力和Enchanted Tools在內(nèi)的多家“受信任的測試者”開放了Gemini Robotics-ER模型。Parada表示:“我們專注于開發(fā)能夠理解物理世界并在其中行動的智能,我們非常期待將這一技術(shù)應(yīng)用于多個領(lǐng)域和多種表現(xiàn)形式。”