騰訊混元近期宣布,其自研的深度思考模型“混元T1”正式版已正式上線。這一消息通過騰訊混元微信公眾號向公眾發布,標志著騰訊在人工智能領域邁出了重要一步。
據騰訊官方介紹,混元T1以其快速響應和超長文本處理能力著稱,是一款強推理模型。通過引入大規模強化學習,并結合數學、邏輯推理、科學及代碼等理科難題的專項訓練,混元T1的推理能力得到了顯著提升。這一模型不僅在常見基準測試如MMLU-PRO中取得了87.2分的高分,僅次于業界頂尖模型,還在Ceval、AIME、Zebra Logic等中英文知識及競賽級數學、邏輯推理測試中展現了出色的表現。
騰訊強調,混元T1正式版沿用了混元Turbo S的創新架構,首次在工業界實現了混合Mamba架構在超大型推理模型中的無損應用。這一架構不僅降低了傳統Transformer結構的計算復雜度,還減少了KV-Cache的內存占用,從而顯著降低了模型的訓練和推理成本。混元T1在超長文本推理領域也展現出了獨特優勢,其出色的長文捕捉能力有效解決了上下文丟失和長距離信息依賴問題。
在多項對齊任務、指令跟隨任務和工具利用任務中,混元T1同樣展現出了強大的適應性。其性能在多個基準測試中均達到了業界領先推理模型的水平,進一步證明了騰訊在人工智能領域的深厚實力和創新能力。
值得注意的是,騰訊還透露了混元T1在資源消耗方面的優化成果。通過混合Mamba架構的專項優化,混元T1在確保長文本信息捕捉能力的同時,實現了資源消耗的大幅降低。在相近的激活參數量下,其解碼速度提升了2倍,這對于實際應用中的性能和成本效益具有重要意義。
目前,騰訊混元T1已經正式上線,用戶可以通過騰訊云官網進行訪問和使用。API的使用價格也非常親民,輸入價格為每百萬tokens 1元,輸出價格為每百萬tokens 4元。這一價格策略無疑將吸引更多用戶嘗試和使用混元T1,進一步推動人工智能技術在各領域的廣泛應用。