阿里云在今日宣布了一項重大技術突破,其通義千問平臺正式推出了全新的視覺模型Qwen2.5-VL,該模型提供了三種不同規模的版本,包括3B、7B以及旗艦級的72B版本。
尤為引人注目的是,旗艦版本Qwen2.5-VL-72B在多達13項權威視覺理解評測中拔得頭籌,其表現甚至超越了業界知名的GPT-4和Claude3.5模型。
據官方詳細介紹,Qwen2.5-VL在圖像內容解析方面展現出了極高的準確性。更為突破性的是,該模型能夠支持長達一小時的視頻內容理解,用戶可以在視頻中搜索特定事件,并對視頻進行分段要點總結,從而快速提取出關鍵信息,極大地提升了工作效率。
Qwen2.5-VL無需經過繁瑣的微調過程,即可變身為一個功能強大的AI視覺智能體,能夠操控手機和電腦,執行如給朋友發送祝福信息、電腦圖像編輯、手機訂票等多步驟復雜操作。
在圖像識別能力上,Qwen2.5-VL不僅擅長識別日常生活中的常見物體,如花、鳥、魚、蟲,還能深入分析圖像中的文本、圖表、圖標、圖形以及整體布局。
該模型在OCR(光學字符識別)技術上也實現了顯著提升,增強了多場景、多語言和多方向的文本識別和定位能力。同時,Qwen2.5-VL在信息抽取能力上進行了大幅度優化,以更好地滿足資質審核、金融商務等領域的數字化、智能化需求。
Qwen2.5-VL的推出,標志著阿里云在視覺模型領域取得了又一重要里程碑,為人工智能技術的發展注入了新的活力。