2025-11-19 06:19:48
當?shù)貢r間11月18日,谷歌發(fā)布迄今最強大AI模型Gemini 3,并在搜索、應(yīng)用及開發(fā)者平臺同步上線,顯示其加快AI商業(yè)化決心。新模型推理能力顯著進步,在多個基準測試中領(lǐng)先,還被稱為“最佳編碼模型”。此外,該模型多模態(tài)理解能力強,發(fā)布首日即整合到多個核心產(chǎn)品中,且安全性更高,經(jīng)歷了谷歌史上最全面安全評估。
每經(jīng)編輯|杜宇
當?shù)貢r間11月18日,Alphabet旗下的谷歌正式發(fā)布備受期待的該司迄今最強大人工智能(AI)模型Gemini 3,并于發(fā)布首日立即在谷歌搜索、Gemini應(yīng)用程序App及多個開發(fā)者平臺同步上線,在多個盈利產(chǎn)品中投入使用。這是谷歌首次在新模型發(fā)布當天就將其整合到搜索產(chǎn)品中,顯示出公司加快AI技術(shù)商業(yè)化的決心。
Alphabet首席執(zhí)行官桑達爾·皮查伊當天表示,新AI模型將針對更復雜的問題提供更優(yōu)答案。"用戶只需更少的提示,即可獲得所需結(jié)果。"此外,新模型在編程、應(yīng)用開發(fā)與圖像生成方面的能力也大幅增強。
圖片來源:每經(jīng)記者 鄭雨航 攝
Gemini 3將被整合進Gemini應(yīng)用、谷歌的AI搜索產(chǎn)品AI Mode和AI Overviews,以及其企業(yè)級產(chǎn)品。該模型將自周二起向部分訂閱用戶開放,并將在未來幾周更大范圍上線。
此次發(fā)布距離谷歌推出Gemini 2.5僅八個月,距離Gemini 2.0上線也僅11個月。引爆生成式AI熱潮的OpenAI已于今年8月份發(fā)布GPT-5。
皮查伊寫道:“令人驚嘆的是,僅僅兩年時間,AI已從單純處理文本和圖像,發(fā)展到能夠讀懂場景。從今天起,Gemini將在谷歌全系產(chǎn)品中全面鋪開。”
據(jù)谷歌披露的數(shù)據(jù)顯示,Gemini應(yīng)用目前月活躍用戶已達6.5億,而AI Overviews擁有20億月活用戶。OpenAI則在8月表示,ChatGPT周活躍用戶已突破7億。
谷歌高管在新聞發(fā)布會上強調(diào),在衡量人工智能模型性能的幾個熱門行業(yè)排行榜上,Gemini 3處于領(lǐng)先地位。Gemini 3在全球AI模型LMArena排行榜上以1501分的歷史最高分登頂,在衡量通用推理能力的Humanity's Last Exam基準測試中獲得37.5%的最高分,超越了此前由GPT-5 Pro保持的31.64%紀錄。該模型還在數(shù)學、多模態(tài)理解和事實準確性等多個維度刷新了行業(yè)標準。
谷歌AI研究實驗室DeepMind的CEO Demis Hassabis表示,Gemini 3是"世界上最好的多模態(tài)理解模型",也是公司迄今最強大的智能體和代碼生成模型。谷歌CEO Sundar Pichai在博客中稱其為"我們最智能的模型",能夠"將任何想法變?yōu)楝F(xiàn)實"。
Gemini 3在推理能力上取得了顯著進步,在多項學術(shù)級基準測試中展現(xiàn)出博士水平的表現(xiàn)。該模型在GPQA Diamond測試中獲得91.9%的高分,在數(shù)學領(lǐng)域的MathArena Apex基準測試中取得23.4%的新成績,在事實準確性方面于SimpleQA Verified測試中達到72.1%的得分。
在多模態(tài)推理方面,Gemini 3同樣表現(xiàn)出色,在MMMU-Pro測試中獲得81%的分數(shù),在Video-MMMU測試中達到87.6%。這意味著該模型能夠高度可靠地處理科學和數(shù)學等廣泛領(lǐng)域的復雜問題。

谷歌產(chǎn)品負責人Tulsee Doshi表示:"在Gemini 3身上,我們看到了推理能力的巨大飛躍。它的響應(yīng)深度和細微程度是我們以前從未見過的。"
除標準版本外,谷歌還推出了Gemini 3 Deep Think增強推理模式,該模式在Humanity's Last Exam測試中達到41.0%的成績,在GPQA Diamond測試中獲得93.8%的分數(shù)。在ARC-AGI-2測試中,Deep Think模式創(chuàng)下了45.1%的前所未有成績,展示了其解決新穎挑戰(zhàn)的能力。谷歌表示,該模式正在接受額外的安全評估,將在未來幾周內(nèi)向Google AI Ultra訂閱用戶開放。

在代碼生成領(lǐng)域,Gemini 3被谷歌稱為"迄今構(gòu)建的最佳vibe coding和智能體編碼模型"。該模型在WebDev Arena排行榜上以1487分的高分登頂,在衡量模型通過終端操作計算機能力的Terminal-Bench 2.0測試中獲得54.2%的分數(shù),在評估代碼智能體的SWE-bench Verified基準測試中達到76.2%,遠超Gemini 2.5 Pro的表現(xiàn)。
開發(fā)者可以通過Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平臺訪問Gemini 3。
谷歌同時推出了以智能體為先的全新開發(fā)平臺Google Antigravity,該平臺利用Gemini 3的高級推理、工具使用和智能體編碼能力,將AI輔助從開發(fā)者工具箱中的一個工具轉(zhuǎn)變?yōu)橹鲃雍献骰锇椤eepMind首席技術(shù)官Koray Kavukcuoglu表示:"智能體可以在你的編輯器、終端和瀏覽器之間工作,以最佳方式幫助你構(gòu)建應(yīng)用程序。"
Gemini 3保留了該系列模型從一開始就具備的跨模態(tài)信息綜合能力,能夠無縫處理文本、圖像、視頻、音頻和代碼等多種模態(tài)信息,并配備100萬token的上下文窗口。
Hassabis舉例說,如果用戶想學習傳統(tǒng)的烹飪,Gemini 3可以破譯并翻譯不同語言的手寫食譜,制作成可分享的家庭食譜書。如果用戶想了解新主題,可以提供學術(shù)論文、長視頻講座或教程,Gemini 3能夠生成交互式閃卡、可視化或其他格式的內(nèi)容幫助用戶掌握材料。該模型甚至可以分析用戶匹克球比賽的視頻,識別改進空間并生成整體動作改善的訓練計劃。
在智能體能力方面,Gemini 3在測試長期規(guī)劃能力的Vending-Bench 2排行榜上位居榜首。該模型能夠在整整一年的模擬運營中保持一致的工具使用和決策能力,在不偏離任務(wù)的情況下實現(xiàn)更高回報。這意味著Gemini 3能夠通過結(jié)合更深入的推理與改進的工具使用,代表用戶導航更復雜的多步驟工作流程,例如預訂本地服務(wù)或整理收件箱。
谷歌此次采取了積極的產(chǎn)品策略,在Gemini 3發(fā)布首日就將其整合到多個核心產(chǎn)品中。這是谷歌首次在新模型發(fā)布當天就將其應(yīng)用于搜索產(chǎn)品,標志著公司AI商業(yè)化戰(zhàn)略的重要轉(zhuǎn)變。
在搜索方面,AI Mode現(xiàn)在使用Gemini 3來實現(xiàn)新的生成式用戶界面體驗,包括沉浸式視覺布局、交互式工具和模擬,所有這些都根據(jù)用戶查詢實時生成。在Gemini App中,所有用戶都可以使用Gemini 3,Google AI Pro和Ultra訂閱用戶還可以在AI Mode搜索中使用該模型。
在安全性方面,谷歌表示Gemini 3是其迄今最安全的模型,經(jīng)歷了谷歌AI模型史上最全面的安全評估。該模型顯示出更低的諂媚性、更強的提示注入抵抗力,以及通過網(wǎng)絡(luò)攻擊濫用的更好防護。除了根據(jù)其前沿安全框架進行的內(nèi)部測試外,谷歌還與世界領(lǐng)先的領(lǐng)域?qū)<液献鬟M行評估,向英國AISI等機構(gòu)提供早期訪問權(quán)限,并獲得了Apollo、Vaultis和Dreadnode等行業(yè)專家的獨立評估。
每日經(jīng)濟新聞綜合公開資料
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP