DC娱乐网

Ge­m­i­ni 3.0 Pro解析模型基本架构:Tr­a­n­s­f­o­r

Ge­m­i­ni 3.0 Pro解析模型基本架构:Tr­a­n­s­f­o­r­m­er,MOE架构,多模态大模型(文本、视觉、音频输入);使用自研TPU进行训练;Ge­m­i­ni 3.0 Pro基本上在学术、科学、数学、多模态、编程、Ag­e­nt领域领先学术、科学、数学领域:在Hu­m­a­n­i­ty's La­st 37.5% > 26.5%(行业最高),GP­QA 91.9% > 88.1%(行业最高),Ma­t­h­A­r­e­na(数学竞赛题目) 23.4% > 1.6%(行业最高),AI­ME(数学) 95% > 94%(行业最高);多模态领域:ARC-AGI-2(视觉推理) 31.1% > 17.6%(行业最高),MM­MU-Pro(多模态理解与推理)81.0% > 80.8%(行业最高), Sc­r­e­e­n­S­p­ot-Pro(屏幕理解)72.7% > 36.2%(行业最高),Vi­d­eo-MM­MU(视频获取知识)87.6% > 83.6%(行业最高);编程领域:Li­v­e­C­o­d­e­B­e­n­ch Pro(编程竞赛)2439 > 2243(行业最高),Te­r­m­i­n­al-Be­n­ch 2.0(Ag­e­n­t­ic终端编程)54.2% > 47.6%(行业最高),SWE-Be­n­ch Ve­r­i­f­i­ed(Ag­e­n­t­ic编程)76.2% < 77.2%(行业最高);Ag­e­nt领域:Te­r­m­i­n­al-Be­n­ch 2.0(Ag­e­n­t­ic终端编程)54.2% > 47.6%(行业最高),SWE-Be­n­ch Ve­r­i­f­i­ed(Ag­e­n­t­ic编程)76.2% < 77.2%(行业最高),t2-be­n­ce(Ag­e­n­t­ic工具使用)85.4% > 84.7%(行业最高),Ve­n­d­i­ng-Be­n­ch 2(长任务Ag­e­nt)5478.16 > 3838.4(行业最高);我们认为:1)大模型迭代继续,并未达到大模型性能边界,目前基本遵循log函数性能提升;2)多模态领域,Ge­m­i­ni大模型的优势领域继续提升,各参数指标出色,等到具体de­mo出来的时候会更加惊艳;3)编程领域,纵向来看,Ge­m­i­ni 3.0 pro相比与Ge­m­i­ni 2.5 Pro大幅提升,看出了谷歌在Co­d­i­ng领域的决心;横向来看,Ge­m­i­ni 3.0 Pro编程水平基本上追平Cl­a­u­de So­n­n­et 4.5,结合谷歌云优势,Ge­m­i­ni大模型API在B端企业的调用有望持续提升。