2025年8月5日 星期二

Qwen3 or Gemma3 誰勝出?

先說結論

  • 要在公家單位或要看圖用唯一選擇Gemma3
  • 要在家自用選Qwen3

評測項目 說明
ArenaHard 綜合性難題問答評測,用來衡量模型在高難度任務下的推理能力。
AIME’24 / AIME’25 模擬數學競賽題目(AIME,American Invitational Mathematics Examination),用以測試模型之數學解題能力(AIME'25 更難)。
LiveCodeBench 實際編碼能力評估,評測模型生成程式碼後能否成功執行並通過測資。
CodeForces (Elo Rating) 模型在 Codeforces 類競程題目中的 Elo 等級分,數值愈高表示編程實力愈強。
GPQA Graduate-level Physics QA,測試物理知識與推理能力。
LiveBench 廣泛自然語言任務之基準測試集,涵蓋多種場景。
BFCL (v3) 場景推理能力(類似常識推理)測試。
MultiIF (8 Languages) 多語言邏輯推理能力(8種語言),測試跨語言的一致推理表現。

🧠 二、Qwen3 系列與 Gemma3 系列差異分析

模型名稱 架構特性 模型大小 效能分析
Qwen3-30B-A3B (MoE) 混合專家架構(Mixture of Experts)僅激活部分參與計算的子模型,效率高 30B參數 各項目表現均優異,尤其在 ArenaHard、AIME、LiveCodeBench、BFCL 領先群雄
Qwen3-4B (Dense) 緻密模型(Dense Model)全參數參與推理,推理速度穩定 4B參數(小模型) 在相同參數規模中表現良好,但遠遜於 Qwen3-30B-A3B
Gemma3-27B-IT Google 出品,強調**指令微調(Instruct-tuned)**能力 27B參數 對話能力佳,但數學、編碼與推理(如 AIME、LiveCode)明顯不及 Qwen3-30B

📊 三、性能比較示例(精選項目)

評測項目 Qwen3-30B-A3B Gemma3-27B-IT 優勢模型
AIME’24 80.4 32.6 Qwen3(數學壓倒性勝出)
LiveCodeBench 62.6 26.9 Qwen3
CodeForces 1974 1063 Qwen3
GPQA(物理) 65.8 42.4 Qwen3
LiveBench 74.3 49.2 Qwen3

從上述可知,Qwen3 系列推理、數學、編程、物理等硬核任務表現出色,尤其是 **MoE 架構(Qwen3-30B-A3B)**具有高效率與高精度之雙重優勢。


🧾 附註說明(來自圖表下方)

  1. AIME'24 / '25 的數據係取樣 64 次平均值,題目包含 30 題,顯示模型穩定性。

  2. 表中 Qwen3 模型未啟用 "think mode",若啟用可能更強。

  3. BFCL 評測中,Qwen3 採 FC 格式作答,其他模型則取最大得分模式。

以下為來自阿里巴巴官方 Blog「Qwen3: Think Deeper, Act Faster」的精要摘要:




🌟 Qwen3 重點總覽

  1. 完整開源模型系統
    Qwen3 系列模型皆於 2025 年 4 月發布,包含多款 Dense(緻密)與 MoE(Mixture‑of‑Experts,混合專家) 結構模型,從 0.6B 至 235B 規模皆可取得,全部採用 Apache 2.0 授權 (Qwen)。

  2. 智慧雙模式推理機制
    模型支援「思考模式」(for complex reasoning)與「非思考模式」(for fast chat),可依任務難度動態切換;並提供「思考預算」設定,以在效能與速度間取得最佳平衡 (arXiv)。

  3. 卓越推理與多語能力
    在數學、程式碼生成、常識推理等硬實力上,超越前代 Qwen2.5 與 QwQ 模型,在與 DeepSeek‑R1、Gemini‑2.5‑Pro 等競爭者的比拚中表現極佳 (Qwen)。

  4. 大規模與小型 MoE 模型

    • Qwen3‑235B‑A22B:總參數 235B,推理時啟動約 22B;

    • Qwen3‑30B‑A3B:總 30B,啟動約 3B。
      這兩款 MoE 模型相較 dense 模型在效率與計算成本方面具明顯優勢 (Qwen, arXiv)。

  5. 多語言與全球覆蓋
    預訓練包含 36 兆 token,涵蓋 119 種語言與方言,支援跨語言理解與生成,提升全球應用性 (維基百科)。

  6. 可微調、代理與嵌入擴展
    最近推出基於 Qwen3 的 Qwen3‑Coder(專精於 agentic coding 與高 context 長度支援)、Qwen3‑Embedding/Reranker(用於文本表徵與搜尋排序)等系列,均延續核心模型優勢 (Qwen)。


🧭 概括要點(條列)

  • 完整開源,Apache 2.0 授權,促進研究與社群應用。

  • 混合推理架構:具思考與非思考模式、自主思考預算調控。

  • 效能領先:在程式、數學、推理任務上表現超群。

  • MoE 結構雙雄:235B 與 30B 模型兼顧性能與成本效益。

  • 語言支援全面:訓練涵蓋超過 100 種語言 / 方言。

  • 生態延伸豐富:Coder、Embedding 系列提升實作與工具整合能力。




🌟 Gemma 3 重點總覽

  1. 開源輕量模型,適用單卡運行
    Gemma 3 系列由 DeepMind 推出,為輕量開源模型,可於單張 GPU/TPU 上執行,適用筆電、桌機甚至手機(blog.google)。

  2. 多種模型規模
    提供 1B、4B、12B、27B 四種參數規模,皆有預訓練(pre‑trained)與指令微調(instruct‑tuned,簡稱 IT)版本(Hugging Face)。

  3. 支援多語與長文理解能力
    除 1B 外,其餘模型支持 140+ 種語言 的多語處理,且擁有 128K tokens 超長上下文視窗(1B 版為 32K)(Hugging Face)。

  4. 具備多模態理解能力
    除 1B 外皆可處理 圖像與文本輸入,整合定制的 SigLIP 視覺編碼器,將影像壓縮為固定 256 向量編碼,並採用 Pan & Scan 技術處理不同解析度與比例(Google 開發者部落格)。

  5. 記憶體優化與混合注意力架構
    採用 local/global attention 混合架構,具備每 5 層 local attention(跨度 1024 tokens)緊接一層 global attention,以避免 KV-cache 隨長上下文劇增(Google Cloud Storage)。

  6. 卓越性能表現
    在 LMArena Chatbot Arena Elo 評分中,Gemma 3‑27B‑IT 表現與 Gemini‑1.5‑Pro 相當,並優於 DeepSeek‑V3、Llama3‑405B 等同類型模型(blog.google)。
    透過知識蒸餾與指令微調流程,如 RLHF、RLMF、RLEF 等提升數學、推理、程式與聊天能力(Google 開發者部落格)。

  7. 完善開發者生態支援
    模型與文檔整合 Hugging Face、Ollama、Gemma.cpp、JAX、PyTorch 等平台,可透過 Google GenAI API、Vertex AI、Cloud Run、本地部署等方式使用;提供 ShieldGemma 2(4B)圖像安全分類模型作為配套模型(blog.google)。


📄 概覽重點條列

  • 常見參數尺寸:1B / 4B / 12B / 27B

  • 超長上下文能力:最高至 128K tokens

  • 多模態支援:除了 1B,均支援圖文輸入

  • 多語能力強大:涵蓋 140+ 語言

  • 混合注意力架構:local/global 混合設計

  • 指令微調模型(IT)具備高性能,部分版本性能堪比 Gemini 系列

  • 廣泛工具與平台整合,包括安全模型 ShieldGemma 2