先說結論
- 要在公家單位或要看圖用唯一選擇Gemma3
- 要在家自用選Qwen3
評測項目 | 說明 |
---|---|
ArenaHard | 綜合性難題問答評測,用來衡量模型在高難度任務下的推理能力。 |
AIME’24 / AIME’25 | 模擬數學競賽題目(AIME,American Invitational Mathematics Examination),用以測試模型之數學解題能力(AIME'25 更難)。 |
LiveCodeBench | 實際編碼能力評估,評測模型生成程式碼後能否成功執行並通過測資。 |
CodeForces (Elo Rating) | 模型在 Codeforces 類競程題目中的 Elo 等級分,數值愈高表示編程實力愈強。 |
GPQA | Graduate-level Physics QA,測試物理知識與推理能力。 |
LiveBench | 廣泛自然語言任務之基準測試集,涵蓋多種場景。 |
BFCL (v3) | 場景推理能力(類似常識推理)測試。 |
MultiIF (8 Languages) | 多語言邏輯推理能力(8種語言),測試跨語言的一致推理表現。 |
🧠 二、Qwen3 系列與 Gemma3 系列差異分析
模型名稱 | 架構特性 | 模型大小 | 效能分析 |
---|---|---|---|
Qwen3-30B-A3B (MoE) | 混合專家架構(Mixture of Experts)僅激活部分參與計算的子模型,效率高 | 30B參數 | 各項目表現均優異,尤其在 ArenaHard、AIME、LiveCodeBench、BFCL 領先群雄 |
Qwen3-4B (Dense) | 緻密模型(Dense Model)全參數參與推理,推理速度穩定 | 4B參數(小模型) | 在相同參數規模中表現良好,但遠遜於 Qwen3-30B-A3B |
Gemma3-27B-IT | Google 出品,強調**指令微調(Instruct-tuned)**能力 | 27B參數 | 對話能力佳,但數學、編碼與推理(如 AIME、LiveCode)明顯不及 Qwen3-30B |
📊 三、性能比較示例(精選項目)
評測項目 | Qwen3-30B-A3B | Gemma3-27B-IT | 優勢模型 |
---|---|---|---|
AIME’24 | 80.4 | 32.6 | Qwen3(數學壓倒性勝出) |
LiveCodeBench | 62.6 | 26.9 | Qwen3 |
CodeForces | 1974 | 1063 | Qwen3 |
GPQA(物理) | 65.8 | 42.4 | Qwen3 |
LiveBench | 74.3 | 49.2 | Qwen3 |
從上述可知,Qwen3 系列在推理、數學、編程、物理等硬核任務表現出色,尤其是 **MoE 架構(Qwen3-30B-A3B)**具有高效率與高精度之雙重優勢。
🧾 附註說明(來自圖表下方)
-
AIME'24 / '25 的數據係取樣 64 次平均值,題目包含 30 題,顯示模型穩定性。
-
表中 Qwen3 模型未啟用 "think mode",若啟用可能更強。
-
BFCL 評測中,Qwen3 採 FC 格式作答,其他模型則取最大得分模式。
以下為來自阿里巴巴官方 Blog「Qwen3: Think Deeper, Act Faster」的精要摘要:
🌟 Qwen3 重點總覽
-
完整開源模型系統
Qwen3 系列模型皆於 2025 年 4 月發布,包含多款 Dense(緻密)與 MoE(Mixture‑of‑Experts,混合專家) 結構模型,從 0.6B 至 235B 規模皆可取得,全部採用 Apache 2.0 授權 (Qwen)。 -
智慧雙模式推理機制
模型支援「思考模式」(for complex reasoning)與「非思考模式」(for fast chat),可依任務難度動態切換;並提供「思考預算」設定,以在效能與速度間取得最佳平衡 (arXiv)。 -
卓越推理與多語能力
在數學、程式碼生成、常識推理等硬實力上,超越前代 Qwen2.5 與 QwQ 模型,在與 DeepSeek‑R1、Gemini‑2.5‑Pro 等競爭者的比拚中表現極佳 (Qwen)。 -
大規模與小型 MoE 模型
-
多語言與全球覆蓋
預訓練包含 36 兆 token,涵蓋 119 種語言與方言,支援跨語言理解與生成,提升全球應用性 (維基百科)。 -
可微調、代理與嵌入擴展
最近推出基於 Qwen3 的 Qwen3‑Coder(專精於 agentic coding 與高 context 長度支援)、Qwen3‑Embedding/Reranker(用於文本表徵與搜尋排序)等系列,均延續核心模型優勢 (Qwen)。
🧭 概括要點(條列)
-
✅ 完整開源,Apache 2.0 授權,促進研究與社群應用。
-
✅ 混合推理架構:具思考與非思考模式、自主思考預算調控。
-
✅ 效能領先:在程式、數學、推理任務上表現超群。
-
✅ MoE 結構雙雄:235B 與 30B 模型兼顧性能與成本效益。
-
✅ 語言支援全面:訓練涵蓋超過 100 種語言 / 方言。
-
✅ 生態延伸豐富:Coder、Embedding 系列提升實作與工具整合能力。
🌟 Gemma 3 重點總覽
-
開源輕量模型,適用單卡運行
Gemma 3 系列由 DeepMind 推出,為輕量開源模型,可於單張 GPU/TPU 上執行,適用筆電、桌機甚至手機(blog.google)。 -
多種模型規模
提供 1B、4B、12B、27B 四種參數規模,皆有預訓練(pre‑trained)與指令微調(instruct‑tuned,簡稱 IT)版本(Hugging Face)。 -
支援多語與長文理解能力
除 1B 外,其餘模型支持 140+ 種語言 的多語處理,且擁有 128K tokens 超長上下文視窗(1B 版為 32K)(Hugging Face)。 -
具備多模態理解能力
除 1B 外皆可處理 圖像與文本輸入,整合定制的 SigLIP 視覺編碼器,將影像壓縮為固定 256 向量編碼,並採用 Pan & Scan 技術處理不同解析度與比例(Google 開發者部落格)。 -
記憶體優化與混合注意力架構
採用 local/global attention 混合架構,具備每 5 層 local attention(跨度 1024 tokens)緊接一層 global attention,以避免 KV-cache 隨長上下文劇增(Google Cloud Storage)。 -
卓越性能表現
在 LMArena Chatbot Arena Elo 評分中,Gemma 3‑27B‑IT 表現與 Gemini‑1.5‑Pro 相當,並優於 DeepSeek‑V3、Llama3‑405B 等同類型模型(blog.google)。
透過知識蒸餾與指令微調流程,如 RLHF、RLMF、RLEF 等提升數學、推理、程式與聊天能力(Google 開發者部落格)。 -
完善開發者生態支援
模型與文檔整合 Hugging Face、Ollama、Gemma.cpp、JAX、PyTorch 等平台,可透過 Google GenAI API、Vertex AI、Cloud Run、本地部署等方式使用;提供 ShieldGemma 2(4B)圖像安全分類模型作為配套模型(blog.google)。
📄 概覽重點條列
-
✅ 常見參數尺寸:1B / 4B / 12B / 27B
-
✅ 超長上下文能力:最高至 128K tokens
-
✅ 多模態支援:除了 1B,均支援圖文輸入
-
✅ 多語能力強大:涵蓋 140+ 語言
-
✅ 混合注意力架構:local/global 混合設計
-
✅ 指令微調模型(IT)具備高性能,部分版本性能堪比 Gemini 系列
-
✅ 廣泛工具與平台整合,包括安全模型 ShieldGemma 2