學習本地LLM最佳CP值顯卡採購指南
https://felo.ai/zh-Hant/slides/huvzUwrGMFUABTDzzbzfDK?modelType=PRO&invite=2mvaZRPEeDMXg
https://felo.ai/page/preview/fj9zse6Ez7UUp3dc6yscBW?business_type=AGENT_THREAD&invite=2mvaZRPEeDMXg
學習本地LLM最佳CP值顯卡採購指南
https://felo.ai/zh-Hant/slides/huvzUwrGMFUABTDzzbzfDK?modelType=PRO&invite=2mvaZRPEeDMXg
https://felo.ai/page/preview/fj9zse6Ez7UUp3dc6yscBW?business_type=AGENT_THREAD&invite=2mvaZRPEeDMXg
評測項目 | 說明 |
---|---|
ArenaHard | 綜合性難題問答評測,用來衡量模型在高難度任務下的推理能力。 |
AIME’24 / AIME’25 | 模擬數學競賽題目(AIME,American Invitational Mathematics Examination),用以測試模型之數學解題能力(AIME'25 更難)。 |
LiveCodeBench | 實際編碼能力評估,評測模型生成程式碼後能否成功執行並通過測資。 |
CodeForces (Elo Rating) | 模型在 Codeforces 類競程題目中的 Elo 等級分,數值愈高表示編程實力愈強。 |
GPQA | Graduate-level Physics QA,測試物理知識與推理能力。 |
LiveBench | 廣泛自然語言任務之基準測試集,涵蓋多種場景。 |
BFCL (v3) | 場景推理能力(類似常識推理)測試。 |
MultiIF (8 Languages) | 多語言邏輯推理能力(8種語言),測試跨語言的一致推理表現。 |
模型名稱 | 架構特性 | 模型大小 | 效能分析 |
---|---|---|---|
Qwen3-30B-A3B (MoE) | 混合專家架構(Mixture of Experts)僅激活部分參與計算的子模型,效率高 | 30B參數 | 各項目表現均優異,尤其在 ArenaHard、AIME、LiveCodeBench、BFCL 領先群雄 |
Qwen3-4B (Dense) | 緻密模型(Dense Model)全參數參與推理,推理速度穩定 | 4B參數(小模型) | 在相同參數規模中表現良好,但遠遜於 Qwen3-30B-A3B |
Gemma3-27B-IT | Google 出品,強調**指令微調(Instruct-tuned)**能力 | 27B參數 | 對話能力佳,但數學、編碼與推理(如 AIME、LiveCode)明顯不及 Qwen3-30B |
評測項目 | Qwen3-30B-A3B | Gemma3-27B-IT | 優勢模型 |
---|---|---|---|
AIME’24 | 80.4 | 32.6 | Qwen3(數學壓倒性勝出) |
LiveCodeBench | 62.6 | 26.9 | Qwen3 |
CodeForces | 1974 | 1063 | Qwen3 |
GPQA(物理) | 65.8 | 42.4 | Qwen3 |
LiveBench | 74.3 | 49.2 | Qwen3 |
從上述可知,Qwen3 系列在推理、數學、編程、物理等硬核任務表現出色,尤其是 **MoE 架構(Qwen3-30B-A3B)**具有高效率與高精度之雙重優勢。
AIME'24 / '25 的數據係取樣 64 次平均值,題目包含 30 題,顯示模型穩定性。
表中 Qwen3 模型未啟用 "think mode",若啟用可能更強。
BFCL 評測中,Qwen3 採 FC 格式作答,其他模型則取最大得分模式。
以下為來自阿里巴巴官方 Blog「Qwen3: Think Deeper, Act Faster」的精要摘要:
完整開源模型系統
Qwen3 系列模型皆於 2025 年 4 月發布,包含多款 Dense(緻密)與 MoE(Mixture‑of‑Experts,混合專家) 結構模型,從 0.6B 至 235B 規模皆可取得,全部採用 Apache 2.0 授權 (Qwen)。
智慧雙模式推理機制
模型支援「思考模式」(for complex reasoning)與「非思考模式」(for fast chat),可依任務難度動態切換;並提供「思考預算」設定,以在效能與速度間取得最佳平衡 (arXiv)。
卓越推理與多語能力
在數學、程式碼生成、常識推理等硬實力上,超越前代 Qwen2.5 與 QwQ 模型,在與 DeepSeek‑R1、Gemini‑2.5‑Pro 等競爭者的比拚中表現極佳 (Qwen)。
大規模與小型 MoE 模型
多語言與全球覆蓋
預訓練包含 36 兆 token,涵蓋 119 種語言與方言,支援跨語言理解與生成,提升全球應用性 (維基百科)。
可微調、代理與嵌入擴展
最近推出基於 Qwen3 的 Qwen3‑Coder(專精於 agentic coding 與高 context 長度支援)、Qwen3‑Embedding/Reranker(用於文本表徵與搜尋排序)等系列,均延續核心模型優勢 (Qwen)。
✅ 完整開源,Apache 2.0 授權,促進研究與社群應用。
✅ 混合推理架構:具思考與非思考模式、自主思考預算調控。
✅ 效能領先:在程式、數學、推理任務上表現超群。
✅ MoE 結構雙雄:235B 與 30B 模型兼顧性能與成本效益。
✅ 語言支援全面:訓練涵蓋超過 100 種語言 / 方言。
✅ 生態延伸豐富:Coder、Embedding 系列提升實作與工具整合能力。
開源輕量模型,適用單卡運行
Gemma 3 系列由 DeepMind 推出,為輕量開源模型,可於單張 GPU/TPU 上執行,適用筆電、桌機甚至手機(blog.google)。
多種模型規模
提供 1B、4B、12B、27B 四種參數規模,皆有預訓練(pre‑trained)與指令微調(instruct‑tuned,簡稱 IT)版本(Hugging Face)。
支援多語與長文理解能力
除 1B 外,其餘模型支持 140+ 種語言 的多語處理,且擁有 128K tokens 超長上下文視窗(1B 版為 32K)(Hugging Face)。
具備多模態理解能力
除 1B 外皆可處理 圖像與文本輸入,整合定制的 SigLIP 視覺編碼器,將影像壓縮為固定 256 向量編碼,並採用 Pan & Scan 技術處理不同解析度與比例(Google 開發者部落格)。
記憶體優化與混合注意力架構
採用 local/global attention 混合架構,具備每 5 層 local attention(跨度 1024 tokens)緊接一層 global attention,以避免 KV-cache 隨長上下文劇增(Google Cloud Storage)。
卓越性能表現
在 LMArena Chatbot Arena Elo 評分中,Gemma 3‑27B‑IT 表現與 Gemini‑1.5‑Pro 相當,並優於 DeepSeek‑V3、Llama3‑405B 等同類型模型(blog.google)。
透過知識蒸餾與指令微調流程,如 RLHF、RLMF、RLEF 等提升數學、推理、程式與聊天能力(Google 開發者部落格)。
完善開發者生態支援
模型與文檔整合 Hugging Face、Ollama、Gemma.cpp、JAX、PyTorch 等平台,可透過 Google GenAI API、Vertex AI、Cloud Run、本地部署等方式使用;提供 ShieldGemma 2(4B)圖像安全分類模型作為配套模型(blog.google)。
✅ 常見參數尺寸:1B / 4B / 12B / 27B
✅ 超長上下文能力:最高至 128K tokens
✅ 多模態支援:除了 1B,均支援圖文輸入
✅ 多語能力強大:涵蓋 140+ 語言
✅ 混合注意力架構:local/global 混合設計
✅ 指令微調模型(IT)具備高性能,部分版本性能堪比 Gemini 系列
✅ 廣泛工具與平台整合,包括安全模型 ShieldGemma 2
要想得到你想要的的東西,最可靠的辦法是讓你自己配得上它。
一個由來自不同學科的最重要思維模型構成的網絡,幫助我們從多個維度理解世界本質。
「反過來想,永遠反過來想」。在追求成功前,先思考如何避免失敗,這能幫我們避開致命陷阱。
投資:與其問「如何才能賺大錢?」,不如先問「如何才能虧大錢?」(答案:借錢投機、追漲殺跌等),然後避開這些行為。
人生:與其問「如何獲得幸福?」,不如先問「如何才能讓生活一團糟?」(答案:染上毒癮、眾叛親離等),然後避開這些選擇。
避免愚蠢比追求卓越更重要。
聰明人也無法豁免根深蒂固的心理傾向。芒格總結了25個導致誤判的標準原因。
應用:建立檢查清單,在重大決策前逐一反思,避免落入心理陷阱。
你不再是一個被動的資訊接收者,你成了一個主動的模式識別者,一個擁有全套工具的總工程師。
生圖速度稍微慢,但繪圖非常地精美細節豐富,4步以上即可生精美圖形20步以上更精美,可以生英文字,看不懂中文的指令
是對岸的模型,可以理解中文的prompt,而且可以畫出英文字,畫圖的精細程度取決於你的指令下的好不好,指令下得好繪圖的品質就不錯
以下是 Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件,以及它們的主要功能與特色:
資料來源:套件列表摘自官方 README (GitHub)
套件名稱 | 簡介與特色 |
---|---|
Stable Diffusion WebUI reForge | 一款基於 AUTOMATIC1111 的強化分支,加入了多項性能優化和插件支援。Stability Matrix 可一鍵安裝/更新,並自動處理相依套件與版本管理。(GitHub) |
Stable Diffusion WebUI Forge | AUTOMATIC1111 的另一分支,專注於 GPU 加速與自訂化介面。透過 Stability Matrix 可快速切換 Forge 與原版 WebUI,並保持多個環境並存。(GitHub) |
Stable Diffusion WebUI AMDGPU Forge | 為 AMD GPU 使用者打造的專用分支,集成了 ROCm 支援。透過自動偵測環境,Stability Matrix 能自動安裝必要驅動與相依。(GitHub) |
Automatic1111 | 最受歡迎的 Web UI,具備廣泛的插件生態與自動標註、批次生圖功能。透過 Stability Matrix,可無痛安裝、更新所有衍生插件,並管理 Python 相依套件。(GitHub) |
Automatic1111 DirectML | 基於 DirectML(Windows 上的跨 GPU API)構建的 Automatic1111 版本,適用於沒有 CUDA 的設備。Stability Matrix 自動下載並配置 DirectML backend。(GitHub) |
SD Web UI‑UX | 強調使用者體驗與介面美化的 Web UI,整合了預覽窗格、即時參數調整面板等功能。Stability Matrix 可管理其前端資源與 CSS 模組。(GitHub) |
SD.Next | 在 SD Web UI‑UX 基礎上加入更多進階功能(如多任務排程、進度儀表板)。Stability Matrix 允許你在多個 SD.Next 專案間快速切換。(GitHub) |
Fooocus | 由社群開發的輕量級推理介面,專注於低資源消耗與簡易擴充。Stability Matrix 支援多種 Fooocus 分支:– Fooocus MRE– Fooocus ControlNet SDXL– Ruined Fooocus– Fooocus – mashb1t’s 1‑Up Edition可一鍵新增插件與模型路徑。(GitHub) |
SimpleSDXL | 精簡版 SDXL Web UI,專為大模型設計的前端。同樣可透過 Stability Matrix 自動管理大型檢查點(checkpoint)與相依。(GitHub) |
ComfyUI | 節點式流程編輯介面,適合構建複雜管線(pipeline)。Stability Matrix 可以同步佈署 ComfyUI 節點庫、節點模板與版本控制。(GitHub) |
StableSwarmUI | 分散式推理管理介面,支援多節點協同運算。Stability Matrix 會配置佈署參數並統一管理多台機器的連線資訊。(GitHub) |
VoltaML | 集成 VoltaML 推理框架的 UI,強化推理效能。透過 Stability Matrix,使用者可輕鬆安裝 VoltaML runtime 并管理版本。(GitHub) |
InvokeAI | 另一款廣受好評的 CLI/GUI 混合介面,適合喜歡指令行操作的使用者。Stability Matrix 可將其二進位檔與相依封裝起來,並支援多版本並存。(GitHub) |
SDFX | 集成多款後處理濾鏡與批量特效處理的 UI。透過 Stability Matrix,你能夠一鍵為每個專案套用 SDFX 插件,並維持各插件的設定一致性。(GitHub) |
Kohya’s GUI | 專為訓練與微調(fine-tuning)設計的 UI,整合了 Kohya_ss 相關訓練函式庫。Stability Matrix 可自動管理 GPU 設定及相依環境。(GitHub) |
OneTrainer | 面向大規模模型訓練的統一介面,支援分布式訓練。Stability Matrix 支援群集佈署與資源監控插件。(GitHub) |
FluxGym | 與 FluxML 生態整合的深度學習 UI,特化於 Flux 框架。Stability Matrix 可同時管理 PyTorch/Flux 等多種後端。(GitHub) |
CogVideo via CogStudio | 以 CogVideo 為核心的多媒體生成 UI,適合影片推理。Stability Matrix 會自動佈署 CogStudio 並配置 GPU 資源分配。(GitHub) |
此外,Stability Matrix 本身也提供了多項跨套件共用功能:
嵌入式 Git 與 Python 相依管理,無需全域安裝就能一鍵同步更新版本與套件。
可攜式資料目錄,可將 .smdata
目錄移至任意磁碟或電腦,並無痛繼續使用。
內建 Inference UI:語法高亮、命令列與拖放式畫廊,所有套件共用同一介面。
檢查點(Checkpoint)與模型瀏覽器:支援 CivitAI、HuggingFace 自動匯入並顯示預覽縮圖,可暫停/續傳。
透過 Stability Matrix,使用者只需一次設定,即可管理上述各類 Stable Diffusion 與相關訓練、推理工具,並享有版本控制、依賴處理與便捷 UI 的完整體驗。
以下依功能簡易分類,並對所有套件內容提供詳細說明,包含使用場景、主要功能、系統需求與特色:
Dia
原始套件名稱:nari-labs/dia
詳細說明:Dia 是一個擁有 1.6B 參數的對話式 TTS 模型,專注於生成擬人化、節奏自然的對話語音。它支援在文字中標註情緒(如歡樂、悲傷、憤怒)以調整語調與語速,並能夠產生笑聲、咳嗽、清嗓等非語音效果。適用於虛擬角色配音、遊戲對話及互動式語音助理。
系統需求:12GB GPU、Python 3.8+
Orpheus-TTS-FastAPI
原始套件名稱:canopyai/Orpheus-TTS
詳細說明:基於 Llama-3b 之上訓練的開源 TTS 系統,利用 LLM 的上下文理解能力提升語音自然度。內建多語者與語調切換功能,並可透過 FastAPI 部署為 RESTful 服務,實時回應文字合成請求。
使用場景:客服機器人、語音播報、智慧助理微服務。
系統需求:16GB GPU、FastAPI、PyTorch 2.0
zonos
原始套件名稱:Zyphra/Zonos
詳細說明:訓練於超過 200k 小時多語種資料的開源 TTS,支持八種語言(英、法、德、中文、日、韓、阿拉伯、西班牙)。具備情感建模與口音仿真能力,並提供簡易 API 供一鍵部署。
適用領域:國際化語音產品、有聲書製作、多語客服。
系統需求:10GB GPU、Transformers 庫
fish
原始套件名稱:fishaudio/fish-speech
詳細說明:多語種 TTS 平台,涵蓋主要語言並內建「聲音克隆」功能,只需數秒錄音即可模擬該語者風格。支援 SSML,可插入停頓、音量與動畫效果標記。
用例:虛擬主播、跨國企業培訓、教育教材自動語音化。
系統需求:8GB GPU、CUDA 11.3
MeloTTS
原始套件名稱:myshell-ai/MeloTTS
詳細說明:採用擴散與流匹配技術,生成高品質、接近自然人聲的多語 TTS,支持英、西、法、中、日、韓等六種語言,並可切換多種音色風格(新聞播報、溫暖廣播、角色配音)。
系統需求:12GB GPU
使用場景:有聲書平臺、教育應用、智能導航語音。
e2-f5-tts
原始套件名稱:mrfakename/E2-F5-TTS
詳細說明:以「Flow Matching」為基礎的新一代 TTS 模型,兼顧真實度與速度,內建降噪機制可減少背景噪音。提供命令行工具與 Python SDK,可調速、調高音頻參數。
系統需求:8GB GPU
parler-tts
原始套件名稱:parler-tts/parler_tts_mini
詳細說明:輕量級 TTS 引擎,模型僅數十 MB,適合邊緣設備與嵌入式系統。可透過命令行指定說話速度、音高、混響與背景噪音等參數。
系統需求:無 GPU 也能運行,建議 CPU 4 核以上。
Spark-TTS
原始套件名稱:Spark-TTS
詳細說明:集成語音合成與聲音克隆功能的工具包,提供 GUI 與 CLI 雙界面,支援 Windows、Linux 平台。可自定義多角色音色,並通過微調生成特定角色語音。
使用場景:直播配音、動畫配音、角色扮演語音服務。
系統需求:16GB GPU
XTTS
原始套件名稱:coqui/xtts
詳細說明:零樣本聲音克隆模型,僅需 3 秒音頻樣本即可模仿該語者的聲音風格,並支持跨語言發聲。常用於虛擬主播、遊戲 NPC 配音、角色扮演。
系統需求:8GB GPU
RVC
原始套件名稱:RVC-Project/Retrieval-based-Voice-Conversion-WebUI
詳細說明:檢索基聲音轉換技術,可將輸入音頻轉換為目標語者的聲音,並保留語調與節奏一致性。WebUI 介面讓非技術用戶可簡單操作。
系統需求:10GB GPU
Bark Voice Cloning
原始套件名稱:fffiloni/instant-TTS-Bark-cloning
詳細說明:基於 Bark TTS 架構的聲音克隆方案,需提供至少 20 秒清錄 WAV 即可生成自訂 TTS 模型,並可在本地離線生成語音。
系統需求:12GB GPU
alltalk-tts
原始套件名稱:alltalk-tts
詳細說明:整合多種主流 TTS(E5-TTS、XTTS、Piper、Piper TTS、Parler TTS、RVC),提供統一 UI、低 VRAM 支援、DeepSpeed 加速與模型微調功能。
系統需求:8GB+ VRAM GPU
DiffRhythm
原始套件名稱:ASLP-lab/DiffRhythm
詳細說明:基於擴散模型的歌曲生成系統,可輸出長度達 4 分 45 秒的音樂,並支持帶歌詞或純樂模式。可輸入旋律片段、和弦進行或歌詞提示,自動生成完整曲目。
使用場景:獨立音樂人作曲、遊戲背景音樂、短影片配樂。
系統需求:12GB GPU
MAGNeT
原始套件名稱:facebookresearch/audiocraft
詳細說明:Meta AudioCraft 的文字→音樂與文字→音效模組,能根據文字描述生成多種風格的音樂片段(古典、流行、電子等),並可調節節奏與樂器配置。
系統需求:16GB GPU
StableAudio
原始套件名稱:Stability-AI/stable-audio-tools
詳細說明:Stability AI 推出的開源音頻設計套件,內含音樂合成、音效生成與樣本混合功能,提供 Python API 與 CLI。
使用場景:廣告音效製作、遊戲音頻開發、音頻後期處理。
AudioSep
原始套件名稱:Audio-AGI/AudioSep
詳細說明:文字驅動的通用音頻分離工具,僅需文字描述(如「提取人聲」、「分離鼓聲」)即可將音軌分離為多個成分,並保持時間一致性。
系統需求:10GB GPU
MMAudio
原始套件名稱:hkchengrex/MMAudio
詳細說明:結合影片與文字輸入生成同步音頻,能自動匹配影像內容並添加解說、配樂或環境聲效。
應用:企業宣傳片配音、教學影片自動配音、社交媒體短片。
UVR5-WebUI
原始套件名稱:UVR5-WebUI
詳細說明:基於 UVR5 模型的音訊分離 WebUI,支援分離聲樂、伴奏、環境音等多軌,並可選擇不同分離精度。
系統需求:8GB GPU
ZETA
原始套件名稱:hilamanor/audioEditing
詳細說明:零樣本文本編輯音頻工具,基於 DDPM 反演可對音訊進行增減聲源、去噪與剪輯,並可導入至 DAW 軟件進行後製。
應用:Podcast 後製、語音訊號修復、音效剪輯。
ComfyUI
原始套件名稱:comfyanonymous/ComfyUI
詳細說明:以可視化節點圖方式構建擴散模型管線,用戶可自由組合文本編碼、圖像解碼、後處理等節點。支持插件擴展、批量處理與自定義節點開發。
系統需求:12GB GPU
omnigen
原始套件名稱:Shitao/OmniGen
詳細說明:全能圖像生成模型,涵蓋文本→圖、圖→圖、主體驅動生成、身份保留生成等多種任務,且 API 設計統一,方便整合至生產環境。
應用:電商產品圖、社媒創意圖、虛擬人像生成。
系統需求:16GB GPU
artist
原始套件名稱:fffiloni/Artist
詳細說明:零訓練圖像風格化工具,用戶僅需提供原圖與風格描述,Artist 即可融合彩色、紋理與風格元素,實現即時試色與風格遷移。
系統需求:8GB GPU
diffusers-image-fill
原始套件名稱:OzzyGT/diffusers-image-fill
詳細說明:基於 Hugging Face Diffusers 的圖像填充工具,可在移除指定物件後自動生成一致風格的背景,並可調整填充強度與細節層級。
系統需求:10GB GPU
InstantIR
原始套件名稱:fffiloni/InstantIR
詳細說明:即時圖像修復模型,支持恢復低解析或損壞圖像並根據文字提示進行重建。
用例:舊照片修復、失真圖像重建、藝術修復。
系統需求:8GB GPU
brushnet
原始套件名稱:TencentARC/BrushNet
詳細說明:雙分支抹除與擴散模型,針對圖像區域進行精細修補,支持複雜邊緣與紋理保留。
系統需求:12GB GPU
PCM
原始套件名稱:radames/Phased-Consistency-Model-PCM
詳細說明:兩步驟相位一致性擴散模型,兼具快速與高品質生成,適合需要即時反饋及微調效果的應用。
系統需求:8GB GPU
Ilaria-Upscaler-Zero
原始套件名稱:Ilaria-Upscaler-Zero
詳細說明:零樣本超分辨率模型,無需額外訓練即可對任何圖像進行最高 4x 放大並保留細節。
應用:電子商務高清圖、視頻幀升級、數位修復。
系統需求:6GB GPU
InvSR
原始套件名稱:InvSR
詳細說明:條件式擴散超分辨模型,提供 CLI 與 API,可批量放大數千張圖像,並內置多種強化預設。
系統需求:12GB GPU
SD-Next
原始套件名稱:SD-Next
詳細說明:Stable Diffusion 的下一代優化版本,增強紋理細節、色彩穩定性與生成效率。
系統需求:16GB GPU
LEDITS++
原始套件名稱:LEDITS++
詳細說明:無限制文本驅動圖像編輯工具,支持局部編輯、遮罩擴散與全圖重繪,可兼容多種擴散後端。
系統需求:10GB GPU
StyleAligned
原始套件名稱:Style-Aligned-Gen
詳細說明:透過共享注意力 (Shared Attention) 同步處理風格與內容,生成的圖像在視覺風格與結構保持方面達到最佳平衡。
系統需求:12GB GPU
ZeST
原始套件名稱:fffiloni/ZeST
詳細說明:零樣本材質轉換模型,僅需一張材質範例與目標圖,即可將該材質融入目標圖像中,適用於遊戲場景材質替換與設計提案。
系統需求:8GB GPU
Differential-Diffusion-UI
原始套件名稱:differential-diffusion
詳細說明:區域定向擴散編輯工具,用戶可上傳「變更量圖」指定各區域編輯強度,配合文字提示精準修改圖像。
系統需求:10GB GPU
flashdiffusion
原始套件名稱:flash-diffusion-project
詳細說明:以少於 10 步的快速採樣生成高品質圖像,支持多種條件與無條件生成。
系統需求:8GB GPU
illusion-diffusion-HQ
原始套件名稱:Illusion-Diffusion-HQ
詳細說明:專注於高品質圖像細節與色彩校正的擴散引擎,適合專業影像後製與廣告素材生成。
系統需求:16GB GPU
FramePack
原始套件名稱:lllyasviel/FramePack
詳細說明:逐段生成影片的下一幀預測網絡,採用分塊方式生成長影片,提高時序一致性與細節連貫性。支持批量處理與可視化預覽。
使用場景:動畫制作、短片生成、遊戲過場動畫。
系統需求:12GB GPU、Python 3.9+
PyramidFlow
原始套件名稱:jy0205/Pyramid-Flow
詳細說明:金字塔流架構的視頻生成模型,支持文本或多幀圖像條件輸入,能在不同解析度層級逐層生成,提升畫面穩定性與細節豐富度。
使用場景:影像特效、電影預覽、廣告內容制作。
系統需求:16GB GPU、FFMPEG
CogVideo (CogStudio)
原始套件名稱:THUDM/CogVideo
/cocktailpeanut/deeperhermes
詳細說明:支持文本→視頻、圖像→視頻、視頻續播與視頻來回編輯。CogStudio 提供高級 WebUI,允許用戶調整生成參數(幀率、分辨率、時長),並在生成過程中實時監控進度。
系統需求:10GB+ VRAM、Node.js、Gradio
VideoCrafter 2
原始套件名稱:AILab-CVC/VideoCrafter
詳細說明:集成 Text2Video 與 Image2Video 模型,並附帶影片剪輯、轉場、濾鏡與字幕功能的工具箱。支持多軌編輯與時間軸管理,適合專業內容創作者。
系統需求:14GB GPU、CUDA 11.4
HunyuanVideo
原始套件名稱:deepbeepmeep/HunyuanVideoGP
詳細說明:專為 5GB VRAM+ GPU 優化的 Hunyuan Video Gradio UI,可生成 10-14 秒高質量視頻,支持批量輸出與 JSON API 調用。
系統需求:6GB GPU、Gradio
Wan 2.1
原始套件名稱:deepbeepmeep/Wan2GP
詳細說明:低 GPU 資源下運行的 Wan2.1 Gradio UI,可生成最多 12 秒的視頻。內建緩存和模型分塊加載機制,適用入門級創作者。
系統需求:5GB GPU
Allegro-txt2vid
原始套件名稱:rhymes-ai/Allegro
詳細說明:使用 Allegro 模型根據文字描述生成視頻,支持調節幀率、分辨率與長度上限,可生成動態短片與廣告預覽。
系統需求:12GB GPU
LaVie
原始套件名稱:Vchitect/LaVie
詳細說明:開源 Text-to-Video 框架,提供多種生成策略(如時間編碼、拼接合成),並支持場景切換與對象跟踪。
系統需求:16GB GPU
Vid2DensePose / vid2pose / Video2Openpose
原始套件名稱:Flode-Labs/vid2densepose
;sdbds/vid2pose
;fffiloni/video2openpose2
詳細說明:將視頻轉為 DensePose、DWpose 或 OpenPose 表示,方便動畫骨架提取、動作捕捉與後續運動分析。
系統需求:8GB GPU
LivePortrait
原始套件名稱:KwaiVGI/LivePortrait
詳細說明:將靜態人臉照片生動化,支持面部表情與視線跟蹤,可輸出短視頻或動態貼圖。
系統需求:6GB GPU
cube
原始套件名稱:Roblox/cube
詳細說明:Roblox 基礎 3D 智能模型,能理解場景結構並生成初步 3D 物件,支持多平台部署(Mac/Windows/Linux)。
使用場景:遊戲原型設計、快速場景搭建、虛擬世界生成。
系統需求:16GB+ VRAM
Hunyuan3D-2-LowVRAM
原始套件名稱:deepbeepmeep/Hunyuan3D-2GP
詳細說明:基於大規模擴散的高解析度 3D 資產生成模型,經過低 VRAM 優化,可在 8GB GPU 上運行,支持 OBJ/GLTF 輸出。
系統需求:8GB GPU
dust3r
原始套件名稱:dust3r
詳細說明:易用的幾何 3D 視覺工具,支持點雲重建、網格細分與紋理貼圖流程。
使用場景:文化遺產修復、建築掃描、3D 打印前處理。
系統需求:無 GPU 要求,建議 16GB RAM
DetailGen3D
原始套件名稱:DetailGen3D
詳細說明:專為 Pinokio 平台打造的 3D 細節增強安裝腳本,自動下載並配置 DetailGen3D 模型,提升網格細節和貼圖品質。
系統需求:Pinokio 環境、12GB GPU
vfusion3d-pinokio
原始套件名稱:facebookresearch/vfusion3d
詳細說明:Facebook 研究團隊推出的視頻到 3D 合成腳本,能從單視角視頻中重建三維場景。
系統需求:Pinokio、12GB GPU
densediffusion.pinokio
原始套件名稱:naver-ai/DenseDiffusion
詳細說明:一鍵安裝 Naver AI 密集擴散 3D 模型,支持高質量網格生成與多種輸出格式。
系統需求:Pinokio、10GB GPU
Open WebUI
原始套件名稱:open-webui/open-webui
詳細說明:通用 LLM WebUI,支持 Ollama Runner、OpenAI-compatible API,提供多欄視圖、即時參數調整、聊天歷史與插件擴展。
系統需求:Node.js、Python 3.8、8GB RAM
Text Generation WebUI
原始套件名稱:oobabooga/text-generation-webui
詳細說明:Gradio 構建的 LLM 交互平台,提供模型切換、參數微調(溫度、top-k)、批量輸入與導出,適合研究與日常使用。
系統需求:Python 3.9、CUDA 11.1
Whisper-WebUI
原始套件名稱:Whisper-WebUI
詳細說明:基於 OpenAI Whisper 的語音識別與字幕工具,支持自動語言檢測、時間軸編輯與多格式導出 (SRT/JSON)。
系統需求:8GB GPU、FFMPEG
bolt.diy / bolt.new
原始套件名稱:stackblitz-labs/bolt.diy
詳細說明:瀏覽器內 AI 全棧 Web 應用生成平台,利用自然語言提示即時創建 CRUD、表單、API 端點,並支持一鍵部署到 Netlify。
系統需求:現代瀏覽器(Chrome/Edge)、互聯網連接
browser-use / macOS-use
原始套件名稱:browser-use/web-ui
;browser-use/macOS-use
詳細說明:AI 代理通過瀏覽器或 macOS 應用自動化操作網頁與桌面軟件,支持點擊、輸入、截圖等操作。
系統需求:Chrome 瀏覽器或 macOS 12+
SillyTavern
原始套件名稱:SillyTavern
詳細說明:本地化角色扮演式對話 UI,支持多角色設定、Markdown 格式消息、插件擴展與語音輸入。
系統需求:Node.js、Python 3.9
AutoGPT
原始套件名稱:Significant-Gravitas/AutoGPT
詳細說明:自主任務分解與執行代理,能讀寫本地文件、發送 API 請求、互動網頁並持續迭代。適用於自動市場分析、定期報表生成等場景。
系統需求:Python 3.8、OpenAI API Key
devika
原始套件名稱:stitionai/devika
詳細說明:AI 軟體工程師代理,擁有編寫程式、單元測試與除錯能力,能自動完成 GitHub Issue 與 PR。
系統需求:Python 3.10、Git
ai-git-developer
原始套件名稱:ai-git-developer
詳細說明:結合 ChatGPT 與 GitHub CLI 的雲端 AI 開發助手,可 clone 任意 Repo、執行代碼更改並自動發起 PR。
系統需求:Python 3.9、GitHub Token
ditto
原始套件名稱:yoheinakajima/ditto
詳細說明:最簡易的程式碼代理,根據提示自動生成、測試並提交程式碼片段,並可集成 CI/CD 流水線。
系統需求:Node.js、Python 3.9
superagi_pinokio
原始套件名稱:superagi_pinokio
詳細說明:Pinokio 平台上的多代理工作流示例,包括任務分配、結果集成與異常處理。
系統需求:Pinokio 環境
LocalAIVtuber
原始套件名稱:LocalAIVtuber
詳細說明:離線運行的虛擬主播解決方案,集成語音合成、面部追蹤與動畫輸出,適用於直播與短視頻內容。
系統需求:8GB GPU、OpenCV
AITown
原始套件名稱:a16z-infra/ai-town
詳細說明:虛擬小鎮模擬環境,AI 角色可聊天、執行腳本與互動,適合作為社交 AI 示範平台。
系統需求:Python 3.8、WebSocket
以下為 Pinokio 生態下一鍵安裝與腳本化套件示例,涵蓋 TTS、影像、影片、3D、代理等多領域,並已優化對應作業系統與硬體需求:
FramePack / FP-Studio / Frame-Pack
facefusion-pinokio / FaceFusion
MMAudio
DetailGen3D
VACE-Pinokio
Orpheus-TTS-FastAPI
MatAnyone
AudioX
Kokoro-TTS
RuinedFooocus
Index-TTS-Pinokio
Sana-Sprint-1.6B
StyleTTS2_Studio / StyleTTS2 Studio
Realtime-Transcription
TRELLIS
ComfyDock-Pinokio
KD-Talker
Advanced-RVC-Pinokio / RVC
LlasaTTS-windows
deeperhermes / Deeper Hermes
AnimateDiff / animatediff.pinokio
Diffusers-Image-Outpainting
Spark-TTS-Pinokio
clarity-refiners-ui
slides2video-pinokio-script
Ovis2-8B-
Florence-2-Image-Captioning
BEN2
Image-Upscale
Leffa
IC-Light-Ultimate-Studio
UVR5-UI-pinokio / UVR5-WebUI
Deepseek-ai-Janus-Pro-7B
InvSR
roop-unleashed
LatentSync-Pinokio
AdvancedLivePortraitWebUI
Allegro-ti2v-c
iopaint-pinokio
GLM4Voice
pinokio-computer-bolt.new
fish-speech / fish
SD-Next
illusion-diffusion-HQ
joy-caption-alpha-two-GUImod / joy-caption-alpha-2
whisper-large-v3
RVC-WebUI-Pinokio
TabbyAPI-Pinokio
StyleTTS-WebUI.pinokio
Dough-pinokio
peers-check
FlashFace
DatasetHelpers
kohya_ss
Taggui
vfusion3d-pinokio
ldm3d.pinokio
densediffusion.pinokio
VALL-E-X.pinokio
text-generation-webui.pinokio
pinokio-reforge
ai-git-developer
fooocus-API-pinokio
langflow.pinokio
VASR-for-Pinokio
OneTrainerPinokio
sdxs-pinokio
autogen-studio-pinokio
tutorial.pinokio
instructir.pinokio
comfyui.pinokio
audiocraft_plus.pinokio
facefusion.pinokio
sd-webui.pinokio
AudioLDM2.pinokio
superagi_pinokio
顯卡算力與VRAM比較表(採購參考)
GPU 型号 | 显存(VRAM) | AI TOPS |
---|---|---|
RTX 5090 | 32 GB GDDR7 | 架构峰值 4,000 TOPS |
RTX 5080 | 16 GB GDDR7 | 1,801 TOPS (eatyourbytes.com) |
RTX 5070 Ti | 16 GB GDDR7 | 1,406 TOPS |
RTX 5070 | 12 GB GDDR7 | 988 TOPS |
RTX 4090 | 24 GB GDDR6X | 1,321 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4080 Super | 16 GB GDDR6X | 836 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4080 | 16 GB GDDR6X | 780 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4070 Ti Super | 16 GB GDDR6X | 706 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4070 Ti | 12 GB GDDR6X | 641 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4070 Super | 12 GB GDDR6X | 568 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4070 | 12 GB GDDR6X | 466 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4060 Ti (8 GB/16 GB) | 8 GB / 16 GB GDDR6 | 353 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 4060 | 8 GB GDDR6 | 242 TOPS (小麦的杂货铺, eatyourbytes.com) |
RTX 3090 Ti | 24 GB GDDR6X | 320 TOPS (小麦的杂货铺) |
RTX 3090 | 24 GB GDDR6X | 284.7 TOPS (小麦的杂货铺) |
RTX 3080 Ti | 12 GB GDDR6X | 272.8 TOPS (小麦的杂货铺) |
RTX 3080 | 10 GB GDDR6X | 238.1 TOPS (小麦的杂货铺) |
RTX 3070 Ti | 8 GB GDDR6X | 174 TOPS (小麦的杂货铺) |
RTX 3070 | 8 GB GDDR6 | 162.5 TOPS (小麦的杂货铺) |
RTX 3060 Ti | 8 GB GDDR6 | 101 TOPS (小麦的杂货铺) |
RTX 3060 | 12 GB GDDR6 | 101 TOPS (小麦的杂货铺) |
2025/5/09(五)|花蓮智慧教育中心|限教師參加
教育現場挑戰不斷,需要創新教學法與科技工具並進。本研習結合 TRIZ 創新問題解決法 與 AIGC AI 生成工具,帶你從「設計思維」與「實作演練」雙軌出發,打造學生主動學習的未來課堂。
學會引導學生認識自己的學習歷程,從而提升主動學習能力。
透過實地模擬設計真實情境任務,學習如何設計跨領域解題活動。
以 AI 工具輔助教案規劃與創意生成,實踐當日即學即用。
逢甲大學電機系副教授、TRIZ 教學推廣專家,擁有豐富創新教學與 AI 融合實戰經驗,曾主持多項教育部創新教學計畫。
📌 敬請預留時間,報名資訊將於下週公告,敬請期待!
這不只是一場研習,而是讓教育現場發生改變的火種。加入我們,一起成為推動創新教學的關鍵力量!
比較Qwen2.5 14B 和Gemma3 12B模型 中小學生課堂或課輔運用聰明度夠
除了數學要用Qwen2.5比較好之外,其他都是Gemma3比較厲害
但是
以政治正確這件事看來
請都使用Gemma3 以免招罪
你可以把這張圖丟進AI,請他給你生圖用的英文prompt,這樣你就知道AI會怎麼描述這一張圖,然後就按照他的語法結構內容,去修改生你想要的圖就可以
這樣就可以學到知識背後的思維甚至是思維的框架和方法論
教學的核心 簡單化具體化 才能容易學會,這事抓到核心就好辦
現在進步的太快了,工具的技能不需要特別學,所以我也不是很主張要學Prompt的技術,因為AI會越來越厲害,所以我只要把問題講清楚,不會就問他就好
要產生類似你上傳這張圖的「雷切用剪影圖或線稿圖」(看起來像是幾何風格的星形線條圖案),你可以使用文字生成圖像工具(如DALL·E、Midjourney、Stable Diffusion 等)搭配特定的英文 prompt。以下是給你這張圖的英文 prompt,並補上撰寫這類 prompt 的關鍵技巧與關鍵詞:
"A minimal geometric star shape with double outlines, sharp edges, and a hollow center. Line art style, black lines on white background, symmetrical, suitable for laser cutting or stencil."
指定用途:加上 "suitable for laser cutting"、"for stencil art"、"vector style" 可以幫助 AI 理解你要的是剪影或線條圖。
風格描述:
"line art"(線條藝術)
"silhouette"(剪影)
"minimal"(簡約)
"geometric"(幾何)
視覺特徵:
"sharp edges"(銳角)
"double outlines"(雙重輪廓)
"hollow center"(中空中心)
"symmetrical"(對稱)
背景與對比:
"black lines on white background" 或 "high contrast black and white"
避免色彩與紋理(對於雷切不必要):
加上 "no color", "no shading", "no gradients"
中文 | 英文關鍵詞 |
---|---|
剪影 | silhouette |
線稿 | line art |
幾何圖案 | geometric pattern |
中空 | hollow |
雷射切割用圖案 | suitable for laser cutting |
單色 | monochrome |
對稱圖形 | symmetrical design |
尖角/星形結構 | sharp edges / star-shaped |
"star with 6 points" / "8-pointed star"
"mandala-style geometric outline"
"abstract shape resembling a star or flower"
需要我幫你生成一組 prompt 適用於 Midjourney 或 Stable Diffusion 的也可以告訴我~也能幫你直接產生圖。你目前是想自己產圖,還是要我幫你生一張?
114 年度花蓮縣AIGC資訊融入校園應用計畫
目的:
課程內容
預期效益:
工具有時候不只是工具
工具也能提供精神層次的重要價值
A1.art 對我而言不只是工具
人生做任何事都要找到說服自己的價值所在
你就會做得很開心
哪一個公務員在基本業務之外會去多要錢多做事
哪一個公務員會不厭其煩修改計畫和公文十多次
哪一個公務員會不怕長官碎碎念也要想辦法說服
一切都是因為看到孩子學不得法老師教不得要領
想讓孩子們過上輕鬆學又效果好的未來快樂生活
這樣的情況下,情緒管理極為重要
女生心情不好要換髮型
男生心情不好只要換頭貼即可
情緒是人生的重要課題
情緒處理好了百病不生人生順遂
換大頭貼會上癮
https://a1.art/zh-tw/v2ry?source=share&invitation=FIYUZDC
面對百變的人生每天都可以有不同的心情
https://www.facebook.com/media/set/?set=a.8209219149102081&type=3
114年3月 最新大語言模型(Agent AI 級別)
Manus 是由中國 Monica.im 團隊於 2025 年 3 月 6 日推出的全球首款通用型 AI Agent,旨在將使用者的想法轉化為行動。 citeturn0search10
主要特色:
自主任務執行: Manus 能夠自主理解並執行複雜任務,從目標設定到成果交付,展現出媲美人類專家的思考與行動能力。 citeturn0search7
多代理協同架構: 採用「規劃-執行-驗證」三代理協同模式,能夠將複雜任務自主拆解並並行處理,顯著提高任務執行效率。 citeturn0search5
工具調用能力: 可直接調用各種工具,如瀏覽器、代碼編輯器、數據分析工具等,將使用者的想法轉化為具體成果。 citeturn0search5
自主學習與動態優化: 根據使用者反饋和任務結果不斷學習和調整,優化工作方式,更好地滿足使用者需求。 citeturn0search5
應用場景:
高質量創作: 如名片設計、腳本創作、設計圖庫、定制音頻、製作課件等。 citeturn0search0
深度分析: 如股票分析、人口統計、旅行規劃、分析財報等。 citeturn0search0
個性化決策: 如房產選擇、對比保險、個性化參考等。 citeturn0search0
信息整理: 如製作日程表、整理課堂筆記、制定學習計劃、設計家庭關係表等。 citeturn0search0
信息審核: 如檢查合同、檢查財務報表等。 citeturn0search0
技術成就:
在 GAIA 基準測試中,Manus 取得了最新的 SOTA(State-of-the-Art)成績,這一測試旨在評估通用 AI 助手在現實世界中解決問題的能力。 citeturn0search4
市場反響:
Manus 的邀請碼在二手交易平台上被炒至高價,顯示出市場對其的高度關注和需求。 citeturn0search3
總而言之,Manus 作為全球首款通用型 AI Agent,憑藉其自主任務執行、多代理協同架構和強大的工具調用能力,在多個領域展現出廣泛的應用前景。
Flowith 是一個創新的 AI 生產力工具,旨在透過獨特的畫布式介面和先進的 AI 模型,提升用戶的工作效率和創造力。以下是 Flowith 平台的主要特色:
1. 畫布式交互介面 Flowith 採用基於節點的畫布介面,讓用戶能夠以視覺化方式組織和管理想法、任務和對話。這種多線程的交互方式,適合長內容生成和對比分析,提升了工作流程的靈活性。 citeturn0search4
2. 支援多種先進 AI 模型 平台整合了多種頂尖的 AI 模型,包括 GPT-4o、Claude 3.5、Gemini 2.0 Pro 等,滿足不同領域的需求,從文本生成到圖像創作,應用範圍廣泛。 citeturn0search4
3. Oracle AI 系統 Flowith 的 Oracle 系統是一個先進的 AI 代理框架,能夠自主規劃、拆分和完成複雜的任務,並支援無限的工具調用和自我優化,提升了任務執行的效率和品質。 citeturn0search4
4. 知識花園 該功能將用戶的文件、筆記和在線資源轉化為 AI 可理解的知識單元(Seeds),並自動建立知識間的關聯,形成動態生長的知識網絡,提升知識管理和檢索的效率。 citeturn0search4
5. 實時協作 Flowith 支援多用戶在同一畫布上實時協作,促進團隊合作和想法分享,提升協作效率。 citeturn0search4
6. 流模式 平台提供流模式,促進與 AI 的自由流暢、高效對話,提升生產力和創造力。 citeturn0search4
總而言之,Flowith 結合了創新的視覺介面和強大的 AI 功能,為用戶提供了一個靈活、高效的工作環境,適用於內容創作、研究分析、項目管理等多種場景。
Gemma 3 是 Google DeepMind 最新推出的多模態開源人工智慧模型,旨在為開發者提供高效且靈活的 AI 解決方案。以下是 Gemma 3 的主要特色:
1. 多模態處理能力 Gemma 3 支援文字、圖像和短影片的混合輸入,能夠執行複雜的多模態任務,例如圖像問答和影片內容分析。 citeturn0search5
2. 長上下文處理 該模型的上下文視窗擴展至 128K 個標記,使其能夠處理大量資訊,適用於需要長文本理解的應用場景。 citeturn0search5
3. 多語言支援 Gemma 3 原生支援超過 35 種語言,並在預訓練階段涵蓋超過 140 種語言,方便開發者構建面向全球使用者的應用程式。 citeturn0search5
4. 多種模型規模 提供 1B、4B、12B 和 27B 四種不同參數規模的模型,開發者可根據硬體和性能需求選擇合適的版本。 citeturn0search5
5. 單 GPU 優化 被譽為「全球最強的單加速器模型」,在單個 GPU 或 TPU 環境下的性能優於其他同類模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。 citeturn0search5
6. 安全特性 配備 ShieldGemma 2 圖像安全分類器,能檢測並標記危險內容、露骨內容和暴力內容,提升模型的安全性。 citeturn0search5
7. 開發工具支援 兼容多種開發工具和框架,包括 Hugging Face Transformers、Ollama、JAX、Keras 和 PyTorch,方便開發者進行模型微調和部署。 citeturn0search5
8. 部署選項多樣 支援在 Google AI Studio、Kaggle 等平台上快速體驗,或從 Hugging Face 等平台下載模型進行微調和部署。 citeturn0search5
總而言之,Gemma 3 結合了多模態處理、高效性能和廣泛的語言支援,為開發者提供了一個靈活且強大的 AI 平台,適用於各種應用場景。
Manus、Flowith.io 和 Gemma 3 是近期推出的三個先進人工智慧平台或模型,各具特色。以下是對這三者的比較:
1. Manus 平台
由中國 Monica.im 團隊於 2025 年 3 月 6 日推出,定位為全球首款通用型 AI Agent,旨在將使用者的想法轉化為行動。
自主任務執行:能夠自主理解並執行複雜任務,從目標設定到成果交付,展現出媲美人類專家的思考與行動能力。
多代理協同架構:採用「規劃-執行-驗證」三代理協同模式,能夠將複雜任務自主拆解並並行處理,顯著提高任務執行效率。
工具調用能力:可直接調用各種工具,如瀏覽器、代碼編輯器、數據分析工具等,將使用者的想法轉化為具體成果。
自主學習與動態優化:根據使用者反饋和任務結果不斷學習和調整,優化工作方式,更好地滿足使用者需求。
2. Flowith.io 平台
Flowith 是一個創新的 AI 生產力工具,透過獨特的畫布式介面和先進的 AI 模型,提升用戶的工作效率和創造力。
畫布式交互介面:採用基於節點的畫布介面,讓用戶以視覺化方式組織和管理想法、任務和對話,適合長內容生成和對比分析。
支援多種先進 AI 模型:整合多種頂尖 AI 模型,包括 GPT-4o、Claude 3.5、Gemini 2.0 Pro 等,滿足不同領域需求,從文本生成到圖像創作,應用範圍廣泛。
Oracle AI 系統:先進的 AI 代理框架,能夠自主規劃、拆分和完成複雜任務,並支援無限的工具調用和自我優化,提升任務執行的效率和品質。
知識花園:將用戶的文件、筆記和在線資源轉化為 AI 可理解的知識單元(Seeds),並自動建立知識間的關聯,形成動態生長的知識網絡,提升知識管理和檢索的效率。
3. Gemma 3 大模型
由 Google DeepMind 推出的多模態開源人工智慧模型,旨在為開發者提供高效且靈活的 AI 解決方案。
多模態處理能力:支援文字、圖像和短影片的混合輸入,能夠執行複雜的多模態任務,例如圖像問答和影片內容分析。
長上下文處理:上下文視窗擴展至 128K 個標記,使其能夠處理大量資訊,適用於需要長文本理解的應用場景。
多語言支援:原生支援超過 35 種語言,並在預訓練階段涵蓋超過 140 種語言,方便開發者構建面向全球使用者的應用程式。
多種模型規模:提供 1B、4B、12B 和 27B 四種不同參數規模的模型,開發者可根據硬體和性能需求選擇合適的版本。
單 GPU 優化:被譽為「全球最強的單加速器模型」,在單個 GPU 或 TPU 環境下的性能優於其他同類模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。
總結
這三個平台或模型各有優勢:
Manus:強調自主任務執行和多代理協同,適合需要高自主性和複雜任務處理的應用。
Flowith.io:提供創新的畫布式介面和多模型支援,適合需要視覺化組織和多樣化 AI 功能的用戶。
Gemma 3:作為多模態開源模型,具備強大的處理能力和靈活性,適合開發者進行多領域的 AI 應用開發。
選擇合適的平台或模型應根據具體需求和應用場景而定。