學習本地LLM最佳CP值顯卡採購指南
https://felo.ai/zh-Hant/slides/huvzUwrGMFUABTDzzbzfDK?modelType=PRO&invite=2mvaZRPEeDMXg
https://felo.ai/page/preview/fj9zse6Ez7UUp3dc6yscBW?business_type=AGENT_THREAD&invite=2mvaZRPEeDMXg
學習本地LLM最佳CP值顯卡採購指南
https://felo.ai/zh-Hant/slides/huvzUwrGMFUABTDzzbzfDK?modelType=PRO&invite=2mvaZRPEeDMXg
https://felo.ai/page/preview/fj9zse6Ez7UUp3dc6yscBW?business_type=AGENT_THREAD&invite=2mvaZRPEeDMXg
評測項目 | 說明 |
---|---|
ArenaHard | 綜合性難題問答評測,用來衡量模型在高難度任務下的推理能力。 |
AIME’24 / AIME’25 | 模擬數學競賽題目(AIME,American Invitational Mathematics Examination),用以測試模型之數學解題能力(AIME'25 更難)。 |
LiveCodeBench | 實際編碼能力評估,評測模型生成程式碼後能否成功執行並通過測資。 |
CodeForces (Elo Rating) | 模型在 Codeforces 類競程題目中的 Elo 等級分,數值愈高表示編程實力愈強。 |
GPQA | Graduate-level Physics QA,測試物理知識與推理能力。 |
LiveBench | 廣泛自然語言任務之基準測試集,涵蓋多種場景。 |
BFCL (v3) | 場景推理能力(類似常識推理)測試。 |
MultiIF (8 Languages) | 多語言邏輯推理能力(8種語言),測試跨語言的一致推理表現。 |
模型名稱 | 架構特性 | 模型大小 | 效能分析 |
---|---|---|---|
Qwen3-30B-A3B (MoE) | 混合專家架構(Mixture of Experts)僅激活部分參與計算的子模型,效率高 | 30B參數 | 各項目表現均優異,尤其在 ArenaHard、AIME、LiveCodeBench、BFCL 領先群雄 |
Qwen3-4B (Dense) | 緻密模型(Dense Model)全參數參與推理,推理速度穩定 | 4B參數(小模型) | 在相同參數規模中表現良好,但遠遜於 Qwen3-30B-A3B |
Gemma3-27B-IT | Google 出品,強調**指令微調(Instruct-tuned)**能力 | 27B參數 | 對話能力佳,但數學、編碼與推理(如 AIME、LiveCode)明顯不及 Qwen3-30B |
評測項目 | Qwen3-30B-A3B | Gemma3-27B-IT | 優勢模型 |
---|---|---|---|
AIME’24 | 80.4 | 32.6 | Qwen3(數學壓倒性勝出) |
LiveCodeBench | 62.6 | 26.9 | Qwen3 |
CodeForces | 1974 | 1063 | Qwen3 |
GPQA(物理) | 65.8 | 42.4 | Qwen3 |
LiveBench | 74.3 | 49.2 | Qwen3 |
從上述可知,Qwen3 系列在推理、數學、編程、物理等硬核任務表現出色,尤其是 **MoE 架構(Qwen3-30B-A3B)**具有高效率與高精度之雙重優勢。
AIME'24 / '25 的數據係取樣 64 次平均值,題目包含 30 題,顯示模型穩定性。
表中 Qwen3 模型未啟用 "think mode",若啟用可能更強。
BFCL 評測中,Qwen3 採 FC 格式作答,其他模型則取最大得分模式。
以下為來自阿里巴巴官方 Blog「Qwen3: Think Deeper, Act Faster」的精要摘要:
完整開源模型系統
Qwen3 系列模型皆於 2025 年 4 月發布,包含多款 Dense(緻密)與 MoE(Mixture‑of‑Experts,混合專家) 結構模型,從 0.6B 至 235B 規模皆可取得,全部採用 Apache 2.0 授權 (Qwen)。
智慧雙模式推理機制
模型支援「思考模式」(for complex reasoning)與「非思考模式」(for fast chat),可依任務難度動態切換;並提供「思考預算」設定,以在效能與速度間取得最佳平衡 (arXiv)。
卓越推理與多語能力
在數學、程式碼生成、常識推理等硬實力上,超越前代 Qwen2.5 與 QwQ 模型,在與 DeepSeek‑R1、Gemini‑2.5‑Pro 等競爭者的比拚中表現極佳 (Qwen)。
大規模與小型 MoE 模型
多語言與全球覆蓋
預訓練包含 36 兆 token,涵蓋 119 種語言與方言,支援跨語言理解與生成,提升全球應用性 (維基百科)。
可微調、代理與嵌入擴展
最近推出基於 Qwen3 的 Qwen3‑Coder(專精於 agentic coding 與高 context 長度支援)、Qwen3‑Embedding/Reranker(用於文本表徵與搜尋排序)等系列,均延續核心模型優勢 (Qwen)。
✅ 完整開源,Apache 2.0 授權,促進研究與社群應用。
✅ 混合推理架構:具思考與非思考模式、自主思考預算調控。
✅ 效能領先:在程式、數學、推理任務上表現超群。
✅ MoE 結構雙雄:235B 與 30B 模型兼顧性能與成本效益。
✅ 語言支援全面:訓練涵蓋超過 100 種語言 / 方言。
✅ 生態延伸豐富:Coder、Embedding 系列提升實作與工具整合能力。
開源輕量模型,適用單卡運行
Gemma 3 系列由 DeepMind 推出,為輕量開源模型,可於單張 GPU/TPU 上執行,適用筆電、桌機甚至手機(blog.google)。
多種模型規模
提供 1B、4B、12B、27B 四種參數規模,皆有預訓練(pre‑trained)與指令微調(instruct‑tuned,簡稱 IT)版本(Hugging Face)。
支援多語與長文理解能力
除 1B 外,其餘模型支持 140+ 種語言 的多語處理,且擁有 128K tokens 超長上下文視窗(1B 版為 32K)(Hugging Face)。
具備多模態理解能力
除 1B 外皆可處理 圖像與文本輸入,整合定制的 SigLIP 視覺編碼器,將影像壓縮為固定 256 向量編碼,並採用 Pan & Scan 技術處理不同解析度與比例(Google 開發者部落格)。
記憶體優化與混合注意力架構
採用 local/global attention 混合架構,具備每 5 層 local attention(跨度 1024 tokens)緊接一層 global attention,以避免 KV-cache 隨長上下文劇增(Google Cloud Storage)。
卓越性能表現
在 LMArena Chatbot Arena Elo 評分中,Gemma 3‑27B‑IT 表現與 Gemini‑1.5‑Pro 相當,並優於 DeepSeek‑V3、Llama3‑405B 等同類型模型(blog.google)。
透過知識蒸餾與指令微調流程,如 RLHF、RLMF、RLEF 等提升數學、推理、程式與聊天能力(Google 開發者部落格)。
完善開發者生態支援
模型與文檔整合 Hugging Face、Ollama、Gemma.cpp、JAX、PyTorch 等平台,可透過 Google GenAI API、Vertex AI、Cloud Run、本地部署等方式使用;提供 ShieldGemma 2(4B)圖像安全分類模型作為配套模型(blog.google)。
✅ 常見參數尺寸:1B / 4B / 12B / 27B
✅ 超長上下文能力:最高至 128K tokens
✅ 多模態支援:除了 1B,均支援圖文輸入
✅ 多語能力強大:涵蓋 140+ 語言
✅ 混合注意力架構:local/global 混合設計
✅ 指令微調模型(IT)具備高性能,部分版本性能堪比 Gemini 系列
✅ 廣泛工具與平台整合,包括安全模型 ShieldGemma 2
要想得到你想要的的東西,最可靠的辦法是讓你自己配得上它。
一個由來自不同學科的最重要思維模型構成的網絡,幫助我們從多個維度理解世界本質。
「反過來想,永遠反過來想」。在追求成功前,先思考如何避免失敗,這能幫我們避開致命陷阱。
投資:與其問「如何才能賺大錢?」,不如先問「如何才能虧大錢?」(答案:借錢投機、追漲殺跌等),然後避開這些行為。
人生:與其問「如何獲得幸福?」,不如先問「如何才能讓生活一團糟?」(答案:染上毒癮、眾叛親離等),然後避開這些選擇。
避免愚蠢比追求卓越更重要。
聰明人也無法豁免根深蒂固的心理傾向。芒格總結了25個導致誤判的標準原因。
應用:建立檢查清單,在重大決策前逐一反思,避免落入心理陷阱。
你不再是一個被動的資訊接收者,你成了一個主動的模式識別者,一個擁有全套工具的總工程師。
生圖速度稍微慢,但繪圖非常地精美細節豐富,4步以上即可生精美圖形20步以上更精美,可以生英文字,看不懂中文的指令
是對岸的模型,可以理解中文的prompt,而且可以畫出英文字,畫圖的精細程度取決於你的指令下的好不好,指令下得好繪圖的品質就不錯
以下是 Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件,以及它們的主要功能與特色:
資料來源:套件列表摘自官方 README (GitHub)
套件名稱 | 簡介與特色 |
---|---|
Stable Diffusion WebUI reForge | 一款基於 AUTOMATIC1111 的強化分支,加入了多項性能優化和插件支援。Stability Matrix 可一鍵安裝/更新,並自動處理相依套件與版本管理。(GitHub) |
Stable Diffusion WebUI Forge | AUTOMATIC1111 的另一分支,專注於 GPU 加速與自訂化介面。透過 Stability Matrix 可快速切換 Forge 與原版 WebUI,並保持多個環境並存。(GitHub) |
Stable Diffusion WebUI AMDGPU Forge | 為 AMD GPU 使用者打造的專用分支,集成了 ROCm 支援。透過自動偵測環境,Stability Matrix 能自動安裝必要驅動與相依。(GitHub) |
Automatic1111 | 最受歡迎的 Web UI,具備廣泛的插件生態與自動標註、批次生圖功能。透過 Stability Matrix,可無痛安裝、更新所有衍生插件,並管理 Python 相依套件。(GitHub) |
Automatic1111 DirectML | 基於 DirectML(Windows 上的跨 GPU API)構建的 Automatic1111 版本,適用於沒有 CUDA 的設備。Stability Matrix 自動下載並配置 DirectML backend。(GitHub) |
SD Web UI‑UX | 強調使用者體驗與介面美化的 Web UI,整合了預覽窗格、即時參數調整面板等功能。Stability Matrix 可管理其前端資源與 CSS 模組。(GitHub) |
SD.Next | 在 SD Web UI‑UX 基礎上加入更多進階功能(如多任務排程、進度儀表板)。Stability Matrix 允許你在多個 SD.Next 專案間快速切換。(GitHub) |
Fooocus | 由社群開發的輕量級推理介面,專注於低資源消耗與簡易擴充。Stability Matrix 支援多種 Fooocus 分支:– Fooocus MRE– Fooocus ControlNet SDXL– Ruined Fooocus– Fooocus – mashb1t’s 1‑Up Edition可一鍵新增插件與模型路徑。(GitHub) |
SimpleSDXL | 精簡版 SDXL Web UI,專為大模型設計的前端。同樣可透過 Stability Matrix 自動管理大型檢查點(checkpoint)與相依。(GitHub) |
ComfyUI | 節點式流程編輯介面,適合構建複雜管線(pipeline)。Stability Matrix 可以同步佈署 ComfyUI 節點庫、節點模板與版本控制。(GitHub) |
StableSwarmUI | 分散式推理管理介面,支援多節點協同運算。Stability Matrix 會配置佈署參數並統一管理多台機器的連線資訊。(GitHub) |
VoltaML | 集成 VoltaML 推理框架的 UI,強化推理效能。透過 Stability Matrix,使用者可輕鬆安裝 VoltaML runtime 并管理版本。(GitHub) |
InvokeAI | 另一款廣受好評的 CLI/GUI 混合介面,適合喜歡指令行操作的使用者。Stability Matrix 可將其二進位檔與相依封裝起來,並支援多版本並存。(GitHub) |
SDFX | 集成多款後處理濾鏡與批量特效處理的 UI。透過 Stability Matrix,你能夠一鍵為每個專案套用 SDFX 插件,並維持各插件的設定一致性。(GitHub) |
Kohya’s GUI | 專為訓練與微調(fine-tuning)設計的 UI,整合了 Kohya_ss 相關訓練函式庫。Stability Matrix 可自動管理 GPU 設定及相依環境。(GitHub) |
OneTrainer | 面向大規模模型訓練的統一介面,支援分布式訓練。Stability Matrix 支援群集佈署與資源監控插件。(GitHub) |
FluxGym | 與 FluxML 生態整合的深度學習 UI,特化於 Flux 框架。Stability Matrix 可同時管理 PyTorch/Flux 等多種後端。(GitHub) |
CogVideo via CogStudio | 以 CogVideo 為核心的多媒體生成 UI,適合影片推理。Stability Matrix 會自動佈署 CogStudio 並配置 GPU 資源分配。(GitHub) |
此外,Stability Matrix 本身也提供了多項跨套件共用功能:
嵌入式 Git 與 Python 相依管理,無需全域安裝就能一鍵同步更新版本與套件。
可攜式資料目錄,可將 .smdata
目錄移至任意磁碟或電腦,並無痛繼續使用。
內建 Inference UI:語法高亮、命令列與拖放式畫廊,所有套件共用同一介面。
檢查點(Checkpoint)與模型瀏覽器:支援 CivitAI、HuggingFace 自動匯入並顯示預覽縮圖,可暫停/續傳。
透過 Stability Matrix,使用者只需一次設定,即可管理上述各類 Stable Diffusion 與相關訓練、推理工具,並享有版本控制、依賴處理與便捷 UI 的完整體驗。
以下依功能簡易分類,並對所有套件內容提供詳細說明,包含使用場景、主要功能、系統需求與特色:
Dia
原始套件名稱:nari-labs/dia
詳細說明:Dia 是一個擁有 1.6B 參數的對話式 TTS 模型,專注於生成擬人化、節奏自然的對話語音。它支援在文字中標註情緒(如歡樂、悲傷、憤怒)以調整語調與語速,並能夠產生笑聲、咳嗽、清嗓等非語音效果。適用於虛擬角色配音、遊戲對話及互動式語音助理。
系統需求:12GB GPU、Python 3.8+
Orpheus-TTS-FastAPI
原始套件名稱:canopyai/Orpheus-TTS
詳細說明:基於 Llama-3b 之上訓練的開源 TTS 系統,利用 LLM 的上下文理解能力提升語音自然度。內建多語者與語調切換功能,並可透過 FastAPI 部署為 RESTful 服務,實時回應文字合成請求。
使用場景:客服機器人、語音播報、智慧助理微服務。
系統需求:16GB GPU、FastAPI、PyTorch 2.0
zonos
原始套件名稱:Zyphra/Zonos
詳細說明:訓練於超過 200k 小時多語種資料的開源 TTS,支持八種語言(英、法、德、中文、日、韓、阿拉伯、西班牙)。具備情感建模與口音仿真能力,並提供簡易 API 供一鍵部署。
適用領域:國際化語音產品、有聲書製作、多語客服。
系統需求:10GB GPU、Transformers 庫
fish
原始套件名稱:fishaudio/fish-speech
詳細說明:多語種 TTS 平台,涵蓋主要語言並內建「聲音克隆」功能,只需數秒錄音即可模擬該語者風格。支援 SSML,可插入停頓、音量與動畫效果標記。
用例:虛擬主播、跨國企業培訓、教育教材自動語音化。
系統需求:8GB GPU、CUDA 11.3
MeloTTS
原始套件名稱:myshell-ai/MeloTTS
詳細說明:採用擴散與流匹配技術,生成高品質、接近自然人聲的多語 TTS,支持英、西、法、中、日、韓等六種語言,並可切換多種音色風格(新聞播報、溫暖廣播、角色配音)。
系統需求:12GB GPU
使用場景:有聲書平臺、教育應用、智能導航語音。
e2-f5-tts
原始套件名稱:mrfakename/E2-F5-TTS
詳細說明:以「Flow Matching」為基礎的新一代 TTS 模型,兼顧真實度與速度,內建降噪機制可減少背景噪音。提供命令行工具與 Python SDK,可調速、調高音頻參數。
系統需求:8GB GPU
parler-tts
原始套件名稱:parler-tts/parler_tts_mini
詳細說明:輕量級 TTS 引擎,模型僅數十 MB,適合邊緣設備與嵌入式系統。可透過命令行指定說話速度、音高、混響與背景噪音等參數。
系統需求:無 GPU 也能運行,建議 CPU 4 核以上。
Spark-TTS
原始套件名稱:Spark-TTS
詳細說明:集成語音合成與聲音克隆功能的工具包,提供 GUI 與 CLI 雙界面,支援 Windows、Linux 平台。可自定義多角色音色,並通過微調生成特定角色語音。
使用場景:直播配音、動畫配音、角色扮演語音服務。
系統需求:16GB GPU
XTTS
原始套件名稱:coqui/xtts
詳細說明:零樣本聲音克隆模型,僅需 3 秒音頻樣本即可模仿該語者的聲音風格,並支持跨語言發聲。常用於虛擬主播、遊戲 NPC 配音、角色扮演。
系統需求:8GB GPU
RVC
原始套件名稱:RVC-Project/Retrieval-based-Voice-Conversion-WebUI
詳細說明:檢索基聲音轉換技術,可將輸入音頻轉換為目標語者的聲音,並保留語調與節奏一致性。WebUI 介面讓非技術用戶可簡單操作。
系統需求:10GB GPU
Bark Voice Cloning
原始套件名稱:fffiloni/instant-TTS-Bark-cloning
詳細說明:基於 Bark TTS 架構的聲音克隆方案,需提供至少 20 秒清錄 WAV 即可生成自訂 TTS 模型,並可在本地離線生成語音。
系統需求:12GB GPU
alltalk-tts
原始套件名稱:alltalk-tts
詳細說明:整合多種主流 TTS(E5-TTS、XTTS、Piper、Piper TTS、Parler TTS、RVC),提供統一 UI、低 VRAM 支援、DeepSpeed 加速與模型微調功能。
系統需求:8GB+ VRAM GPU
DiffRhythm
原始套件名稱:ASLP-lab/DiffRhythm
詳細說明:基於擴散模型的歌曲生成系統,可輸出長度達 4 分 45 秒的音樂,並支持帶歌詞或純樂模式。可輸入旋律片段、和弦進行或歌詞提示,自動生成完整曲目。
使用場景:獨立音樂人作曲、遊戲背景音樂、短影片配樂。
系統需求:12GB GPU
MAGNeT
原始套件名稱:facebookresearch/audiocraft
詳細說明:Meta AudioCraft 的文字→音樂與文字→音效模組,能根據文字描述生成多種風格的音樂片段(古典、流行、電子等),並可調節節奏與樂器配置。
系統需求:16GB GPU
StableAudio
原始套件名稱:Stability-AI/stable-audio-tools
詳細說明:Stability AI 推出的開源音頻設計套件,內含音樂合成、音效生成與樣本混合功能,提供 Python API 與 CLI。
使用場景:廣告音效製作、遊戲音頻開發、音頻後期處理。
AudioSep
原始套件名稱:Audio-AGI/AudioSep
詳細說明:文字驅動的通用音頻分離工具,僅需文字描述(如「提取人聲」、「分離鼓聲」)即可將音軌分離為多個成分,並保持時間一致性。
系統需求:10GB GPU
MMAudio
原始套件名稱:hkchengrex/MMAudio
詳細說明:結合影片與文字輸入生成同步音頻,能自動匹配影像內容並添加解說、配樂或環境聲效。
應用:企業宣傳片配音、教學影片自動配音、社交媒體短片。
UVR5-WebUI
原始套件名稱:UVR5-WebUI
詳細說明:基於 UVR5 模型的音訊分離 WebUI,支援分離聲樂、伴奏、環境音等多軌,並可選擇不同分離精度。
系統需求:8GB GPU
ZETA
原始套件名稱:hilamanor/audioEditing
詳細說明:零樣本文本編輯音頻工具,基於 DDPM 反演可對音訊進行增減聲源、去噪與剪輯,並可導入至 DAW 軟件進行後製。
應用:Podcast 後製、語音訊號修復、音效剪輯。
ComfyUI
原始套件名稱:comfyanonymous/ComfyUI
詳細說明:以可視化節點圖方式構建擴散模型管線,用戶可自由組合文本編碼、圖像解碼、後處理等節點。支持插件擴展、批量處理與自定義節點開發。
系統需求:12GB GPU
omnigen
原始套件名稱:Shitao/OmniGen
詳細說明:全能圖像生成模型,涵蓋文本→圖、圖→圖、主體驅動生成、身份保留生成等多種任務,且 API 設計統一,方便整合至生產環境。
應用:電商產品圖、社媒創意圖、虛擬人像生成。
系統需求:16GB GPU
artist
原始套件名稱:fffiloni/Artist
詳細說明:零訓練圖像風格化工具,用戶僅需提供原圖與風格描述,Artist 即可融合彩色、紋理與風格元素,實現即時試色與風格遷移。
系統需求:8GB GPU
diffusers-image-fill
原始套件名稱:OzzyGT/diffusers-image-fill
詳細說明:基於 Hugging Face Diffusers 的圖像填充工具,可在移除指定物件後自動生成一致風格的背景,並可調整填充強度與細節層級。
系統需求:10GB GPU
InstantIR
原始套件名稱:fffiloni/InstantIR
詳細說明:即時圖像修復模型,支持恢復低解析或損壞圖像並根據文字提示進行重建。
用例:舊照片修復、失真圖像重建、藝術修復。
系統需求:8GB GPU
brushnet
原始套件名稱:TencentARC/BrushNet
詳細說明:雙分支抹除與擴散模型,針對圖像區域進行精細修補,支持複雜邊緣與紋理保留。
系統需求:12GB GPU
PCM
原始套件名稱:radames/Phased-Consistency-Model-PCM
詳細說明:兩步驟相位一致性擴散模型,兼具快速與高品質生成,適合需要即時反饋及微調效果的應用。
系統需求:8GB GPU
Ilaria-Upscaler-Zero
原始套件名稱:Ilaria-Upscaler-Zero
詳細說明:零樣本超分辨率模型,無需額外訓練即可對任何圖像進行最高 4x 放大並保留細節。
應用:電子商務高清圖、視頻幀升級、數位修復。
系統需求:6GB GPU
InvSR
原始套件名稱:InvSR
詳細說明:條件式擴散超分辨模型,提供 CLI 與 API,可批量放大數千張圖像,並內置多種強化預設。
系統需求:12GB GPU
SD-Next
原始套件名稱:SD-Next
詳細說明:Stable Diffusion 的下一代優化版本,增強紋理細節、色彩穩定性與生成效率。
系統需求:16GB GPU
LEDITS++
原始套件名稱:LEDITS++
詳細說明:無限制文本驅動圖像編輯工具,支持局部編輯、遮罩擴散與全圖重繪,可兼容多種擴散後端。
系統需求:10GB GPU
StyleAligned
原始套件名稱:Style-Aligned-Gen
詳細說明:透過共享注意力 (Shared Attention) 同步處理風格與內容,生成的圖像在視覺風格與結構保持方面達到最佳平衡。
系統需求:12GB GPU
ZeST
原始套件名稱:fffiloni/ZeST
詳細說明:零樣本材質轉換模型,僅需一張材質範例與目標圖,即可將該材質融入目標圖像中,適用於遊戲場景材質替換與設計提案。
系統需求:8GB GPU
Differential-Diffusion-UI
原始套件名稱:differential-diffusion
詳細說明:區域定向擴散編輯工具,用戶可上傳「變更量圖」指定各區域編輯強度,配合文字提示精準修改圖像。
系統需求:10GB GPU
flashdiffusion
原始套件名稱:flash-diffusion-project
詳細說明:以少於 10 步的快速採樣生成高品質圖像,支持多種條件與無條件生成。
系統需求:8GB GPU
illusion-diffusion-HQ
原始套件名稱:Illusion-Diffusion-HQ
詳細說明:專注於高品質圖像細節與色彩校正的擴散引擎,適合專業影像後製與廣告素材生成。
系統需求:16GB GPU
FramePack
原始套件名稱:lllyasviel/FramePack
詳細說明:逐段生成影片的下一幀預測網絡,採用分塊方式生成長影片,提高時序一致性與細節連貫性。支持批量處理與可視化預覽。
使用場景:動畫制作、短片生成、遊戲過場動畫。
系統需求:12GB GPU、Python 3.9+
PyramidFlow
原始套件名稱:jy0205/Pyramid-Flow
詳細說明:金字塔流架構的視頻生成模型,支持文本或多幀圖像條件輸入,能在不同解析度層級逐層生成,提升畫面穩定性與細節豐富度。
使用場景:影像特效、電影預覽、廣告內容制作。
系統需求:16GB GPU、FFMPEG
CogVideo (CogStudio)
原始套件名稱:THUDM/CogVideo
/cocktailpeanut/deeperhermes
詳細說明:支持文本→視頻、圖像→視頻、視頻續播與視頻來回編輯。CogStudio 提供高級 WebUI,允許用戶調整生成參數(幀率、分辨率、時長),並在生成過程中實時監控進度。
系統需求:10GB+ VRAM、Node.js、Gradio
VideoCrafter 2
原始套件名稱:AILab-CVC/VideoCrafter
詳細說明:集成 Text2Video 與 Image2Video 模型,並附帶影片剪輯、轉場、濾鏡與字幕功能的工具箱。支持多軌編輯與時間軸管理,適合專業內容創作者。
系統需求:14GB GPU、CUDA 11.4
HunyuanVideo
原始套件名稱:deepbeepmeep/HunyuanVideoGP
詳細說明:專為 5GB VRAM+ GPU 優化的 Hunyuan Video Gradio UI,可生成 10-14 秒高質量視頻,支持批量輸出與 JSON API 調用。
系統需求:6GB GPU、Gradio
Wan 2.1
原始套件名稱:deepbeepmeep/Wan2GP
詳細說明:低 GPU 資源下運行的 Wan2.1 Gradio UI,可生成最多 12 秒的視頻。內建緩存和模型分塊加載機制,適用入門級創作者。
系統需求:5GB GPU
Allegro-txt2vid
原始套件名稱:rhymes-ai/Allegro
詳細說明:使用 Allegro 模型根據文字描述生成視頻,支持調節幀率、分辨率與長度上限,可生成動態短片與廣告預覽。
系統需求:12GB GPU
LaVie
原始套件名稱:Vchitect/LaVie
詳細說明:開源 Text-to-Video 框架,提供多種生成策略(如時間編碼、拼接合成),並支持場景切換與對象跟踪。
系統需求:16GB GPU
Vid2DensePose / vid2pose / Video2Openpose
原始套件名稱:Flode-Labs/vid2densepose
;sdbds/vid2pose
;fffiloni/video2openpose2
詳細說明:將視頻轉為 DensePose、DWpose 或 OpenPose 表示,方便動畫骨架提取、動作捕捉與後續運動分析。
系統需求:8GB GPU
LivePortrait
原始套件名稱:KwaiVGI/LivePortrait
詳細說明:將靜態人臉照片生動化,支持面部表情與視線跟蹤,可輸出短視頻或動態貼圖。
系統需求:6GB GPU
cube
原始套件名稱:Roblox/cube
詳細說明:Roblox 基礎 3D 智能模型,能理解場景結構並生成初步 3D 物件,支持多平台部署(Mac/Windows/Linux)。
使用場景:遊戲原型設計、快速場景搭建、虛擬世界生成。
系統需求:16GB+ VRAM
Hunyuan3D-2-LowVRAM
原始套件名稱:deepbeepmeep/Hunyuan3D-2GP
詳細說明:基於大規模擴散的高解析度 3D 資產生成模型,經過低 VRAM 優化,可在 8GB GPU 上運行,支持 OBJ/GLTF 輸出。
系統需求:8GB GPU
dust3r
原始套件名稱:dust3r
詳細說明:易用的幾何 3D 視覺工具,支持點雲重建、網格細分與紋理貼圖流程。
使用場景:文化遺產修復、建築掃描、3D 打印前處理。
系統需求:無 GPU 要求,建議 16GB RAM
DetailGen3D
原始套件名稱:DetailGen3D
詳細說明:專為 Pinokio 平台打造的 3D 細節增強安裝腳本,自動下載並配置 DetailGen3D 模型,提升網格細節和貼圖品質。
系統需求:Pinokio 環境、12GB GPU
vfusion3d-pinokio
原始套件名稱:facebookresearch/vfusion3d
詳細說明:Facebook 研究團隊推出的視頻到 3D 合成腳本,能從單視角視頻中重建三維場景。
系統需求:Pinokio、12GB GPU
densediffusion.pinokio
原始套件名稱:naver-ai/DenseDiffusion
詳細說明:一鍵安裝 Naver AI 密集擴散 3D 模型,支持高質量網格生成與多種輸出格式。
系統需求:Pinokio、10GB GPU
Open WebUI
原始套件名稱:open-webui/open-webui
詳細說明:通用 LLM WebUI,支持 Ollama Runner、OpenAI-compatible API,提供多欄視圖、即時參數調整、聊天歷史與插件擴展。
系統需求:Node.js、Python 3.8、8GB RAM
Text Generation WebUI
原始套件名稱:oobabooga/text-generation-webui
詳細說明:Gradio 構建的 LLM 交互平台,提供模型切換、參數微調(溫度、top-k)、批量輸入與導出,適合研究與日常使用。
系統需求:Python 3.9、CUDA 11.1
Whisper-WebUI
原始套件名稱:Whisper-WebUI
詳細說明:基於 OpenAI Whisper 的語音識別與字幕工具,支持自動語言檢測、時間軸編輯與多格式導出 (SRT/JSON)。
系統需求:8GB GPU、FFMPEG
bolt.diy / bolt.new
原始套件名稱:stackblitz-labs/bolt.diy
詳細說明:瀏覽器內 AI 全棧 Web 應用生成平台,利用自然語言提示即時創建 CRUD、表單、API 端點,並支持一鍵部署到 Netlify。
系統需求:現代瀏覽器(Chrome/Edge)、互聯網連接
browser-use / macOS-use
原始套件名稱:browser-use/web-ui
;browser-use/macOS-use
詳細說明:AI 代理通過瀏覽器或 macOS 應用自動化操作網頁與桌面軟件,支持點擊、輸入、截圖等操作。
系統需求:Chrome 瀏覽器或 macOS 12+
SillyTavern
原始套件名稱:SillyTavern
詳細說明:本地化角色扮演式對話 UI,支持多角色設定、Markdown 格式消息、插件擴展與語音輸入。
系統需求:Node.js、Python 3.9
AutoGPT
原始套件名稱:Significant-Gravitas/AutoGPT
詳細說明:自主任務分解與執行代理,能讀寫本地文件、發送 API 請求、互動網頁並持續迭代。適用於自動市場分析、定期報表生成等場景。
系統需求:Python 3.8、OpenAI API Key
devika
原始套件名稱:stitionai/devika
詳細說明:AI 軟體工程師代理,擁有編寫程式、單元測試與除錯能力,能自動完成 GitHub Issue 與 PR。
系統需求:Python 3.10、Git
ai-git-developer
原始套件名稱:ai-git-developer
詳細說明:結合 ChatGPT 與 GitHub CLI 的雲端 AI 開發助手,可 clone 任意 Repo、執行代碼更改並自動發起 PR。
系統需求:Python 3.9、GitHub Token
ditto
原始套件名稱:yoheinakajima/ditto
詳細說明:最簡易的程式碼代理,根據提示自動生成、測試並提交程式碼片段,並可集成 CI/CD 流水線。
系統需求:Node.js、Python 3.9
superagi_pinokio
原始套件名稱:superagi_pinokio
詳細說明:Pinokio 平台上的多代理工作流示例,包括任務分配、結果集成與異常處理。
系統需求:Pinokio 環境
LocalAIVtuber
原始套件名稱:LocalAIVtuber
詳細說明:離線運行的虛擬主播解決方案,集成語音合成、面部追蹤與動畫輸出,適用於直播與短視頻內容。
系統需求:8GB GPU、OpenCV
AITown
原始套件名稱:a16z-infra/ai-town
詳細說明:虛擬小鎮模擬環境,AI 角色可聊天、執行腳本與互動,適合作為社交 AI 示範平台。
系統需求:Python 3.8、WebSocket
以下為 Pinokio 生態下一鍵安裝與腳本化套件示例,涵蓋 TTS、影像、影片、3D、代理等多領域,並已優化對應作業系統與硬體需求:
FramePack / FP-Studio / Frame-Pack
facefusion-pinokio / FaceFusion
MMAudio
DetailGen3D
VACE-Pinokio
Orpheus-TTS-FastAPI
MatAnyone
AudioX
Kokoro-TTS
RuinedFooocus
Index-TTS-Pinokio
Sana-Sprint-1.6B
StyleTTS2_Studio / StyleTTS2 Studio
Realtime-Transcription
TRELLIS
ComfyDock-Pinokio
KD-Talker
Advanced-RVC-Pinokio / RVC
LlasaTTS-windows
deeperhermes / Deeper Hermes
AnimateDiff / animatediff.pinokio
Diffusers-Image-Outpainting
Spark-TTS-Pinokio
clarity-refiners-ui
slides2video-pinokio-script
Ovis2-8B-
Florence-2-Image-Captioning
BEN2
Image-Upscale
Leffa
IC-Light-Ultimate-Studio
UVR5-UI-pinokio / UVR5-WebUI
Deepseek-ai-Janus-Pro-7B
InvSR
roop-unleashed
LatentSync-Pinokio
AdvancedLivePortraitWebUI
Allegro-ti2v-c
iopaint-pinokio
GLM4Voice
pinokio-computer-bolt.new
fish-speech / fish
SD-Next
illusion-diffusion-HQ
joy-caption-alpha-two-GUImod / joy-caption-alpha-2
whisper-large-v3
RVC-WebUI-Pinokio
TabbyAPI-Pinokio
StyleTTS-WebUI.pinokio
Dough-pinokio
peers-check
FlashFace
DatasetHelpers
kohya_ss
Taggui
vfusion3d-pinokio
ldm3d.pinokio
densediffusion.pinokio
VALL-E-X.pinokio
text-generation-webui.pinokio
pinokio-reforge
ai-git-developer
fooocus-API-pinokio
langflow.pinokio
VASR-for-Pinokio
OneTrainerPinokio
sdxs-pinokio
autogen-studio-pinokio
tutorial.pinokio
instructir.pinokio
comfyui.pinokio
audiocraft_plus.pinokio
facefusion.pinokio
sd-webui.pinokio
AudioLDM2.pinokio
superagi_pinokio