2025年8月15日 星期五

學習本地LLM最佳CP值顯卡採購指南

學習本地LLM最佳CP值顯卡採購指南

https://felo.ai/zh-Hant/slides/huvzUwrGMFUABTDzzbzfDK?modelType=PRO&invite=2mvaZRPEeDMXg


https://felo.ai/page/preview/fj9zse6Ez7UUp3dc6yscBW?business_type=AGENT_THREAD&invite=2mvaZRPEeDMXg

2025年8月5日 星期二

Qwen3 or Gemma3 誰勝出?

先說結論

  • 要在公家單位或要看圖用唯一選擇Gemma3
  • 要在家自用選Qwen3

評測項目 說明
ArenaHard 綜合性難題問答評測,用來衡量模型在高難度任務下的推理能力。
AIME’24 / AIME’25 模擬數學競賽題目(AIME,American Invitational Mathematics Examination),用以測試模型之數學解題能力(AIME'25 更難)。
LiveCodeBench 實際編碼能力評估,評測模型生成程式碼後能否成功執行並通過測資。
CodeForces (Elo Rating) 模型在 Codeforces 類競程題目中的 Elo 等級分,數值愈高表示編程實力愈強。
GPQA Graduate-level Physics QA,測試物理知識與推理能力。
LiveBench 廣泛自然語言任務之基準測試集,涵蓋多種場景。
BFCL (v3) 場景推理能力(類似常識推理)測試。
MultiIF (8 Languages) 多語言邏輯推理能力(8種語言),測試跨語言的一致推理表現。

🧠 二、Qwen3 系列與 Gemma3 系列差異分析

模型名稱 架構特性 模型大小 效能分析
Qwen3-30B-A3B (MoE) 混合專家架構(Mixture of Experts)僅激活部分參與計算的子模型,效率高 30B參數 各項目表現均優異,尤其在 ArenaHard、AIME、LiveCodeBench、BFCL 領先群雄
Qwen3-4B (Dense) 緻密模型(Dense Model)全參數參與推理,推理速度穩定 4B參數(小模型) 在相同參數規模中表現良好,但遠遜於 Qwen3-30B-A3B
Gemma3-27B-IT Google 出品,強調**指令微調(Instruct-tuned)**能力 27B參數 對話能力佳,但數學、編碼與推理(如 AIME、LiveCode)明顯不及 Qwen3-30B

📊 三、性能比較示例(精選項目)

評測項目 Qwen3-30B-A3B Gemma3-27B-IT 優勢模型
AIME’24 80.4 32.6 Qwen3(數學壓倒性勝出)
LiveCodeBench 62.6 26.9 Qwen3
CodeForces 1974 1063 Qwen3
GPQA(物理) 65.8 42.4 Qwen3
LiveBench 74.3 49.2 Qwen3

從上述可知,Qwen3 系列推理、數學、編程、物理等硬核任務表現出色,尤其是 **MoE 架構(Qwen3-30B-A3B)**具有高效率與高精度之雙重優勢。


🧾 附註說明(來自圖表下方)

  1. AIME'24 / '25 的數據係取樣 64 次平均值,題目包含 30 題,顯示模型穩定性。

  2. 表中 Qwen3 模型未啟用 "think mode",若啟用可能更強。

  3. BFCL 評測中,Qwen3 採 FC 格式作答,其他模型則取最大得分模式。

以下為來自阿里巴巴官方 Blog「Qwen3: Think Deeper, Act Faster」的精要摘要:




🌟 Qwen3 重點總覽

  1. 完整開源模型系統
    Qwen3 系列模型皆於 2025 年 4 月發布,包含多款 Dense(緻密)與 MoE(Mixture‑of‑Experts,混合專家) 結構模型,從 0.6B 至 235B 規模皆可取得,全部採用 Apache 2.0 授權 (Qwen)。

  2. 智慧雙模式推理機制
    模型支援「思考模式」(for complex reasoning)與「非思考模式」(for fast chat),可依任務難度動態切換;並提供「思考預算」設定,以在效能與速度間取得最佳平衡 (arXiv)。

  3. 卓越推理與多語能力
    在數學、程式碼生成、常識推理等硬實力上,超越前代 Qwen2.5 與 QwQ 模型,在與 DeepSeek‑R1、Gemini‑2.5‑Pro 等競爭者的比拚中表現極佳 (Qwen)。

  4. 大規模與小型 MoE 模型

    • Qwen3‑235B‑A22B:總參數 235B,推理時啟動約 22B;

    • Qwen3‑30B‑A3B:總 30B,啟動約 3B。
      這兩款 MoE 模型相較 dense 模型在效率與計算成本方面具明顯優勢 (Qwen, arXiv)。

  5. 多語言與全球覆蓋
    預訓練包含 36 兆 token,涵蓋 119 種語言與方言,支援跨語言理解與生成,提升全球應用性 (維基百科)。

  6. 可微調、代理與嵌入擴展
    最近推出基於 Qwen3 的 Qwen3‑Coder(專精於 agentic coding 與高 context 長度支援)、Qwen3‑Embedding/Reranker(用於文本表徵與搜尋排序)等系列,均延續核心模型優勢 (Qwen)。


🧭 概括要點(條列)

  • 完整開源,Apache 2.0 授權,促進研究與社群應用。

  • 混合推理架構:具思考與非思考模式、自主思考預算調控。

  • 效能領先:在程式、數學、推理任務上表現超群。

  • MoE 結構雙雄:235B 與 30B 模型兼顧性能與成本效益。

  • 語言支援全面:訓練涵蓋超過 100 種語言 / 方言。

  • 生態延伸豐富:Coder、Embedding 系列提升實作與工具整合能力。




🌟 Gemma 3 重點總覽

  1. 開源輕量模型,適用單卡運行
    Gemma 3 系列由 DeepMind 推出,為輕量開源模型,可於單張 GPU/TPU 上執行,適用筆電、桌機甚至手機(blog.google)。

  2. 多種模型規模
    提供 1B、4B、12B、27B 四種參數規模,皆有預訓練(pre‑trained)與指令微調(instruct‑tuned,簡稱 IT)版本(Hugging Face)。

  3. 支援多語與長文理解能力
    除 1B 外,其餘模型支持 140+ 種語言 的多語處理,且擁有 128K tokens 超長上下文視窗(1B 版為 32K)(Hugging Face)。

  4. 具備多模態理解能力
    除 1B 外皆可處理 圖像與文本輸入,整合定制的 SigLIP 視覺編碼器,將影像壓縮為固定 256 向量編碼,並採用 Pan & Scan 技術處理不同解析度與比例(Google 開發者部落格)。

  5. 記憶體優化與混合注意力架構
    採用 local/global attention 混合架構,具備每 5 層 local attention(跨度 1024 tokens)緊接一層 global attention,以避免 KV-cache 隨長上下文劇增(Google Cloud Storage)。

  6. 卓越性能表現
    在 LMArena Chatbot Arena Elo 評分中,Gemma 3‑27B‑IT 表現與 Gemini‑1.5‑Pro 相當,並優於 DeepSeek‑V3、Llama3‑405B 等同類型模型(blog.google)。
    透過知識蒸餾與指令微調流程,如 RLHF、RLMF、RLEF 等提升數學、推理、程式與聊天能力(Google 開發者部落格)。

  7. 完善開發者生態支援
    模型與文檔整合 Hugging Face、Ollama、Gemma.cpp、JAX、PyTorch 等平台,可透過 Google GenAI API、Vertex AI、Cloud Run、本地部署等方式使用;提供 ShieldGemma 2(4B)圖像安全分類模型作為配套模型(blog.google)。


📄 概覽重點條列

  • 常見參數尺寸:1B / 4B / 12B / 27B

  • 超長上下文能力:最高至 128K tokens

  • 多模態支援:除了 1B,均支援圖文輸入

  • 多語能力強大:涵蓋 140+ 語言

  • 混合注意力架構:local/global 混合設計

  • 指令微調模型(IT)具備高性能,部分版本性能堪比 Gemini 系列

  • 廣泛工具與平台整合,包括安全模型 ShieldGemma 2


2025年7月20日 星期日

《窮查理寶典》

《窮查理寶典》

智慧心智圖

要想得到你想要的的東西,最可靠的辦法是讓你自己配得上它。

1. 思維的局限:問題的根源

  • 過去的誤區:痴迷於各種「術」,瘋狂追逐碎片化知識,導致「知識的富裕性貧困」。
  • 鐵鎚人傾向:「對於一個只有一把鐵鎚的人來說,他遇見的每一個問題看起來都像一顆釘子。」
  • 危害:習慣用單一領域的專業知識分析所有問題,導致思維僵化,無法看清全貌。

2. 核心理念:如何構建智慧

▾ 多元思維模型 (Latticework of Mental Models)

一個由來自不同學科的最重要思維模型構成的網絡,幫助我們從多個維度理解世界本質。

▾ 逆向思維 (Inversion)

「反過來想,永遠反過來想」。在追求成功前,先思考如何避免失敗,這能幫我們避開致命陷阱。

核心理念一:多元思維模型

  • 是什麼?大約100個來自不同學科的核心模型組成的「智慧格柵」。
  • 為什麼重要?避免「盲人摸象」,成為主動的模式識別者。

▾ 如何構建?

  1. 跨界閱讀:刻意閱讀不熟悉領域的基礎學科經典。
  2. 聯想整合:主動思考新知識與已知模型的聯繫,建立連接。
  3. 把書當索引:遇到問題時,回頭查閱書中相關的思維模型。

核心理念二:逆向思維

  • 精髓:成功的路徑複雜多變,但失敗的路徑清晰且相似。
  • 應用:它是一個強大的「決策過濾器」。

▾ 應用舉例

投資:與其問「如何才能賺大錢?」,不如先問「如何才能虧大錢?」(答案:借錢投機、追漲殺跌等),然後避開這些行為。

人生:與其問「如何獲得幸福?」,不如先問「如何才能讓生活一團糟?」(答案:染上毒癮、眾叛親離等),然後避開這些選擇。

3. 關鍵智慧:人類誤判心理學

避免愚蠢比追求卓越更重要。

聰明人也無法豁免根深蒂固的心理傾向。芒格總結了25個導致誤判的標準原因。

▾ 部分心理傾向舉例 (點擊展開)

  • 激勵機制的超級力量:訴諸利益而非理性。
  • 喜好/厭惡傾向:偏愛自己喜歡的人事物。
  • 避免懷疑傾向:大腦討厭不確定性,傾向快速決策。
  • 社會認同傾向:從眾心理。

應用:建立檢查清單,在重大決策前逐一反思,避免落入心理陷阱。

4. 最終目標:成為人生的總工程師

  • 打破專業壁壘:從「專才」的狹窄隧道,走向「通才」的遼闊平原。
  • 智慧的真諦:不在於擁有多少知識的點,而是在於能否在點之間建立強大而多元的**網絡**。
  • 本書的角色:它是一個起點,一個工具箱,一場思維的體操。
你不再是一個被動的資訊接收者,你成了一個主動的模式識別者,一個擁有全套工具的總工程師。

2025年7月15日 星期二

ComfyUI裡面那些工作流裡常見的繪圖模型功能簡介

Flux 

生圖速度稍微慢,但繪圖非常地精美細節豐富,4步以上即可生精美圖形20步以上更精美,可以生英文字,看不懂中文的指令


Flux Kontext

多模態輸入支援:可同時輸入文字(英文prompt)+圖片可產出英文字局部精修能力強:能精準調整局部內容(如換車色、改臉表情),不會影響整體畫面 ,角色/物件一致性高:即使多輪編輯,也能保留人物五官特徵、構圖位置 ,風格轉換/文字識別能力:支援不同風格應用與圖片中文字精準修改(需在指令中加雙引號避混淆)

SD3.5 

常見的較新版的模型,繪圖精美,速度還行,不能產生英文字,看不懂中文的指令


SDXL 

常見的較新版的很棒的模型,繪圖精美,速度還行,不能產生英文字,看不懂中文的指令


SDXL TURBO 

1步生圖5步過頭,畫圖超級快品質也還行,不能產生英文字,看不懂中文的指令


HiDream

是對岸的模型,可以理解中文的prompt,而且可以畫出英文字,畫圖的精細程度取決於你的指令下的好不好,指令下得好繪圖的品質就不錯


Omnigen2

是對岸的模型可以理解中文的prompt,而且可以畫出英文字畫圖的精細程度取決於你的指令下的好不好,指令下得好繪圖的品質就不錯




Cosmos Predict2 

文生图NVIDIA 推出的新一代物理世界基础模型,专为物理 AI 场景下的高质量视觉生成与预测任务设计。 该模型具备极高的物理准确性、环境交互性和细节还原能力,能够真实模拟复杂的物理现象与动态场景。
模型不大畫圖蠻快,真實世界的繪圖細節還不錯,但prompt的不能下中文,可以畫英文字


Chroma 

还在不断更新他们的模型,目前沒有進一步資料,模型挺大的畫圖有點慢,但prompt的不能下中文,也不能畫英文字







2025年5月14日 星期三

想畫圖不會下prompt?這招讓你徹底擺脫使用所有AI 的焦慮!生圖或對話問答都好用!

【範例】
夏天,咱什麼事都沒做,桌底下就提供源源不斷的暖爐
CPU+GPU+外接SSD硬碟自己就不知道在噜甚麼
這時候最期望的就是聽見中央空調冷氣開始送風的聲音
那"ㄘ"的一常聲,就可以聽見整個單位歡呼起來 


想畫個圖表示一下自己的感想又不知道怎樣下Prompt:

先來亂下個prompt作為對照組:

"創作圖像 天氣炎熱,桌下的電腦主機不斷的發熱,汗流浹背,盯著天花板上的中央空調,好想開冷氣"


這就是一般能力者的境界,想更好,要請教高人

畫好之後請GPT幫忙改個prompt

"我想生圖不會下prompt,你幫我把這個場景的細節描述得誇張些"創作圖像 天氣炎熱,桌下的電腦主機不斷的發熱,汗流浹背,盯著天花板上的中央空調,好想開冷氣",給我新的prompt"

GPT給了
"A hyper-realistic digital illustration of an overheated office in the middle of a scorching summer day. A man sits at his desk, drenched in sweat, his soaked shirt clinging to his back. Under the desk, a glowing-hot computer tower radiates heat like a furnace, warping the air around it. The man’s face is twisted in desperation, his eyes fixed on the ceiling where a sleek, modern central air conditioning unit remains cruelly turned off. Sweat drips from his forehead, pooling on the desk beside a half-melted iced coffee. The atmosphere is thick and shimmering with heatwaves, creating a surreal, almost hellish environment of unbearable warmth and longing for relief"

讓他直接生圖,你就發現自己畫圖程度提升了!!!


簡直就是神作完美表達我想要的意境,然後依他的建議加油添醋或是自己要求就好



真的,不要有prompt焦慮,只要會這兩招
元問題、和請GPT教你協助你即可
AI 已經很聰明了,不需要特定的語法或語詞



2025年5月5日 星期一

Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件名稱與說明

以下是 Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件,以及它們的主要功能與特色:

資料來源:套件列表摘自官方 README (GitHub)

套件名稱 簡介與特色
Stable Diffusion WebUI reForge 一款基於 AUTOMATIC1111 的強化分支,加入了多項性能優化和插件支援。Stability Matrix 可一鍵安裝/更新,並自動處理相依套件與版本管理。(GitHub)
Stable Diffusion WebUI Forge AUTOMATIC1111 的另一分支,專注於 GPU 加速與自訂化介面。透過 Stability Matrix 可快速切換 Forge 與原版 WebUI,並保持多個環境並存。(GitHub)
Stable Diffusion WebUI AMDGPU Forge 為 AMD GPU 使用者打造的專用分支,集成了 ROCm 支援。透過自動偵測環境,Stability Matrix 能自動安裝必要驅動與相依。(GitHub)
Automatic1111 最受歡迎的 Web UI,具備廣泛的插件生態與自動標註、批次生圖功能。透過 Stability Matrix,可無痛安裝、更新所有衍生插件,並管理 Python 相依套件。(GitHub)
Automatic1111 DirectML 基於 DirectML(Windows 上的跨 GPU API)構建的 Automatic1111 版本,適用於沒有 CUDA 的設備。Stability Matrix 自動下載並配置 DirectML backend。(GitHub)
SD Web UI‑UX 強調使用者體驗與介面美化的 Web UI,整合了預覽窗格、即時參數調整面板等功能。Stability Matrix 可管理其前端資源與 CSS 模組。(GitHub)
SD.Next 在 SD Web UI‑UX 基礎上加入更多進階功能(如多任務排程、進度儀表板)。Stability Matrix 允許你在多個 SD.Next 專案間快速切換。(GitHub)
Fooocus 由社群開發的輕量級推理介面,專注於低資源消耗與簡易擴充。Stability Matrix 支援多種 Fooocus 分支:– Fooocus MREFooocus ControlNet SDXLRuined FooocusFooocus – mashb1t’s 1‑Up Edition可一鍵新增插件與模型路徑。(GitHub)
SimpleSDXL 精簡版 SDXL Web UI,專為大模型設計的前端。同樣可透過 Stability Matrix 自動管理大型檢查點(checkpoint)與相依。(GitHub)
ComfyUI 節點式流程編輯介面,適合構建複雜管線(pipeline)。Stability Matrix 可以同步佈署 ComfyUI 節點庫、節點模板與版本控制。(GitHub)
StableSwarmUI 分散式推理管理介面,支援多節點協同運算。Stability Matrix 會配置佈署參數並統一管理多台機器的連線資訊。(GitHub)
VoltaML 集成 VoltaML 推理框架的 UI,強化推理效能。透過 Stability Matrix,使用者可輕鬆安裝 VoltaML runtime 并管理版本。(GitHub)
InvokeAI 另一款廣受好評的 CLI/GUI 混合介面,適合喜歡指令行操作的使用者。Stability Matrix 可將其二進位檔與相依封裝起來,並支援多版本並存。(GitHub)
SDFX 集成多款後處理濾鏡與批量特效處理的 UI。透過 Stability Matrix,你能夠一鍵為每個專案套用 SDFX 插件,並維持各插件的設定一致性。(GitHub)
Kohya’s GUI 專為訓練與微調(fine-tuning)設計的 UI,整合了 Kohya_ss 相關訓練函式庫。Stability Matrix 可自動管理 GPU 設定及相依環境。(GitHub)
OneTrainer 面向大規模模型訓練的統一介面,支援分布式訓練。Stability Matrix 支援群集佈署與資源監控插件。(GitHub)
FluxGym 與 FluxML 生態整合的深度學習 UI,特化於 Flux 框架。Stability Matrix 可同時管理 PyTorch/Flux 等多種後端。(GitHub)
CogVideo via CogStudio 以 CogVideo 為核心的多媒體生成 UI,適合影片推理。Stability Matrix 會自動佈署 CogStudio 並配置 GPU 資源分配。(GitHub)

此外,Stability Matrix 本身也提供了多項跨套件共用功能:

  1. 嵌入式 Git 與 Python 相依管理,無需全域安裝就能一鍵同步更新版本與套件。

  2. 可攜式資料目錄,可將 .smdata 目錄移至任意磁碟或電腦,並無痛繼續使用。

  3. 內建 Inference UI:語法高亮、命令列與拖放式畫廊,所有套件共用同一介面。

  4. 檢查點(Checkpoint)與模型瀏覽器:支援 CivitAI、HuggingFace 自動匯入並顯示預覽縮圖,可暫停/續傳。

  5. 多語系介面:已由社群翻譯成中/英/日/西/法等多國語言。(GitHub, GitHub)

透過 Stability Matrix,使用者只需一次設定,即可管理上述各類 Stable Diffusion 與相關訓練、推理工具,並享有版本控制、依賴處理與便捷 UI 的完整體驗。

Pinokio 所有套件名稱與內容說明

以下依功能簡易分類,並對所有套件內容提供詳細說明,包含使用場景、主要功能、系統需求與特色:


一、文字轉語音(TTS)

  • Dia
    原始套件名稱:nari-labs/dia
    詳細說明:Dia 是一個擁有 1.6B 參數的對話式 TTS 模型,專注於生成擬人化、節奏自然的對話語音。它支援在文字中標註情緒(如歡樂、悲傷、憤怒)以調整語調與語速,並能夠產生笑聲、咳嗽、清嗓等非語音效果。適用於虛擬角色配音、遊戲對話及互動式語音助理。
    系統需求:12GB GPU、Python 3.8+

  • Orpheus-TTS-FastAPI
    原始套件名稱:canopyai/Orpheus-TTS
    詳細說明:基於 Llama-3b 之上訓練的開源 TTS 系統,利用 LLM 的上下文理解能力提升語音自然度。內建多語者與語調切換功能,並可透過 FastAPI 部署為 RESTful 服務,實時回應文字合成請求。
    使用場景:客服機器人、語音播報、智慧助理微服務。
    系統需求:16GB GPU、FastAPI、PyTorch 2.0

  • zonos
    原始套件名稱:Zyphra/Zonos
    詳細說明:訓練於超過 200k 小時多語種資料的開源 TTS,支持八種語言(英、法、德、中文、日、韓、阿拉伯、西班牙)。具備情感建模與口音仿真能力,並提供簡易 API 供一鍵部署。
    適用領域:國際化語音產品、有聲書製作、多語客服。
    系統需求:10GB GPU、Transformers 庫

  • fish
    原始套件名稱:fishaudio/fish-speech
    詳細說明:多語種 TTS 平台,涵蓋主要語言並內建「聲音克隆」功能,只需數秒錄音即可模擬該語者風格。支援 SSML,可插入停頓、音量與動畫效果標記。
    用例:虛擬主播、跨國企業培訓、教育教材自動語音化。
    系統需求:8GB GPU、CUDA 11.3

  • MeloTTS
    原始套件名稱:myshell-ai/MeloTTS
    詳細說明:採用擴散與流匹配技術,生成高品質、接近自然人聲的多語 TTS,支持英、西、法、中、日、韓等六種語言,並可切換多種音色風格(新聞播報、溫暖廣播、角色配音)。
    系統需求:12GB GPU
    使用場景:有聲書平臺、教育應用、智能導航語音。

  • e2-f5-tts
    原始套件名稱:mrfakename/E2-F5-TTS
    詳細說明:以「Flow Matching」為基礎的新一代 TTS 模型,兼顧真實度與速度,內建降噪機制可減少背景噪音。提供命令行工具與 Python SDK,可調速、調高音頻參數。
    系統需求:8GB GPU

  • parler-tts
    原始套件名稱:parler-tts/parler_tts_mini
    詳細說明:輕量級 TTS 引擎,模型僅數十 MB,適合邊緣設備與嵌入式系統。可透過命令行指定說話速度、音高、混響與背景噪音等參數。
    系統需求:無 GPU 也能運行,建議 CPU 4 核以上。

  • Spark-TTS
    原始套件名稱:Spark-TTS
    詳細說明:集成語音合成與聲音克隆功能的工具包,提供 GUI 與 CLI 雙界面,支援 Windows、Linux 平台。可自定義多角色音色,並通過微調生成特定角色語音。
    使用場景:直播配音、動畫配音、角色扮演語音服務。
    系統需求:16GB GPU

  • XTTS
    原始套件名稱:coqui/xtts
    詳細說明:零樣本聲音克隆模型,僅需 3 秒音頻樣本即可模仿該語者的聲音風格,並支持跨語言發聲。常用於虛擬主播、遊戲 NPC 配音、角色扮演。
    系統需求:8GB GPU

  • RVC
    原始套件名稱:RVC-Project/Retrieval-based-Voice-Conversion-WebUI
    詳細說明:檢索基聲音轉換技術,可將輸入音頻轉換為目標語者的聲音,並保留語調與節奏一致性。WebUI 介面讓非技術用戶可簡單操作。
    系統需求:10GB GPU

  • Bark Voice Cloning
    原始套件名稱:fffiloni/instant-TTS-Bark-cloning
    詳細說明:基於 Bark TTS 架構的聲音克隆方案,需提供至少 20 秒清錄 WAV 即可生成自訂 TTS 模型,並可在本地離線生成語音。
    系統需求:12GB GPU

  • alltalk-tts
    原始套件名稱:alltalk-tts
    詳細說明:整合多種主流 TTS(E5-TTS、XTTS、Piper、Piper TTS、Parler TTS、RVC),提供統一 UI、低 VRAM 支援、DeepSpeed 加速與模型微調功能。
    系統需求:8GB+ VRAM GPU


二、音樂與音效生成/編輯

  • DiffRhythm
    原始套件名稱:ASLP-lab/DiffRhythm
    詳細說明:基於擴散模型的歌曲生成系統,可輸出長度達 4 分 45 秒的音樂,並支持帶歌詞或純樂模式。可輸入旋律片段、和弦進行或歌詞提示,自動生成完整曲目。
    使用場景:獨立音樂人作曲、遊戲背景音樂、短影片配樂。
    系統需求:12GB GPU

  • MAGNeT
    原始套件名稱:facebookresearch/audiocraft
    詳細說明:Meta AudioCraft 的文字→音樂與文字→音效模組,能根據文字描述生成多種風格的音樂片段(古典、流行、電子等),並可調節節奏與樂器配置。
    系統需求:16GB GPU

  • StableAudio
    原始套件名稱:Stability-AI/stable-audio-tools
    詳細說明:Stability AI 推出的開源音頻設計套件,內含音樂合成、音效生成與樣本混合功能,提供 Python API 與 CLI。
    使用場景:廣告音效製作、遊戲音頻開發、音頻後期處理。

  • AudioSep
    原始套件名稱:Audio-AGI/AudioSep
    詳細說明:文字驅動的通用音頻分離工具,僅需文字描述(如「提取人聲」、「分離鼓聲」)即可將音軌分離為多個成分,並保持時間一致性。
    系統需求:10GB GPU

  • MMAudio
    原始套件名稱:hkchengrex/MMAudio
    詳細說明:結合影片與文字輸入生成同步音頻,能自動匹配影像內容並添加解說、配樂或環境聲效。
    應用:企業宣傳片配音、教學影片自動配音、社交媒體短片。

  • UVR5-WebUI
    原始套件名稱:UVR5-WebUI
    詳細說明:基於 UVR5 模型的音訊分離 WebUI,支援分離聲樂、伴奏、環境音等多軌,並可選擇不同分離精度。
    系統需求:8GB GPU

  • ZETA
    原始套件名稱:hilamanor/audioEditing
    詳細說明:零樣本文本編輯音頻工具,基於 DDPM 反演可對音訊進行增減聲源、去噪與剪輯,並可導入至 DAW 軟件進行後製。
    應用:Podcast 後製、語音訊號修復、音效剪輯。


三、影像生成與擴散(Diffusion)

  • ComfyUI
    原始套件名稱:comfyanonymous/ComfyUI
    詳細說明:以可視化節點圖方式構建擴散模型管線,用戶可自由組合文本編碼、圖像解碼、後處理等節點。支持插件擴展、批量處理與自定義節點開發。
    系統需求:12GB GPU

  • omnigen
    原始套件名稱:Shitao/OmniGen
    詳細說明:全能圖像生成模型,涵蓋文本→圖、圖→圖、主體驅動生成、身份保留生成等多種任務,且 API 設計統一,方便整合至生產環境。
    應用:電商產品圖、社媒創意圖、虛擬人像生成。
    系統需求:16GB GPU

  • artist
    原始套件名稱:fffiloni/Artist
    詳細說明:零訓練圖像風格化工具,用戶僅需提供原圖與風格描述,Artist 即可融合彩色、紋理與風格元素,實現即時試色與風格遷移。
    系統需求:8GB GPU

  • diffusers-image-fill
    原始套件名稱:OzzyGT/diffusers-image-fill
    詳細說明:基於 Hugging Face Diffusers 的圖像填充工具,可在移除指定物件後自動生成一致風格的背景,並可調整填充強度與細節層級。
    系統需求:10GB GPU

  • InstantIR
    原始套件名稱:fffiloni/InstantIR
    詳細說明:即時圖像修復模型,支持恢復低解析或損壞圖像並根據文字提示進行重建。
    用例:舊照片修復、失真圖像重建、藝術修復。
    系統需求:8GB GPU

  • brushnet
    原始套件名稱:TencentARC/BrushNet
    詳細說明:雙分支抹除與擴散模型,針對圖像區域進行精細修補,支持複雜邊緣與紋理保留。
    系統需求:12GB GPU

  • PCM
    原始套件名稱:radames/Phased-Consistency-Model-PCM
    詳細說明:兩步驟相位一致性擴散模型,兼具快速與高品質生成,適合需要即時反饋及微調效果的應用。
    系統需求:8GB GPU

  • Ilaria-Upscaler-Zero
    原始套件名稱:Ilaria-Upscaler-Zero
    詳細說明:零樣本超分辨率模型,無需額外訓練即可對任何圖像進行最高 4x 放大並保留細節。
    應用:電子商務高清圖、視頻幀升級、數位修復。
    系統需求:6GB GPU

  • InvSR
    原始套件名稱:InvSR
    詳細說明:條件式擴散超分辨模型,提供 CLI 與 API,可批量放大數千張圖像,並內置多種強化預設。
    系統需求:12GB GPU

  • SD-Next
    原始套件名稱:SD-Next
    詳細說明:Stable Diffusion 的下一代優化版本,增強紋理細節、色彩穩定性與生成效率。
    系統需求:16GB GPU

  • LEDITS++
    原始套件名稱:LEDITS++
    詳細說明:無限制文本驅動圖像編輯工具,支持局部編輯、遮罩擴散與全圖重繪,可兼容多種擴散後端。
    系統需求:10GB GPU

  • StyleAligned
    原始套件名稱:Style-Aligned-Gen
    詳細說明:透過共享注意力 (Shared Attention) 同步處理風格與內容,生成的圖像在視覺風格與結構保持方面達到最佳平衡。
    系統需求:12GB GPU

  • ZeST
    原始套件名稱:fffiloni/ZeST
    詳細說明:零樣本材質轉換模型,僅需一張材質範例與目標圖,即可將該材質融入目標圖像中,適用於遊戲場景材質替換與設計提案。
    系統需求:8GB GPU

  • Differential-Diffusion-UI
    原始套件名稱:differential-diffusion
    詳細說明:區域定向擴散編輯工具,用戶可上傳「變更量圖」指定各區域編輯強度,配合文字提示精準修改圖像。
    系統需求:10GB GPU

  • flashdiffusion
    原始套件名稱:flash-diffusion-project
    詳細說明:以少於 10 步的快速採樣生成高品質圖像,支持多種條件與無條件生成。
    系統需求:8GB GPU

  • illusion-diffusion-HQ
    原始套件名稱:Illusion-Diffusion-HQ
    詳細說明:專注於高品質圖像細節與色彩校正的擴散引擎,適合專業影像後製與廣告素材生成。
    系統需求:16GB GPU

五、影片生成與處理

  • FramePack
    原始套件名稱:lllyasviel/FramePack
    詳細說明:逐段生成影片的下一幀預測網絡,採用分塊方式生成長影片,提高時序一致性與細節連貫性。支持批量處理與可視化預覽。
    使用場景:動畫制作、短片生成、遊戲過場動畫。
    系統需求:12GB GPU、Python 3.9+

  • PyramidFlow
    原始套件名稱:jy0205/Pyramid-Flow
    詳細說明:金字塔流架構的視頻生成模型,支持文本或多幀圖像條件輸入,能在不同解析度層級逐層生成,提升畫面穩定性與細節豐富度。
    使用場景:影像特效、電影預覽、廣告內容制作。
    系統需求:16GB GPU、FFMPEG

  • CogVideo (CogStudio)
    原始套件名稱:THUDM/CogVideococktailpeanut/deeperhermes
    詳細說明:支持文本→視頻、圖像→視頻、視頻續播與視頻來回編輯。CogStudio 提供高級 WebUI,允許用戶調整生成參數(幀率、分辨率、時長),並在生成過程中實時監控進度。
    系統需求:10GB+ VRAM、Node.js、Gradio

  • VideoCrafter 2
    原始套件名稱:AILab-CVC/VideoCrafter
    詳細說明:集成 Text2Video 與 Image2Video 模型,並附帶影片剪輯、轉場、濾鏡與字幕功能的工具箱。支持多軌編輯與時間軸管理,適合專業內容創作者。
    系統需求:14GB GPU、CUDA 11.4

  • HunyuanVideo
    原始套件名稱:deepbeepmeep/HunyuanVideoGP
    詳細說明:專為 5GB VRAM+ GPU 優化的 Hunyuan Video Gradio UI,可生成 10-14 秒高質量視頻,支持批量輸出與 JSON API 調用。
    系統需求:6GB GPU、Gradio

  • Wan 2.1
    原始套件名稱:deepbeepmeep/Wan2GP
    詳細說明:低 GPU 資源下運行的 Wan2.1 Gradio UI,可生成最多 12 秒的視頻。內建緩存和模型分塊加載機制,適用入門級創作者。
    系統需求:5GB GPU

  • Allegro-txt2vid
    原始套件名稱:rhymes-ai/Allegro
    詳細說明:使用 Allegro 模型根據文字描述生成視頻,支持調節幀率、分辨率與長度上限,可生成動態短片與廣告預覽。
    系統需求:12GB GPU

  • LaVie
    原始套件名稱:Vchitect/LaVie
    詳細說明:開源 Text-to-Video 框架,提供多種生成策略(如時間編碼、拼接合成),並支持場景切換與對象跟踪。
    系統需求:16GB GPU

  • Vid2DensePose / vid2pose / Video2Openpose
    原始套件名稱:Flode-Labs/vid2denseposesdbds/vid2posefffiloni/video2openpose2
    詳細說明:將視頻轉為 DensePose、DWpose 或 OpenPose 表示,方便動畫骨架提取、動作捕捉與後續運動分析。
    系統需求:8GB GPU

  • LivePortrait
    原始套件名稱:KwaiVGI/LivePortrait
    詳細說明:將靜態人臉照片生動化,支持面部表情與視線跟蹤,可輸出短視頻或動態貼圖。
    系統需求:6GB GPU


六、3D 智能與生成

  • cube
    原始套件名稱:Roblox/cube
    詳細說明:Roblox 基礎 3D 智能模型,能理解場景結構並生成初步 3D 物件,支持多平台部署(Mac/Windows/Linux)。
    使用場景:遊戲原型設計、快速場景搭建、虛擬世界生成。
    系統需求:16GB+ VRAM

  • Hunyuan3D-2-LowVRAM
    原始套件名稱:deepbeepmeep/Hunyuan3D-2GP
    詳細說明:基於大規模擴散的高解析度 3D 資產生成模型,經過低 VRAM 優化,可在 8GB GPU 上運行,支持 OBJ/GLTF 輸出。
    系統需求:8GB GPU

  • dust3r
    原始套件名稱:dust3r
    詳細說明:易用的幾何 3D 視覺工具,支持點雲重建、網格細分與紋理貼圖流程。
    使用場景:文化遺產修復、建築掃描、3D 打印前處理。
    系統需求:無 GPU 要求,建議 16GB RAM

  • DetailGen3D
    原始套件名稱:DetailGen3D
    詳細說明:專為 Pinokio 平台打造的 3D 細節增強安裝腳本,自動下載並配置 DetailGen3D 模型,提升網格細節和貼圖品質。
    系統需求:Pinokio 環境、12GB GPU

  • vfusion3d-pinokio
    原始套件名稱:facebookresearch/vfusion3d
    詳細說明:Facebook 研究團隊推出的視頻到 3D 合成腳本,能從單視角視頻中重建三維場景。
    系統需求:Pinokio、12GB GPU

  • densediffusion.pinokio
    原始套件名稱:naver-ai/DenseDiffusion
    詳細說明:一鍵安裝 Naver AI 密集擴散 3D 模型,支持高質量網格生成與多種輸出格式。
    系統需求:Pinokio、10GB GPU


七、圖形化介面/WebUI 平台

  • Open WebUI
    原始套件名稱:open-webui/open-webui
    詳細說明:通用 LLM WebUI,支持 Ollama Runner、OpenAI-compatible API,提供多欄視圖、即時參數調整、聊天歷史與插件擴展。
    系統需求:Node.js、Python 3.8、8GB RAM

  • Text Generation WebUI
    原始套件名稱:oobabooga/text-generation-webui
    詳細說明:Gradio 構建的 LLM 交互平台,提供模型切換、參數微調(溫度、top-k)、批量輸入與導出,適合研究與日常使用。
    系統需求:Python 3.9、CUDA 11.1

  • Whisper-WebUI
    原始套件名稱:Whisper-WebUI
    詳細說明:基於 OpenAI Whisper 的語音識別與字幕工具,支持自動語言檢測、時間軸編輯與多格式導出 (SRT/JSON)。
    系統需求:8GB GPU、FFMPEG

  • bolt.diy / bolt.new
    原始套件名稱:stackblitz-labs/bolt.diy
    詳細說明:瀏覽器內 AI 全棧 Web 應用生成平台,利用自然語言提示即時創建 CRUD、表單、API 端點,並支持一鍵部署到 Netlify。
    系統需求:現代瀏覽器(Chrome/Edge)、互聯網連接

  • browser-use / macOS-use
    原始套件名稱:browser-use/web-uibrowser-use/macOS-use
    詳細說明:AI 代理通過瀏覽器或 macOS 應用自動化操作網頁與桌面軟件,支持點擊、輸入、截圖等操作。
    系統需求:Chrome 瀏覽器或 macOS 12+

  • SillyTavern
    原始套件名稱:SillyTavern
    詳細說明:本地化角色扮演式對話 UI,支持多角色設定、Markdown 格式消息、插件擴展與語音輸入。
    系統需求:Node.js、Python 3.9


八、AI 代理與開發框架

  • AutoGPT
    原始套件名稱:Significant-Gravitas/AutoGPT
    詳細說明:自主任務分解與執行代理,能讀寫本地文件、發送 API 請求、互動網頁並持續迭代。適用於自動市場分析、定期報表生成等場景。
    系統需求:Python 3.8、OpenAI API Key

  • devika
    原始套件名稱:stitionai/devika
    詳細說明:AI 軟體工程師代理,擁有編寫程式、單元測試與除錯能力,能自動完成 GitHub Issue 與 PR。
    系統需求:Python 3.10、Git

  • ai-git-developer
    原始套件名稱:ai-git-developer
    詳細說明:結合 ChatGPT 與 GitHub CLI 的雲端 AI 開發助手,可 clone 任意 Repo、執行代碼更改並自動發起 PR。
    系統需求:Python 3.9、GitHub Token

  • ditto
    原始套件名稱:yoheinakajima/ditto
    詳細說明:最簡易的程式碼代理,根據提示自動生成、測試並提交程式碼片段,並可集成 CI/CD 流水線。
    系統需求:Node.js、Python 3.9

  • superagi_pinokio
    原始套件名稱:superagi_pinokio
    詳細說明:Pinokio 平台上的多代理工作流示例,包括任務分配、結果集成與異常處理。
    系統需求:Pinokio 環境

  • LocalAIVtuber
    原始套件名稱:LocalAIVtuber
    詳細說明:離線運行的虛擬主播解決方案,集成語音合成、面部追蹤與動畫輸出,適用於直播與短視頻內容。
    系統需求:8GB GPU、OpenCV

  • AITown
    原始套件名稱:a16z-infra/ai-town
    詳細說明:虛擬小鎮模擬環境,AI 角色可聊天、執行腳本與互動,適合作為社交 AI 示範平台。
    系統需求:Python 3.8、WebSocket


九、Pinokio 生態與安裝腳本

以下為 Pinokio 生態下一鍵安裝與腳本化套件示例,涵蓋 TTS、影像、影片、3D、代理等多領域,並已優化對應作業系統與硬體需求:

  • FramePack / FP-Studio / Frame-Pack

  • facefusion-pinokio / FaceFusion

  • MMAudio

  • DetailGen3D

  • VACE-Pinokio

  • Orpheus-TTS-FastAPI

  • MatAnyone

  • AudioX

  • Kokoro-TTS

  • RuinedFooocus

  • Index-TTS-Pinokio

  • Sana-Sprint-1.6B

  • StyleTTS2_Studio / StyleTTS2 Studio

  • Realtime-Transcription

  • TRELLIS

  • ComfyDock-Pinokio

  • KD-Talker

  • Advanced-RVC-Pinokio / RVC

  • LlasaTTS-windows

  • deeperhermes / Deeper Hermes

  • AnimateDiff / animatediff.pinokio

  • Diffusers-Image-Outpainting

  • Spark-TTS-Pinokio

  • clarity-refiners-ui

  • slides2video-pinokio-script

  • Ovis2-8B-

  • Florence-2-Image-Captioning

  • BEN2

  • Image-Upscale

  • Leffa

  • IC-Light-Ultimate-Studio

  • UVR5-UI-pinokio / UVR5-WebUI

  • Deepseek-ai-Janus-Pro-7B

  • InvSR

  • roop-unleashed

  • LatentSync-Pinokio

  • AdvancedLivePortraitWebUI

  • Allegro-ti2v-c

  • iopaint-pinokio

  • GLM4Voice

  • pinokio-computer-bolt.new

  • fish-speech / fish

  • SD-Next

  • illusion-diffusion-HQ

  • joy-caption-alpha-two-GUImod / joy-caption-alpha-2

  • whisper-large-v3

  • RVC-WebUI-Pinokio

  • TabbyAPI-Pinokio

  • StyleTTS-WebUI.pinokio

  • Dough-pinokio

  • peers-check

  • FlashFace

  • DatasetHelpers

  • kohya_ss

  • Taggui

  • vfusion3d-pinokio

  • ldm3d.pinokio

  • densediffusion.pinokio

  • VALL-E-X.pinokio

  • text-generation-webui.pinokio

  • pinokio-reforge

  • ai-git-developer

  • fooocus-API-pinokio

  • langflow.pinokio

  • VASR-for-Pinokio

  • OneTrainerPinokio

  • sdxs-pinokio

  • autogen-studio-pinokio

  • tutorial.pinokio

  • instructir.pinokio

  • comfyui.pinokio

  • audiocraft_plus.pinokio

  • facefusion.pinokio

  • sd-webui.pinokio

  • AudioLDM2.pinokio

  • superagi_pinokio