2025年5月14日 星期三

想畫圖不會下prompt?這招讓你徹底擺脫使用所有AI 的焦慮!生圖或對話問答都好用!

【範例】
夏天,咱什麼事都沒做,桌底下就提供源源不斷的暖爐
CPU+GPU+外接SSD硬碟自己就不知道在噜甚麼
這時候最期望的就是聽見中央空調冷氣開始送風的聲音
那"ㄘ"的一常聲,就可以聽見整個單位歡呼起來 


想畫個圖表示一下自己的感想又不知道怎樣下Prompt:

先來亂下個prompt作為對照組:

"創作圖像 天氣炎熱,桌下的電腦主機不斷的發熱,汗流浹背,盯著天花板上的中央空調,好想開冷氣"


這就是一般能力者的境界,想更好,要請教高人

畫好之後請GPT幫忙改個prompt

"我想生圖不會下prompt,你幫我把這個場景的細節描述得誇張些"創作圖像 天氣炎熱,桌下的電腦主機不斷的發熱,汗流浹背,盯著天花板上的中央空調,好想開冷氣",給我新的prompt"

GPT給了
"A hyper-realistic digital illustration of an overheated office in the middle of a scorching summer day. A man sits at his desk, drenched in sweat, his soaked shirt clinging to his back. Under the desk, a glowing-hot computer tower radiates heat like a furnace, warping the air around it. The man’s face is twisted in desperation, his eyes fixed on the ceiling where a sleek, modern central air conditioning unit remains cruelly turned off. Sweat drips from his forehead, pooling on the desk beside a half-melted iced coffee. The atmosphere is thick and shimmering with heatwaves, creating a surreal, almost hellish environment of unbearable warmth and longing for relief"

讓他直接生圖,你就發現自己畫圖程度提升了!!!


簡直就是神作完美表達我想要的意境,然後依他的建議加油添醋或是自己要求就好



真的,不要有prompt焦慮,只要會這兩招
元問題、和請GPT教你協助你即可
AI 已經很聰明了,不需要特定的語法或語詞



2025年5月5日 星期一

Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件名稱與說明

以下是 Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件,以及它們的主要功能與特色:

資料來源:套件列表摘自官方 README (GitHub)

套件名稱 簡介與特色
Stable Diffusion WebUI reForge 一款基於 AUTOMATIC1111 的強化分支,加入了多項性能優化和插件支援。Stability Matrix 可一鍵安裝/更新,並自動處理相依套件與版本管理。(GitHub)
Stable Diffusion WebUI Forge AUTOMATIC1111 的另一分支,專注於 GPU 加速與自訂化介面。透過 Stability Matrix 可快速切換 Forge 與原版 WebUI,並保持多個環境並存。(GitHub)
Stable Diffusion WebUI AMDGPU Forge 為 AMD GPU 使用者打造的專用分支,集成了 ROCm 支援。透過自動偵測環境,Stability Matrix 能自動安裝必要驅動與相依。(GitHub)
Automatic1111 最受歡迎的 Web UI,具備廣泛的插件生態與自動標註、批次生圖功能。透過 Stability Matrix,可無痛安裝、更新所有衍生插件,並管理 Python 相依套件。(GitHub)
Automatic1111 DirectML 基於 DirectML(Windows 上的跨 GPU API)構建的 Automatic1111 版本,適用於沒有 CUDA 的設備。Stability Matrix 自動下載並配置 DirectML backend。(GitHub)
SD Web UI‑UX 強調使用者體驗與介面美化的 Web UI,整合了預覽窗格、即時參數調整面板等功能。Stability Matrix 可管理其前端資源與 CSS 模組。(GitHub)
SD.Next 在 SD Web UI‑UX 基礎上加入更多進階功能(如多任務排程、進度儀表板)。Stability Matrix 允許你在多個 SD.Next 專案間快速切換。(GitHub)
Fooocus 由社群開發的輕量級推理介面,專注於低資源消耗與簡易擴充。Stability Matrix 支援多種 Fooocus 分支:– Fooocus MREFooocus ControlNet SDXLRuined FooocusFooocus – mashb1t’s 1‑Up Edition可一鍵新增插件與模型路徑。(GitHub)
SimpleSDXL 精簡版 SDXL Web UI,專為大模型設計的前端。同樣可透過 Stability Matrix 自動管理大型檢查點(checkpoint)與相依。(GitHub)
ComfyUI 節點式流程編輯介面,適合構建複雜管線(pipeline)。Stability Matrix 可以同步佈署 ComfyUI 節點庫、節點模板與版本控制。(GitHub)
StableSwarmUI 分散式推理管理介面,支援多節點協同運算。Stability Matrix 會配置佈署參數並統一管理多台機器的連線資訊。(GitHub)
VoltaML 集成 VoltaML 推理框架的 UI,強化推理效能。透過 Stability Matrix,使用者可輕鬆安裝 VoltaML runtime 并管理版本。(GitHub)
InvokeAI 另一款廣受好評的 CLI/GUI 混合介面,適合喜歡指令行操作的使用者。Stability Matrix 可將其二進位檔與相依封裝起來,並支援多版本並存。(GitHub)
SDFX 集成多款後處理濾鏡與批量特效處理的 UI。透過 Stability Matrix,你能夠一鍵為每個專案套用 SDFX 插件,並維持各插件的設定一致性。(GitHub)
Kohya’s GUI 專為訓練與微調(fine-tuning)設計的 UI,整合了 Kohya_ss 相關訓練函式庫。Stability Matrix 可自動管理 GPU 設定及相依環境。(GitHub)
OneTrainer 面向大規模模型訓練的統一介面,支援分布式訓練。Stability Matrix 支援群集佈署與資源監控插件。(GitHub)
FluxGym 與 FluxML 生態整合的深度學習 UI,特化於 Flux 框架。Stability Matrix 可同時管理 PyTorch/Flux 等多種後端。(GitHub)
CogVideo via CogStudio 以 CogVideo 為核心的多媒體生成 UI,適合影片推理。Stability Matrix 會自動佈署 CogStudio 並配置 GPU 資源分配。(GitHub)

此外,Stability Matrix 本身也提供了多項跨套件共用功能:

  1. 嵌入式 Git 與 Python 相依管理,無需全域安裝就能一鍵同步更新版本與套件。

  2. 可攜式資料目錄,可將 .smdata 目錄移至任意磁碟或電腦,並無痛繼續使用。

  3. 內建 Inference UI:語法高亮、命令列與拖放式畫廊,所有套件共用同一介面。

  4. 檢查點(Checkpoint)與模型瀏覽器:支援 CivitAI、HuggingFace 自動匯入並顯示預覽縮圖,可暫停/續傳。

  5. 多語系介面:已由社群翻譯成中/英/日/西/法等多國語言。(GitHub, GitHub)

透過 Stability Matrix,使用者只需一次設定,即可管理上述各類 Stable Diffusion 與相關訓練、推理工具,並享有版本控制、依賴處理與便捷 UI 的完整體驗。

Pinokio 所有套件名稱與內容說明

以下依功能簡易分類,並對所有套件內容提供詳細說明,包含使用場景、主要功能、系統需求與特色:


一、文字轉語音(TTS)

  • Dia
    原始套件名稱:nari-labs/dia
    詳細說明:Dia 是一個擁有 1.6B 參數的對話式 TTS 模型,專注於生成擬人化、節奏自然的對話語音。它支援在文字中標註情緒(如歡樂、悲傷、憤怒)以調整語調與語速,並能夠產生笑聲、咳嗽、清嗓等非語音效果。適用於虛擬角色配音、遊戲對話及互動式語音助理。
    系統需求:12GB GPU、Python 3.8+

  • Orpheus-TTS-FastAPI
    原始套件名稱:canopyai/Orpheus-TTS
    詳細說明:基於 Llama-3b 之上訓練的開源 TTS 系統,利用 LLM 的上下文理解能力提升語音自然度。內建多語者與語調切換功能,並可透過 FastAPI 部署為 RESTful 服務,實時回應文字合成請求。
    使用場景:客服機器人、語音播報、智慧助理微服務。
    系統需求:16GB GPU、FastAPI、PyTorch 2.0

  • zonos
    原始套件名稱:Zyphra/Zonos
    詳細說明:訓練於超過 200k 小時多語種資料的開源 TTS,支持八種語言(英、法、德、中文、日、韓、阿拉伯、西班牙)。具備情感建模與口音仿真能力,並提供簡易 API 供一鍵部署。
    適用領域:國際化語音產品、有聲書製作、多語客服。
    系統需求:10GB GPU、Transformers 庫

  • fish
    原始套件名稱:fishaudio/fish-speech
    詳細說明:多語種 TTS 平台,涵蓋主要語言並內建「聲音克隆」功能,只需數秒錄音即可模擬該語者風格。支援 SSML,可插入停頓、音量與動畫效果標記。
    用例:虛擬主播、跨國企業培訓、教育教材自動語音化。
    系統需求:8GB GPU、CUDA 11.3

  • MeloTTS
    原始套件名稱:myshell-ai/MeloTTS
    詳細說明:採用擴散與流匹配技術,生成高品質、接近自然人聲的多語 TTS,支持英、西、法、中、日、韓等六種語言,並可切換多種音色風格(新聞播報、溫暖廣播、角色配音)。
    系統需求:12GB GPU
    使用場景:有聲書平臺、教育應用、智能導航語音。

  • e2-f5-tts
    原始套件名稱:mrfakename/E2-F5-TTS
    詳細說明:以「Flow Matching」為基礎的新一代 TTS 模型,兼顧真實度與速度,內建降噪機制可減少背景噪音。提供命令行工具與 Python SDK,可調速、調高音頻參數。
    系統需求:8GB GPU

  • parler-tts
    原始套件名稱:parler-tts/parler_tts_mini
    詳細說明:輕量級 TTS 引擎,模型僅數十 MB,適合邊緣設備與嵌入式系統。可透過命令行指定說話速度、音高、混響與背景噪音等參數。
    系統需求:無 GPU 也能運行,建議 CPU 4 核以上。

  • Spark-TTS
    原始套件名稱:Spark-TTS
    詳細說明:集成語音合成與聲音克隆功能的工具包,提供 GUI 與 CLI 雙界面,支援 Windows、Linux 平台。可自定義多角色音色,並通過微調生成特定角色語音。
    使用場景:直播配音、動畫配音、角色扮演語音服務。
    系統需求:16GB GPU

  • XTTS
    原始套件名稱:coqui/xtts
    詳細說明:零樣本聲音克隆模型,僅需 3 秒音頻樣本即可模仿該語者的聲音風格,並支持跨語言發聲。常用於虛擬主播、遊戲 NPC 配音、角色扮演。
    系統需求:8GB GPU

  • RVC
    原始套件名稱:RVC-Project/Retrieval-based-Voice-Conversion-WebUI
    詳細說明:檢索基聲音轉換技術,可將輸入音頻轉換為目標語者的聲音,並保留語調與節奏一致性。WebUI 介面讓非技術用戶可簡單操作。
    系統需求:10GB GPU

  • Bark Voice Cloning
    原始套件名稱:fffiloni/instant-TTS-Bark-cloning
    詳細說明:基於 Bark TTS 架構的聲音克隆方案,需提供至少 20 秒清錄 WAV 即可生成自訂 TTS 模型,並可在本地離線生成語音。
    系統需求:12GB GPU

  • alltalk-tts
    原始套件名稱:alltalk-tts
    詳細說明:整合多種主流 TTS(E5-TTS、XTTS、Piper、Piper TTS、Parler TTS、RVC),提供統一 UI、低 VRAM 支援、DeepSpeed 加速與模型微調功能。
    系統需求:8GB+ VRAM GPU


二、音樂與音效生成/編輯

  • DiffRhythm
    原始套件名稱:ASLP-lab/DiffRhythm
    詳細說明:基於擴散模型的歌曲生成系統,可輸出長度達 4 分 45 秒的音樂,並支持帶歌詞或純樂模式。可輸入旋律片段、和弦進行或歌詞提示,自動生成完整曲目。
    使用場景:獨立音樂人作曲、遊戲背景音樂、短影片配樂。
    系統需求:12GB GPU

  • MAGNeT
    原始套件名稱:facebookresearch/audiocraft
    詳細說明:Meta AudioCraft 的文字→音樂與文字→音效模組,能根據文字描述生成多種風格的音樂片段(古典、流行、電子等),並可調節節奏與樂器配置。
    系統需求:16GB GPU

  • StableAudio
    原始套件名稱:Stability-AI/stable-audio-tools
    詳細說明:Stability AI 推出的開源音頻設計套件,內含音樂合成、音效生成與樣本混合功能,提供 Python API 與 CLI。
    使用場景:廣告音效製作、遊戲音頻開發、音頻後期處理。

  • AudioSep
    原始套件名稱:Audio-AGI/AudioSep
    詳細說明:文字驅動的通用音頻分離工具,僅需文字描述(如「提取人聲」、「分離鼓聲」)即可將音軌分離為多個成分,並保持時間一致性。
    系統需求:10GB GPU

  • MMAudio
    原始套件名稱:hkchengrex/MMAudio
    詳細說明:結合影片與文字輸入生成同步音頻,能自動匹配影像內容並添加解說、配樂或環境聲效。
    應用:企業宣傳片配音、教學影片自動配音、社交媒體短片。

  • UVR5-WebUI
    原始套件名稱:UVR5-WebUI
    詳細說明:基於 UVR5 模型的音訊分離 WebUI,支援分離聲樂、伴奏、環境音等多軌,並可選擇不同分離精度。
    系統需求:8GB GPU

  • ZETA
    原始套件名稱:hilamanor/audioEditing
    詳細說明:零樣本文本編輯音頻工具,基於 DDPM 反演可對音訊進行增減聲源、去噪與剪輯,並可導入至 DAW 軟件進行後製。
    應用:Podcast 後製、語音訊號修復、音效剪輯。


三、影像生成與擴散(Diffusion)

  • ComfyUI
    原始套件名稱:comfyanonymous/ComfyUI
    詳細說明:以可視化節點圖方式構建擴散模型管線,用戶可自由組合文本編碼、圖像解碼、後處理等節點。支持插件擴展、批量處理與自定義節點開發。
    系統需求:12GB GPU

  • omnigen
    原始套件名稱:Shitao/OmniGen
    詳細說明:全能圖像生成模型,涵蓋文本→圖、圖→圖、主體驅動生成、身份保留生成等多種任務,且 API 設計統一,方便整合至生產環境。
    應用:電商產品圖、社媒創意圖、虛擬人像生成。
    系統需求:16GB GPU

  • artist
    原始套件名稱:fffiloni/Artist
    詳細說明:零訓練圖像風格化工具,用戶僅需提供原圖與風格描述,Artist 即可融合彩色、紋理與風格元素,實現即時試色與風格遷移。
    系統需求:8GB GPU

  • diffusers-image-fill
    原始套件名稱:OzzyGT/diffusers-image-fill
    詳細說明:基於 Hugging Face Diffusers 的圖像填充工具,可在移除指定物件後自動生成一致風格的背景,並可調整填充強度與細節層級。
    系統需求:10GB GPU

  • InstantIR
    原始套件名稱:fffiloni/InstantIR
    詳細說明:即時圖像修復模型,支持恢復低解析或損壞圖像並根據文字提示進行重建。
    用例:舊照片修復、失真圖像重建、藝術修復。
    系統需求:8GB GPU

  • brushnet
    原始套件名稱:TencentARC/BrushNet
    詳細說明:雙分支抹除與擴散模型,針對圖像區域進行精細修補,支持複雜邊緣與紋理保留。
    系統需求:12GB GPU

  • PCM
    原始套件名稱:radames/Phased-Consistency-Model-PCM
    詳細說明:兩步驟相位一致性擴散模型,兼具快速與高品質生成,適合需要即時反饋及微調效果的應用。
    系統需求:8GB GPU

  • Ilaria-Upscaler-Zero
    原始套件名稱:Ilaria-Upscaler-Zero
    詳細說明:零樣本超分辨率模型,無需額外訓練即可對任何圖像進行最高 4x 放大並保留細節。
    應用:電子商務高清圖、視頻幀升級、數位修復。
    系統需求:6GB GPU

  • InvSR
    原始套件名稱:InvSR
    詳細說明:條件式擴散超分辨模型,提供 CLI 與 API,可批量放大數千張圖像,並內置多種強化預設。
    系統需求:12GB GPU

  • SD-Next
    原始套件名稱:SD-Next
    詳細說明:Stable Diffusion 的下一代優化版本,增強紋理細節、色彩穩定性與生成效率。
    系統需求:16GB GPU

  • LEDITS++
    原始套件名稱:LEDITS++
    詳細說明:無限制文本驅動圖像編輯工具,支持局部編輯、遮罩擴散與全圖重繪,可兼容多種擴散後端。
    系統需求:10GB GPU

  • StyleAligned
    原始套件名稱:Style-Aligned-Gen
    詳細說明:透過共享注意力 (Shared Attention) 同步處理風格與內容,生成的圖像在視覺風格與結構保持方面達到最佳平衡。
    系統需求:12GB GPU

  • ZeST
    原始套件名稱:fffiloni/ZeST
    詳細說明:零樣本材質轉換模型,僅需一張材質範例與目標圖,即可將該材質融入目標圖像中,適用於遊戲場景材質替換與設計提案。
    系統需求:8GB GPU

  • Differential-Diffusion-UI
    原始套件名稱:differential-diffusion
    詳細說明:區域定向擴散編輯工具,用戶可上傳「變更量圖」指定各區域編輯強度,配合文字提示精準修改圖像。
    系統需求:10GB GPU

  • flashdiffusion
    原始套件名稱:flash-diffusion-project
    詳細說明:以少於 10 步的快速採樣生成高品質圖像,支持多種條件與無條件生成。
    系統需求:8GB GPU

  • illusion-diffusion-HQ
    原始套件名稱:Illusion-Diffusion-HQ
    詳細說明:專注於高品質圖像細節與色彩校正的擴散引擎,適合專業影像後製與廣告素材生成。
    系統需求:16GB GPU

五、影片生成與處理

  • FramePack
    原始套件名稱:lllyasviel/FramePack
    詳細說明:逐段生成影片的下一幀預測網絡,採用分塊方式生成長影片,提高時序一致性與細節連貫性。支持批量處理與可視化預覽。
    使用場景:動畫制作、短片生成、遊戲過場動畫。
    系統需求:12GB GPU、Python 3.9+

  • PyramidFlow
    原始套件名稱:jy0205/Pyramid-Flow
    詳細說明:金字塔流架構的視頻生成模型,支持文本或多幀圖像條件輸入,能在不同解析度層級逐層生成,提升畫面穩定性與細節豐富度。
    使用場景:影像特效、電影預覽、廣告內容制作。
    系統需求:16GB GPU、FFMPEG

  • CogVideo (CogStudio)
    原始套件名稱:THUDM/CogVideococktailpeanut/deeperhermes
    詳細說明:支持文本→視頻、圖像→視頻、視頻續播與視頻來回編輯。CogStudio 提供高級 WebUI,允許用戶調整生成參數(幀率、分辨率、時長),並在生成過程中實時監控進度。
    系統需求:10GB+ VRAM、Node.js、Gradio

  • VideoCrafter 2
    原始套件名稱:AILab-CVC/VideoCrafter
    詳細說明:集成 Text2Video 與 Image2Video 模型,並附帶影片剪輯、轉場、濾鏡與字幕功能的工具箱。支持多軌編輯與時間軸管理,適合專業內容創作者。
    系統需求:14GB GPU、CUDA 11.4

  • HunyuanVideo
    原始套件名稱:deepbeepmeep/HunyuanVideoGP
    詳細說明:專為 5GB VRAM+ GPU 優化的 Hunyuan Video Gradio UI,可生成 10-14 秒高質量視頻,支持批量輸出與 JSON API 調用。
    系統需求:6GB GPU、Gradio

  • Wan 2.1
    原始套件名稱:deepbeepmeep/Wan2GP
    詳細說明:低 GPU 資源下運行的 Wan2.1 Gradio UI,可生成最多 12 秒的視頻。內建緩存和模型分塊加載機制,適用入門級創作者。
    系統需求:5GB GPU

  • Allegro-txt2vid
    原始套件名稱:rhymes-ai/Allegro
    詳細說明:使用 Allegro 模型根據文字描述生成視頻,支持調節幀率、分辨率與長度上限,可生成動態短片與廣告預覽。
    系統需求:12GB GPU

  • LaVie
    原始套件名稱:Vchitect/LaVie
    詳細說明:開源 Text-to-Video 框架,提供多種生成策略(如時間編碼、拼接合成),並支持場景切換與對象跟踪。
    系統需求:16GB GPU

  • Vid2DensePose / vid2pose / Video2Openpose
    原始套件名稱:Flode-Labs/vid2denseposesdbds/vid2posefffiloni/video2openpose2
    詳細說明:將視頻轉為 DensePose、DWpose 或 OpenPose 表示,方便動畫骨架提取、動作捕捉與後續運動分析。
    系統需求:8GB GPU

  • LivePortrait
    原始套件名稱:KwaiVGI/LivePortrait
    詳細說明:將靜態人臉照片生動化,支持面部表情與視線跟蹤,可輸出短視頻或動態貼圖。
    系統需求:6GB GPU


六、3D 智能與生成

  • cube
    原始套件名稱:Roblox/cube
    詳細說明:Roblox 基礎 3D 智能模型,能理解場景結構並生成初步 3D 物件,支持多平台部署(Mac/Windows/Linux)。
    使用場景:遊戲原型設計、快速場景搭建、虛擬世界生成。
    系統需求:16GB+ VRAM

  • Hunyuan3D-2-LowVRAM
    原始套件名稱:deepbeepmeep/Hunyuan3D-2GP
    詳細說明:基於大規模擴散的高解析度 3D 資產生成模型,經過低 VRAM 優化,可在 8GB GPU 上運行,支持 OBJ/GLTF 輸出。
    系統需求:8GB GPU

  • dust3r
    原始套件名稱:dust3r
    詳細說明:易用的幾何 3D 視覺工具,支持點雲重建、網格細分與紋理貼圖流程。
    使用場景:文化遺產修復、建築掃描、3D 打印前處理。
    系統需求:無 GPU 要求,建議 16GB RAM

  • DetailGen3D
    原始套件名稱:DetailGen3D
    詳細說明:專為 Pinokio 平台打造的 3D 細節增強安裝腳本,自動下載並配置 DetailGen3D 模型,提升網格細節和貼圖品質。
    系統需求:Pinokio 環境、12GB GPU

  • vfusion3d-pinokio
    原始套件名稱:facebookresearch/vfusion3d
    詳細說明:Facebook 研究團隊推出的視頻到 3D 合成腳本,能從單視角視頻中重建三維場景。
    系統需求:Pinokio、12GB GPU

  • densediffusion.pinokio
    原始套件名稱:naver-ai/DenseDiffusion
    詳細說明:一鍵安裝 Naver AI 密集擴散 3D 模型,支持高質量網格生成與多種輸出格式。
    系統需求:Pinokio、10GB GPU


七、圖形化介面/WebUI 平台

  • Open WebUI
    原始套件名稱:open-webui/open-webui
    詳細說明:通用 LLM WebUI,支持 Ollama Runner、OpenAI-compatible API,提供多欄視圖、即時參數調整、聊天歷史與插件擴展。
    系統需求:Node.js、Python 3.8、8GB RAM

  • Text Generation WebUI
    原始套件名稱:oobabooga/text-generation-webui
    詳細說明:Gradio 構建的 LLM 交互平台,提供模型切換、參數微調(溫度、top-k)、批量輸入與導出,適合研究與日常使用。
    系統需求:Python 3.9、CUDA 11.1

  • Whisper-WebUI
    原始套件名稱:Whisper-WebUI
    詳細說明:基於 OpenAI Whisper 的語音識別與字幕工具,支持自動語言檢測、時間軸編輯與多格式導出 (SRT/JSON)。
    系統需求:8GB GPU、FFMPEG

  • bolt.diy / bolt.new
    原始套件名稱:stackblitz-labs/bolt.diy
    詳細說明:瀏覽器內 AI 全棧 Web 應用生成平台,利用自然語言提示即時創建 CRUD、表單、API 端點,並支持一鍵部署到 Netlify。
    系統需求:現代瀏覽器(Chrome/Edge)、互聯網連接

  • browser-use / macOS-use
    原始套件名稱:browser-use/web-uibrowser-use/macOS-use
    詳細說明:AI 代理通過瀏覽器或 macOS 應用自動化操作網頁與桌面軟件,支持點擊、輸入、截圖等操作。
    系統需求:Chrome 瀏覽器或 macOS 12+

  • SillyTavern
    原始套件名稱:SillyTavern
    詳細說明:本地化角色扮演式對話 UI,支持多角色設定、Markdown 格式消息、插件擴展與語音輸入。
    系統需求:Node.js、Python 3.9


八、AI 代理與開發框架

  • AutoGPT
    原始套件名稱:Significant-Gravitas/AutoGPT
    詳細說明:自主任務分解與執行代理,能讀寫本地文件、發送 API 請求、互動網頁並持續迭代。適用於自動市場分析、定期報表生成等場景。
    系統需求:Python 3.8、OpenAI API Key

  • devika
    原始套件名稱:stitionai/devika
    詳細說明:AI 軟體工程師代理,擁有編寫程式、單元測試與除錯能力,能自動完成 GitHub Issue 與 PR。
    系統需求:Python 3.10、Git

  • ai-git-developer
    原始套件名稱:ai-git-developer
    詳細說明:結合 ChatGPT 與 GitHub CLI 的雲端 AI 開發助手,可 clone 任意 Repo、執行代碼更改並自動發起 PR。
    系統需求:Python 3.9、GitHub Token

  • ditto
    原始套件名稱:yoheinakajima/ditto
    詳細說明:最簡易的程式碼代理,根據提示自動生成、測試並提交程式碼片段,並可集成 CI/CD 流水線。
    系統需求:Node.js、Python 3.9

  • superagi_pinokio
    原始套件名稱:superagi_pinokio
    詳細說明:Pinokio 平台上的多代理工作流示例,包括任務分配、結果集成與異常處理。
    系統需求:Pinokio 環境

  • LocalAIVtuber
    原始套件名稱:LocalAIVtuber
    詳細說明:離線運行的虛擬主播解決方案,集成語音合成、面部追蹤與動畫輸出,適用於直播與短視頻內容。
    系統需求:8GB GPU、OpenCV

  • AITown
    原始套件名稱:a16z-infra/ai-town
    詳細說明:虛擬小鎮模擬環境,AI 角色可聊天、執行腳本與互動,適合作為社交 AI 示範平台。
    系統需求:Python 3.8、WebSocket


九、Pinokio 生態與安裝腳本

以下為 Pinokio 生態下一鍵安裝與腳本化套件示例,涵蓋 TTS、影像、影片、3D、代理等多領域,並已優化對應作業系統與硬體需求:

  • FramePack / FP-Studio / Frame-Pack

  • facefusion-pinokio / FaceFusion

  • MMAudio

  • DetailGen3D

  • VACE-Pinokio

  • Orpheus-TTS-FastAPI

  • MatAnyone

  • AudioX

  • Kokoro-TTS

  • RuinedFooocus

  • Index-TTS-Pinokio

  • Sana-Sprint-1.6B

  • StyleTTS2_Studio / StyleTTS2 Studio

  • Realtime-Transcription

  • TRELLIS

  • ComfyDock-Pinokio

  • KD-Talker

  • Advanced-RVC-Pinokio / RVC

  • LlasaTTS-windows

  • deeperhermes / Deeper Hermes

  • AnimateDiff / animatediff.pinokio

  • Diffusers-Image-Outpainting

  • Spark-TTS-Pinokio

  • clarity-refiners-ui

  • slides2video-pinokio-script

  • Ovis2-8B-

  • Florence-2-Image-Captioning

  • BEN2

  • Image-Upscale

  • Leffa

  • IC-Light-Ultimate-Studio

  • UVR5-UI-pinokio / UVR5-WebUI

  • Deepseek-ai-Janus-Pro-7B

  • InvSR

  • roop-unleashed

  • LatentSync-Pinokio

  • AdvancedLivePortraitWebUI

  • Allegro-ti2v-c

  • iopaint-pinokio

  • GLM4Voice

  • pinokio-computer-bolt.new

  • fish-speech / fish

  • SD-Next

  • illusion-diffusion-HQ

  • joy-caption-alpha-two-GUImod / joy-caption-alpha-2

  • whisper-large-v3

  • RVC-WebUI-Pinokio

  • TabbyAPI-Pinokio

  • StyleTTS-WebUI.pinokio

  • Dough-pinokio

  • peers-check

  • FlashFace

  • DatasetHelpers

  • kohya_ss

  • Taggui

  • vfusion3d-pinokio

  • ldm3d.pinokio

  • densediffusion.pinokio

  • VALL-E-X.pinokio

  • text-generation-webui.pinokio

  • pinokio-reforge

  • ai-git-developer

  • fooocus-API-pinokio

  • langflow.pinokio

  • VASR-for-Pinokio

  • OneTrainerPinokio

  • sdxs-pinokio

  • autogen-studio-pinokio

  • tutorial.pinokio

  • instructir.pinokio

  • comfyui.pinokio

  • audiocraft_plus.pinokio

  • facefusion.pinokio

  • sd-webui.pinokio

  • AudioLDM2.pinokio

  • superagi_pinokio

顯卡算力與VRAM比較表(採購參考)

 顯卡算力與VRAM比較表(採購參考)

GPU 型号 显存(VRAM) AI TOPS
RTX 5090 32 GB GDDR7 架构峰值 4,000 TOPS
RTX 5080 16 GB GDDR7 1,801 TOPS (eatyourbytes.com)
RTX 5070 Ti 16 GB GDDR7 1,406 TOPS
RTX 5070 12 GB GDDR7 988 TOPS
RTX 4090 24 GB GDDR6X 1,321 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4080 Super 16 GB GDDR6X 836 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4080 16 GB GDDR6X 780 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4070 Ti Super 16 GB GDDR6X 706 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4070 Ti 12 GB GDDR6X 641 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4070 Super 12 GB GDDR6X 568 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4070 12 GB GDDR6X 466 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4060 Ti (8 GB/16 GB) 8 GB / 16 GB GDDR6 353 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 4060 8 GB GDDR6 242 TOPS (小麦的杂货铺, eatyourbytes.com)
RTX 3090 Ti 24 GB GDDR6X 320 TOPS (小麦的杂货铺)
RTX 3090 24 GB GDDR6X 284.7 TOPS (小麦的杂货铺)
RTX 3080 Ti 12 GB GDDR6X 272.8 TOPS (小麦的杂货铺)
RTX 3080 10 GB GDDR6X 238.1 TOPS (小麦的杂货铺)
RTX 3070 Ti 8 GB GDDR6X 174 TOPS (小麦的杂货铺)
RTX 3070 8 GB GDDR6 162.5 TOPS (小麦的杂货铺)
RTX 3060 Ti 8 GB GDDR6 101 TOPS (小麦的杂货铺)
RTX 3060 12 GB GDDR6 101 TOPS (小麦的杂货铺)