以下依功能簡易分類,並對所有套件內容提供詳細說明,包含使用場景、主要功能、系統需求與特色:
一、文字轉語音(TTS)
-
Dia
原始套件名稱:nari-labs/dia
詳細說明:Dia 是一個擁有 1.6B 參數的對話式 TTS 模型,專注於生成擬人化、節奏自然的對話語音。它支援在文字中標註情緒(如歡樂、悲傷、憤怒)以調整語調與語速,並能夠產生笑聲、咳嗽、清嗓等非語音效果。適用於虛擬角色配音、遊戲對話及互動式語音助理。
系統需求:12GB GPU、Python 3.8+ -
Orpheus-TTS-FastAPI
原始套件名稱:canopyai/Orpheus-TTS
詳細說明:基於 Llama-3b 之上訓練的開源 TTS 系統,利用 LLM 的上下文理解能力提升語音自然度。內建多語者與語調切換功能,並可透過 FastAPI 部署為 RESTful 服務,實時回應文字合成請求。
使用場景:客服機器人、語音播報、智慧助理微服務。
系統需求:16GB GPU、FastAPI、PyTorch 2.0 -
zonos
原始套件名稱:Zyphra/Zonos
詳細說明:訓練於超過 200k 小時多語種資料的開源 TTS,支持八種語言(英、法、德、中文、日、韓、阿拉伯、西班牙)。具備情感建模與口音仿真能力,並提供簡易 API 供一鍵部署。
適用領域:國際化語音產品、有聲書製作、多語客服。
系統需求:10GB GPU、Transformers 庫 -
fish
原始套件名稱:fishaudio/fish-speech
詳細說明:多語種 TTS 平台,涵蓋主要語言並內建「聲音克隆」功能,只需數秒錄音即可模擬該語者風格。支援 SSML,可插入停頓、音量與動畫效果標記。
用例:虛擬主播、跨國企業培訓、教育教材自動語音化。
系統需求:8GB GPU、CUDA 11.3 -
MeloTTS
原始套件名稱:myshell-ai/MeloTTS
詳細說明:採用擴散與流匹配技術,生成高品質、接近自然人聲的多語 TTS,支持英、西、法、中、日、韓等六種語言,並可切換多種音色風格(新聞播報、溫暖廣播、角色配音)。
系統需求:12GB GPU
使用場景:有聲書平臺、教育應用、智能導航語音。 -
e2-f5-tts
原始套件名稱:mrfakename/E2-F5-TTS
詳細說明:以「Flow Matching」為基礎的新一代 TTS 模型,兼顧真實度與速度,內建降噪機制可減少背景噪音。提供命令行工具與 Python SDK,可調速、調高音頻參數。
系統需求:8GB GPU -
parler-tts
原始套件名稱:parler-tts/parler_tts_mini
詳細說明:輕量級 TTS 引擎,模型僅數十 MB,適合邊緣設備與嵌入式系統。可透過命令行指定說話速度、音高、混響與背景噪音等參數。
系統需求:無 GPU 也能運行,建議 CPU 4 核以上。 -
Spark-TTS
原始套件名稱:Spark-TTS
詳細說明:集成語音合成與聲音克隆功能的工具包,提供 GUI 與 CLI 雙界面,支援 Windows、Linux 平台。可自定義多角色音色,並通過微調生成特定角色語音。
使用場景:直播配音、動畫配音、角色扮演語音服務。
系統需求:16GB GPU -
XTTS
原始套件名稱:coqui/xtts
詳細說明:零樣本聲音克隆模型,僅需 3 秒音頻樣本即可模仿該語者的聲音風格,並支持跨語言發聲。常用於虛擬主播、遊戲 NPC 配音、角色扮演。
系統需求:8GB GPU -
RVC
原始套件名稱:RVC-Project/Retrieval-based-Voice-Conversion-WebUI
詳細說明:檢索基聲音轉換技術,可將輸入音頻轉換為目標語者的聲音,並保留語調與節奏一致性。WebUI 介面讓非技術用戶可簡單操作。
系統需求:10GB GPU -
Bark Voice Cloning
原始套件名稱:fffiloni/instant-TTS-Bark-cloning
詳細說明:基於 Bark TTS 架構的聲音克隆方案,需提供至少 20 秒清錄 WAV 即可生成自訂 TTS 模型,並可在本地離線生成語音。
系統需求:12GB GPU -
alltalk-tts
原始套件名稱:alltalk-tts
詳細說明:整合多種主流 TTS(E5-TTS、XTTS、Piper、Piper TTS、Parler TTS、RVC),提供統一 UI、低 VRAM 支援、DeepSpeed 加速與模型微調功能。
系統需求:8GB+ VRAM GPU
二、音樂與音效生成/編輯
-
DiffRhythm
原始套件名稱:ASLP-lab/DiffRhythm
詳細說明:基於擴散模型的歌曲生成系統,可輸出長度達 4 分 45 秒的音樂,並支持帶歌詞或純樂模式。可輸入旋律片段、和弦進行或歌詞提示,自動生成完整曲目。
使用場景:獨立音樂人作曲、遊戲背景音樂、短影片配樂。
系統需求:12GB GPU -
MAGNeT
原始套件名稱:facebookresearch/audiocraft
詳細說明:Meta AudioCraft 的文字→音樂與文字→音效模組,能根據文字描述生成多種風格的音樂片段(古典、流行、電子等),並可調節節奏與樂器配置。
系統需求:16GB GPU -
StableAudio
原始套件名稱:Stability-AI/stable-audio-tools
詳細說明:Stability AI 推出的開源音頻設計套件,內含音樂合成、音效生成與樣本混合功能,提供 Python API 與 CLI。
使用場景:廣告音效製作、遊戲音頻開發、音頻後期處理。 -
AudioSep
原始套件名稱:Audio-AGI/AudioSep
詳細說明:文字驅動的通用音頻分離工具,僅需文字描述(如「提取人聲」、「分離鼓聲」)即可將音軌分離為多個成分,並保持時間一致性。
系統需求:10GB GPU -
MMAudio
原始套件名稱:hkchengrex/MMAudio
詳細說明:結合影片與文字輸入生成同步音頻,能自動匹配影像內容並添加解說、配樂或環境聲效。
應用:企業宣傳片配音、教學影片自動配音、社交媒體短片。 -
UVR5-WebUI
原始套件名稱:UVR5-WebUI
詳細說明:基於 UVR5 模型的音訊分離 WebUI,支援分離聲樂、伴奏、環境音等多軌,並可選擇不同分離精度。
系統需求:8GB GPU -
ZETA
原始套件名稱:hilamanor/audioEditing
詳細說明:零樣本文本編輯音頻工具,基於 DDPM 反演可對音訊進行增減聲源、去噪與剪輯,並可導入至 DAW 軟件進行後製。
應用:Podcast 後製、語音訊號修復、音效剪輯。
三、影像生成與擴散(Diffusion)
-
ComfyUI
原始套件名稱:comfyanonymous/ComfyUI
詳細說明:以可視化節點圖方式構建擴散模型管線,用戶可自由組合文本編碼、圖像解碼、後處理等節點。支持插件擴展、批量處理與自定義節點開發。
系統需求:12GB GPU -
omnigen
原始套件名稱:Shitao/OmniGen
詳細說明:全能圖像生成模型,涵蓋文本→圖、圖→圖、主體驅動生成、身份保留生成等多種任務,且 API 設計統一,方便整合至生產環境。
應用:電商產品圖、社媒創意圖、虛擬人像生成。
系統需求:16GB GPU -
artist
原始套件名稱:fffiloni/Artist
詳細說明:零訓練圖像風格化工具,用戶僅需提供原圖與風格描述,Artist 即可融合彩色、紋理與風格元素,實現即時試色與風格遷移。
系統需求:8GB GPU -
diffusers-image-fill
原始套件名稱:OzzyGT/diffusers-image-fill
詳細說明:基於 Hugging Face Diffusers 的圖像填充工具,可在移除指定物件後自動生成一致風格的背景,並可調整填充強度與細節層級。
系統需求:10GB GPU -
InstantIR
原始套件名稱:fffiloni/InstantIR
詳細說明:即時圖像修復模型,支持恢復低解析或損壞圖像並根據文字提示進行重建。
用例:舊照片修復、失真圖像重建、藝術修復。
系統需求:8GB GPU -
brushnet
原始套件名稱:TencentARC/BrushNet
詳細說明:雙分支抹除與擴散模型,針對圖像區域進行精細修補,支持複雜邊緣與紋理保留。
系統需求:12GB GPU -
PCM
原始套件名稱:radames/Phased-Consistency-Model-PCM
詳細說明:兩步驟相位一致性擴散模型,兼具快速與高品質生成,適合需要即時反饋及微調效果的應用。
系統需求:8GB GPU -
Ilaria-Upscaler-Zero
原始套件名稱:Ilaria-Upscaler-Zero
詳細說明:零樣本超分辨率模型,無需額外訓練即可對任何圖像進行最高 4x 放大並保留細節。
應用:電子商務高清圖、視頻幀升級、數位修復。
系統需求:6GB GPU -
InvSR
原始套件名稱:InvSR
詳細說明:條件式擴散超分辨模型,提供 CLI 與 API,可批量放大數千張圖像,並內置多種強化預設。
系統需求:12GB GPU -
SD-Next
原始套件名稱:SD-Next
詳細說明:Stable Diffusion 的下一代優化版本,增強紋理細節、色彩穩定性與生成效率。
系統需求:16GB GPU -
LEDITS++
原始套件名稱:LEDITS++
詳細說明:無限制文本驅動圖像編輯工具,支持局部編輯、遮罩擴散與全圖重繪,可兼容多種擴散後端。
系統需求:10GB GPU -
StyleAligned
原始套件名稱:Style-Aligned-Gen
詳細說明:透過共享注意力 (Shared Attention) 同步處理風格與內容,生成的圖像在視覺風格與結構保持方面達到最佳平衡。
系統需求:12GB GPU -
ZeST
原始套件名稱:fffiloni/ZeST
詳細說明:零樣本材質轉換模型,僅需一張材質範例與目標圖,即可將該材質融入目標圖像中,適用於遊戲場景材質替換與設計提案。
系統需求:8GB GPU -
Differential-Diffusion-UI
原始套件名稱:differential-diffusion
詳細說明:區域定向擴散編輯工具,用戶可上傳「變更量圖」指定各區域編輯強度,配合文字提示精準修改圖像。
系統需求:10GB GPU -
flashdiffusion
原始套件名稱:flash-diffusion-project
詳細說明:以少於 10 步的快速採樣生成高品質圖像,支持多種條件與無條件生成。
系統需求:8GB GPU -
illusion-diffusion-HQ
原始套件名稱:Illusion-Diffusion-HQ
詳細說明:專注於高品質圖像細節與色彩校正的擴散引擎,適合專業影像後製與廣告素材生成。
系統需求:16GB GPU
五、影片生成與處理
FramePack
原始套件名稱:lllyasviel/FramePack
詳細說明:逐段生成影片的下一幀預測網絡,採用分塊方式生成長影片,提高時序一致性與細節連貫性。支持批量處理與可視化預覽。
使用場景:動畫制作、短片生成、遊戲過場動畫。
系統需求:12GB GPU、Python 3.9+PyramidFlow
原始套件名稱:jy0205/Pyramid-Flow
詳細說明:金字塔流架構的視頻生成模型,支持文本或多幀圖像條件輸入,能在不同解析度層級逐層生成,提升畫面穩定性與細節豐富度。
使用場景:影像特效、電影預覽、廣告內容制作。
系統需求:16GB GPU、FFMPEGCogVideo (CogStudio)
原始套件名稱:THUDM/CogVideo
/cocktailpeanut/deeperhermes
詳細說明:支持文本→視頻、圖像→視頻、視頻續播與視頻來回編輯。CogStudio 提供高級 WebUI,允許用戶調整生成參數(幀率、分辨率、時長),並在生成過程中實時監控進度。
系統需求:10GB+ VRAM、Node.js、GradioVideoCrafter 2
原始套件名稱:AILab-CVC/VideoCrafter
詳細說明:集成 Text2Video 與 Image2Video 模型,並附帶影片剪輯、轉場、濾鏡與字幕功能的工具箱。支持多軌編輯與時間軸管理,適合專業內容創作者。
系統需求:14GB GPU、CUDA 11.4HunyuanVideo
原始套件名稱:deepbeepmeep/HunyuanVideoGP
詳細說明:專為 5GB VRAM+ GPU 優化的 Hunyuan Video Gradio UI,可生成 10-14 秒高質量視頻,支持批量輸出與 JSON API 調用。
系統需求:6GB GPU、GradioWan 2.1
原始套件名稱:deepbeepmeep/Wan2GP
詳細說明:低 GPU 資源下運行的 Wan2.1 Gradio UI,可生成最多 12 秒的視頻。內建緩存和模型分塊加載機制,適用入門級創作者。
系統需求:5GB GPUAllegro-txt2vid
原始套件名稱:rhymes-ai/Allegro
詳細說明:使用 Allegro 模型根據文字描述生成視頻,支持調節幀率、分辨率與長度上限,可生成動態短片與廣告預覽。
系統需求:12GB GPULaVie
原始套件名稱:Vchitect/LaVie
詳細說明:開源 Text-to-Video 框架,提供多種生成策略(如時間編碼、拼接合成),並支持場景切換與對象跟踪。
系統需求:16GB GPUVid2DensePose / vid2pose / Video2Openpose
原始套件名稱:Flode-Labs/vid2densepose
;sdbds/vid2pose
;fffiloni/video2openpose2
詳細說明:將視頻轉為 DensePose、DWpose 或 OpenPose 表示,方便動畫骨架提取、動作捕捉與後續運動分析。
系統需求:8GB GPULivePortrait
原始套件名稱:KwaiVGI/LivePortrait
詳細說明:將靜態人臉照片生動化,支持面部表情與視線跟蹤,可輸出短視頻或動態貼圖。
系統需求:6GB GPU
六、3D 智能與生成
cube
原始套件名稱:Roblox/cube
詳細說明:Roblox 基礎 3D 智能模型,能理解場景結構並生成初步 3D 物件,支持多平台部署(Mac/Windows/Linux)。
使用場景:遊戲原型設計、快速場景搭建、虛擬世界生成。
系統需求:16GB+ VRAMHunyuan3D-2-LowVRAM
原始套件名稱:deepbeepmeep/Hunyuan3D-2GP
詳細說明:基於大規模擴散的高解析度 3D 資產生成模型,經過低 VRAM 優化,可在 8GB GPU 上運行,支持 OBJ/GLTF 輸出。
系統需求:8GB GPUdust3r
原始套件名稱:dust3r
詳細說明:易用的幾何 3D 視覺工具,支持點雲重建、網格細分與紋理貼圖流程。
使用場景:文化遺產修復、建築掃描、3D 打印前處理。
系統需求:無 GPU 要求,建議 16GB RAMDetailGen3D
原始套件名稱:DetailGen3D
詳細說明:專為 Pinokio 平台打造的 3D 細節增強安裝腳本,自動下載並配置 DetailGen3D 模型,提升網格細節和貼圖品質。
系統需求:Pinokio 環境、12GB GPUvfusion3d-pinokio
原始套件名稱:facebookresearch/vfusion3d
詳細說明:Facebook 研究團隊推出的視頻到 3D 合成腳本,能從單視角視頻中重建三維場景。
系統需求:Pinokio、12GB GPUdensediffusion.pinokio
原始套件名稱:naver-ai/DenseDiffusion
詳細說明:一鍵安裝 Naver AI 密集擴散 3D 模型,支持高質量網格生成與多種輸出格式。
系統需求:Pinokio、10GB GPU
七、圖形化介面/WebUI 平台
Open WebUI
原始套件名稱:open-webui/open-webui
詳細說明:通用 LLM WebUI,支持 Ollama Runner、OpenAI-compatible API,提供多欄視圖、即時參數調整、聊天歷史與插件擴展。
系統需求:Node.js、Python 3.8、8GB RAMText Generation WebUI
原始套件名稱:oobabooga/text-generation-webui
詳細說明:Gradio 構建的 LLM 交互平台,提供模型切換、參數微調(溫度、top-k)、批量輸入與導出,適合研究與日常使用。
系統需求:Python 3.9、CUDA 11.1Whisper-WebUI
原始套件名稱:Whisper-WebUI
詳細說明:基於 OpenAI Whisper 的語音識別與字幕工具,支持自動語言檢測、時間軸編輯與多格式導出 (SRT/JSON)。
系統需求:8GB GPU、FFMPEGbolt.diy / bolt.new
原始套件名稱:stackblitz-labs/bolt.diy
詳細說明:瀏覽器內 AI 全棧 Web 應用生成平台,利用自然語言提示即時創建 CRUD、表單、API 端點,並支持一鍵部署到 Netlify。
系統需求:現代瀏覽器(Chrome/Edge)、互聯網連接browser-use / macOS-use
原始套件名稱:browser-use/web-ui
;browser-use/macOS-use
詳細說明:AI 代理通過瀏覽器或 macOS 應用自動化操作網頁與桌面軟件,支持點擊、輸入、截圖等操作。
系統需求:Chrome 瀏覽器或 macOS 12+SillyTavern
原始套件名稱:SillyTavern
詳細說明:本地化角色扮演式對話 UI,支持多角色設定、Markdown 格式消息、插件擴展與語音輸入。
系統需求:Node.js、Python 3.9
八、AI 代理與開發框架
AutoGPT
原始套件名稱:Significant-Gravitas/AutoGPT
詳細說明:自主任務分解與執行代理,能讀寫本地文件、發送 API 請求、互動網頁並持續迭代。適用於自動市場分析、定期報表生成等場景。
系統需求:Python 3.8、OpenAI API Keydevika
原始套件名稱:stitionai/devika
詳細說明:AI 軟體工程師代理,擁有編寫程式、單元測試與除錯能力,能自動完成 GitHub Issue 與 PR。
系統需求:Python 3.10、Gitai-git-developer
原始套件名稱:ai-git-developer
詳細說明:結合 ChatGPT 與 GitHub CLI 的雲端 AI 開發助手,可 clone 任意 Repo、執行代碼更改並自動發起 PR。
系統需求:Python 3.9、GitHub Tokenditto
原始套件名稱:yoheinakajima/ditto
詳細說明:最簡易的程式碼代理,根據提示自動生成、測試並提交程式碼片段,並可集成 CI/CD 流水線。
系統需求:Node.js、Python 3.9superagi_pinokio
原始套件名稱:superagi_pinokio
詳細說明:Pinokio 平台上的多代理工作流示例,包括任務分配、結果集成與異常處理。
系統需求:Pinokio 環境LocalAIVtuber
原始套件名稱:LocalAIVtuber
詳細說明:離線運行的虛擬主播解決方案,集成語音合成、面部追蹤與動畫輸出,適用於直播與短視頻內容。
系統需求:8GB GPU、OpenCVAITown
原始套件名稱:a16z-infra/ai-town
詳細說明:虛擬小鎮模擬環境,AI 角色可聊天、執行腳本與互動,適合作為社交 AI 示範平台。
系統需求:Python 3.8、WebSocket
九、Pinokio 生態與安裝腳本
以下為 Pinokio 生態下一鍵安裝與腳本化套件示例,涵蓋 TTS、影像、影片、3D、代理等多領域,並已優化對應作業系統與硬體需求:
FramePack / FP-Studio / Frame-Pack
facefusion-pinokio / FaceFusion
MMAudio
DetailGen3D
VACE-Pinokio
Orpheus-TTS-FastAPI
MatAnyone
AudioX
Kokoro-TTS
RuinedFooocus
Index-TTS-Pinokio
Sana-Sprint-1.6B
StyleTTS2_Studio / StyleTTS2 Studio
Realtime-Transcription
TRELLIS
ComfyDock-Pinokio
KD-Talker
Advanced-RVC-Pinokio / RVC
LlasaTTS-windows
deeperhermes / Deeper Hermes
AnimateDiff / animatediff.pinokio
Diffusers-Image-Outpainting
Spark-TTS-Pinokio
clarity-refiners-ui
slides2video-pinokio-script
Ovis2-8B-
Florence-2-Image-Captioning
BEN2
Image-Upscale
Leffa
IC-Light-Ultimate-Studio
UVR5-UI-pinokio / UVR5-WebUI
Deepseek-ai-Janus-Pro-7B
InvSR
roop-unleashed
LatentSync-Pinokio
AdvancedLivePortraitWebUI
Allegro-ti2v-c
iopaint-pinokio
GLM4Voice
pinokio-computer-bolt.new
fish-speech / fish
SD-Next
illusion-diffusion-HQ
joy-caption-alpha-two-GUImod / joy-caption-alpha-2
whisper-large-v3
RVC-WebUI-Pinokio
TabbyAPI-Pinokio
StyleTTS-WebUI.pinokio
Dough-pinokio
peers-check
FlashFace
DatasetHelpers
kohya_ss
Taggui
vfusion3d-pinokio
ldm3d.pinokio
densediffusion.pinokio
VALL-E-X.pinokio
text-generation-webui.pinokio
pinokio-reforge
ai-git-developer
fooocus-API-pinokio
langflow.pinokio
VASR-for-Pinokio
OneTrainerPinokio
sdxs-pinokio
autogen-studio-pinokio
tutorial.pinokio
instructir.pinokio
comfyui.pinokio
audiocraft_plus.pinokio
facefusion.pinokio
sd-webui.pinokio
AudioLDM2.pinokio
superagi_pinokio
沒有留言:
張貼留言