2025年5月5日 星期一

Pinokio 所有套件名稱與內容說明

以下依功能簡易分類,並對所有套件內容提供詳細說明,包含使用場景、主要功能、系統需求與特色:


一、文字轉語音(TTS)

  • Dia
    原始套件名稱:nari-labs/dia
    詳細說明:Dia 是一個擁有 1.6B 參數的對話式 TTS 模型,專注於生成擬人化、節奏自然的對話語音。它支援在文字中標註情緒(如歡樂、悲傷、憤怒)以調整語調與語速,並能夠產生笑聲、咳嗽、清嗓等非語音效果。適用於虛擬角色配音、遊戲對話及互動式語音助理。
    系統需求:12GB GPU、Python 3.8+

  • Orpheus-TTS-FastAPI
    原始套件名稱:canopyai/Orpheus-TTS
    詳細說明:基於 Llama-3b 之上訓練的開源 TTS 系統,利用 LLM 的上下文理解能力提升語音自然度。內建多語者與語調切換功能,並可透過 FastAPI 部署為 RESTful 服務,實時回應文字合成請求。
    使用場景:客服機器人、語音播報、智慧助理微服務。
    系統需求:16GB GPU、FastAPI、PyTorch 2.0

  • zonos
    原始套件名稱:Zyphra/Zonos
    詳細說明:訓練於超過 200k 小時多語種資料的開源 TTS,支持八種語言(英、法、德、中文、日、韓、阿拉伯、西班牙)。具備情感建模與口音仿真能力,並提供簡易 API 供一鍵部署。
    適用領域:國際化語音產品、有聲書製作、多語客服。
    系統需求:10GB GPU、Transformers 庫

  • fish
    原始套件名稱:fishaudio/fish-speech
    詳細說明:多語種 TTS 平台,涵蓋主要語言並內建「聲音克隆」功能,只需數秒錄音即可模擬該語者風格。支援 SSML,可插入停頓、音量與動畫效果標記。
    用例:虛擬主播、跨國企業培訓、教育教材自動語音化。
    系統需求:8GB GPU、CUDA 11.3

  • MeloTTS
    原始套件名稱:myshell-ai/MeloTTS
    詳細說明:採用擴散與流匹配技術,生成高品質、接近自然人聲的多語 TTS,支持英、西、法、中、日、韓等六種語言,並可切換多種音色風格(新聞播報、溫暖廣播、角色配音)。
    系統需求:12GB GPU
    使用場景:有聲書平臺、教育應用、智能導航語音。

  • e2-f5-tts
    原始套件名稱:mrfakename/E2-F5-TTS
    詳細說明:以「Flow Matching」為基礎的新一代 TTS 模型,兼顧真實度與速度,內建降噪機制可減少背景噪音。提供命令行工具與 Python SDK,可調速、調高音頻參數。
    系統需求:8GB GPU

  • parler-tts
    原始套件名稱:parler-tts/parler_tts_mini
    詳細說明:輕量級 TTS 引擎,模型僅數十 MB,適合邊緣設備與嵌入式系統。可透過命令行指定說話速度、音高、混響與背景噪音等參數。
    系統需求:無 GPU 也能運行,建議 CPU 4 核以上。

  • Spark-TTS
    原始套件名稱:Spark-TTS
    詳細說明:集成語音合成與聲音克隆功能的工具包,提供 GUI 與 CLI 雙界面,支援 Windows、Linux 平台。可自定義多角色音色,並通過微調生成特定角色語音。
    使用場景:直播配音、動畫配音、角色扮演語音服務。
    系統需求:16GB GPU

  • XTTS
    原始套件名稱:coqui/xtts
    詳細說明:零樣本聲音克隆模型,僅需 3 秒音頻樣本即可模仿該語者的聲音風格,並支持跨語言發聲。常用於虛擬主播、遊戲 NPC 配音、角色扮演。
    系統需求:8GB GPU

  • RVC
    原始套件名稱:RVC-Project/Retrieval-based-Voice-Conversion-WebUI
    詳細說明:檢索基聲音轉換技術,可將輸入音頻轉換為目標語者的聲音,並保留語調與節奏一致性。WebUI 介面讓非技術用戶可簡單操作。
    系統需求:10GB GPU

  • Bark Voice Cloning
    原始套件名稱:fffiloni/instant-TTS-Bark-cloning
    詳細說明:基於 Bark TTS 架構的聲音克隆方案,需提供至少 20 秒清錄 WAV 即可生成自訂 TTS 模型,並可在本地離線生成語音。
    系統需求:12GB GPU

  • alltalk-tts
    原始套件名稱:alltalk-tts
    詳細說明:整合多種主流 TTS(E5-TTS、XTTS、Piper、Piper TTS、Parler TTS、RVC),提供統一 UI、低 VRAM 支援、DeepSpeed 加速與模型微調功能。
    系統需求:8GB+ VRAM GPU


二、音樂與音效生成/編輯

  • DiffRhythm
    原始套件名稱:ASLP-lab/DiffRhythm
    詳細說明:基於擴散模型的歌曲生成系統,可輸出長度達 4 分 45 秒的音樂,並支持帶歌詞或純樂模式。可輸入旋律片段、和弦進行或歌詞提示,自動生成完整曲目。
    使用場景:獨立音樂人作曲、遊戲背景音樂、短影片配樂。
    系統需求:12GB GPU

  • MAGNeT
    原始套件名稱:facebookresearch/audiocraft
    詳細說明:Meta AudioCraft 的文字→音樂與文字→音效模組,能根據文字描述生成多種風格的音樂片段(古典、流行、電子等),並可調節節奏與樂器配置。
    系統需求:16GB GPU

  • StableAudio
    原始套件名稱:Stability-AI/stable-audio-tools
    詳細說明:Stability AI 推出的開源音頻設計套件,內含音樂合成、音效生成與樣本混合功能,提供 Python API 與 CLI。
    使用場景:廣告音效製作、遊戲音頻開發、音頻後期處理。

  • AudioSep
    原始套件名稱:Audio-AGI/AudioSep
    詳細說明:文字驅動的通用音頻分離工具,僅需文字描述(如「提取人聲」、「分離鼓聲」)即可將音軌分離為多個成分,並保持時間一致性。
    系統需求:10GB GPU

  • MMAudio
    原始套件名稱:hkchengrex/MMAudio
    詳細說明:結合影片與文字輸入生成同步音頻,能自動匹配影像內容並添加解說、配樂或環境聲效。
    應用:企業宣傳片配音、教學影片自動配音、社交媒體短片。

  • UVR5-WebUI
    原始套件名稱:UVR5-WebUI
    詳細說明:基於 UVR5 模型的音訊分離 WebUI,支援分離聲樂、伴奏、環境音等多軌,並可選擇不同分離精度。
    系統需求:8GB GPU

  • ZETA
    原始套件名稱:hilamanor/audioEditing
    詳細說明:零樣本文本編輯音頻工具,基於 DDPM 反演可對音訊進行增減聲源、去噪與剪輯,並可導入至 DAW 軟件進行後製。
    應用:Podcast 後製、語音訊號修復、音效剪輯。


三、影像生成與擴散(Diffusion)

  • ComfyUI
    原始套件名稱:comfyanonymous/ComfyUI
    詳細說明:以可視化節點圖方式構建擴散模型管線,用戶可自由組合文本編碼、圖像解碼、後處理等節點。支持插件擴展、批量處理與自定義節點開發。
    系統需求:12GB GPU

  • omnigen
    原始套件名稱:Shitao/OmniGen
    詳細說明:全能圖像生成模型,涵蓋文本→圖、圖→圖、主體驅動生成、身份保留生成等多種任務,且 API 設計統一,方便整合至生產環境。
    應用:電商產品圖、社媒創意圖、虛擬人像生成。
    系統需求:16GB GPU

  • artist
    原始套件名稱:fffiloni/Artist
    詳細說明:零訓練圖像風格化工具,用戶僅需提供原圖與風格描述,Artist 即可融合彩色、紋理與風格元素,實現即時試色與風格遷移。
    系統需求:8GB GPU

  • diffusers-image-fill
    原始套件名稱:OzzyGT/diffusers-image-fill
    詳細說明:基於 Hugging Face Diffusers 的圖像填充工具,可在移除指定物件後自動生成一致風格的背景,並可調整填充強度與細節層級。
    系統需求:10GB GPU

  • InstantIR
    原始套件名稱:fffiloni/InstantIR
    詳細說明:即時圖像修復模型,支持恢復低解析或損壞圖像並根據文字提示進行重建。
    用例:舊照片修復、失真圖像重建、藝術修復。
    系統需求:8GB GPU

  • brushnet
    原始套件名稱:TencentARC/BrushNet
    詳細說明:雙分支抹除與擴散模型,針對圖像區域進行精細修補,支持複雜邊緣與紋理保留。
    系統需求:12GB GPU

  • PCM
    原始套件名稱:radames/Phased-Consistency-Model-PCM
    詳細說明:兩步驟相位一致性擴散模型,兼具快速與高品質生成,適合需要即時反饋及微調效果的應用。
    系統需求:8GB GPU

  • Ilaria-Upscaler-Zero
    原始套件名稱:Ilaria-Upscaler-Zero
    詳細說明:零樣本超分辨率模型,無需額外訓練即可對任何圖像進行最高 4x 放大並保留細節。
    應用:電子商務高清圖、視頻幀升級、數位修復。
    系統需求:6GB GPU

  • InvSR
    原始套件名稱:InvSR
    詳細說明:條件式擴散超分辨模型,提供 CLI 與 API,可批量放大數千張圖像,並內置多種強化預設。
    系統需求:12GB GPU

  • SD-Next
    原始套件名稱:SD-Next
    詳細說明:Stable Diffusion 的下一代優化版本,增強紋理細節、色彩穩定性與生成效率。
    系統需求:16GB GPU

  • LEDITS++
    原始套件名稱:LEDITS++
    詳細說明:無限制文本驅動圖像編輯工具,支持局部編輯、遮罩擴散與全圖重繪,可兼容多種擴散後端。
    系統需求:10GB GPU

  • StyleAligned
    原始套件名稱:Style-Aligned-Gen
    詳細說明:透過共享注意力 (Shared Attention) 同步處理風格與內容,生成的圖像在視覺風格與結構保持方面達到最佳平衡。
    系統需求:12GB GPU

  • ZeST
    原始套件名稱:fffiloni/ZeST
    詳細說明:零樣本材質轉換模型,僅需一張材質範例與目標圖,即可將該材質融入目標圖像中,適用於遊戲場景材質替換與設計提案。
    系統需求:8GB GPU

  • Differential-Diffusion-UI
    原始套件名稱:differential-diffusion
    詳細說明:區域定向擴散編輯工具,用戶可上傳「變更量圖」指定各區域編輯強度,配合文字提示精準修改圖像。
    系統需求:10GB GPU

  • flashdiffusion
    原始套件名稱:flash-diffusion-project
    詳細說明:以少於 10 步的快速採樣生成高品質圖像,支持多種條件與無條件生成。
    系統需求:8GB GPU

  • illusion-diffusion-HQ
    原始套件名稱:Illusion-Diffusion-HQ
    詳細說明:專注於高品質圖像細節與色彩校正的擴散引擎,適合專業影像後製與廣告素材生成。
    系統需求:16GB GPU

五、影片生成與處理

  • FramePack
    原始套件名稱:lllyasviel/FramePack
    詳細說明:逐段生成影片的下一幀預測網絡,採用分塊方式生成長影片,提高時序一致性與細節連貫性。支持批量處理與可視化預覽。
    使用場景:動畫制作、短片生成、遊戲過場動畫。
    系統需求:12GB GPU、Python 3.9+

  • PyramidFlow
    原始套件名稱:jy0205/Pyramid-Flow
    詳細說明:金字塔流架構的視頻生成模型,支持文本或多幀圖像條件輸入,能在不同解析度層級逐層生成,提升畫面穩定性與細節豐富度。
    使用場景:影像特效、電影預覽、廣告內容制作。
    系統需求:16GB GPU、FFMPEG

  • CogVideo (CogStudio)
    原始套件名稱:THUDM/CogVideococktailpeanut/deeperhermes
    詳細說明:支持文本→視頻、圖像→視頻、視頻續播與視頻來回編輯。CogStudio 提供高級 WebUI,允許用戶調整生成參數(幀率、分辨率、時長),並在生成過程中實時監控進度。
    系統需求:10GB+ VRAM、Node.js、Gradio

  • VideoCrafter 2
    原始套件名稱:AILab-CVC/VideoCrafter
    詳細說明:集成 Text2Video 與 Image2Video 模型,並附帶影片剪輯、轉場、濾鏡與字幕功能的工具箱。支持多軌編輯與時間軸管理,適合專業內容創作者。
    系統需求:14GB GPU、CUDA 11.4

  • HunyuanVideo
    原始套件名稱:deepbeepmeep/HunyuanVideoGP
    詳細說明:專為 5GB VRAM+ GPU 優化的 Hunyuan Video Gradio UI,可生成 10-14 秒高質量視頻,支持批量輸出與 JSON API 調用。
    系統需求:6GB GPU、Gradio

  • Wan 2.1
    原始套件名稱:deepbeepmeep/Wan2GP
    詳細說明:低 GPU 資源下運行的 Wan2.1 Gradio UI,可生成最多 12 秒的視頻。內建緩存和模型分塊加載機制,適用入門級創作者。
    系統需求:5GB GPU

  • Allegro-txt2vid
    原始套件名稱:rhymes-ai/Allegro
    詳細說明:使用 Allegro 模型根據文字描述生成視頻,支持調節幀率、分辨率與長度上限,可生成動態短片與廣告預覽。
    系統需求:12GB GPU

  • LaVie
    原始套件名稱:Vchitect/LaVie
    詳細說明:開源 Text-to-Video 框架,提供多種生成策略(如時間編碼、拼接合成),並支持場景切換與對象跟踪。
    系統需求:16GB GPU

  • Vid2DensePose / vid2pose / Video2Openpose
    原始套件名稱:Flode-Labs/vid2denseposesdbds/vid2posefffiloni/video2openpose2
    詳細說明:將視頻轉為 DensePose、DWpose 或 OpenPose 表示,方便動畫骨架提取、動作捕捉與後續運動分析。
    系統需求:8GB GPU

  • LivePortrait
    原始套件名稱:KwaiVGI/LivePortrait
    詳細說明:將靜態人臉照片生動化,支持面部表情與視線跟蹤,可輸出短視頻或動態貼圖。
    系統需求:6GB GPU


六、3D 智能與生成

  • cube
    原始套件名稱:Roblox/cube
    詳細說明:Roblox 基礎 3D 智能模型,能理解場景結構並生成初步 3D 物件,支持多平台部署(Mac/Windows/Linux)。
    使用場景:遊戲原型設計、快速場景搭建、虛擬世界生成。
    系統需求:16GB+ VRAM

  • Hunyuan3D-2-LowVRAM
    原始套件名稱:deepbeepmeep/Hunyuan3D-2GP
    詳細說明:基於大規模擴散的高解析度 3D 資產生成模型,經過低 VRAM 優化,可在 8GB GPU 上運行,支持 OBJ/GLTF 輸出。
    系統需求:8GB GPU

  • dust3r
    原始套件名稱:dust3r
    詳細說明:易用的幾何 3D 視覺工具,支持點雲重建、網格細分與紋理貼圖流程。
    使用場景:文化遺產修復、建築掃描、3D 打印前處理。
    系統需求:無 GPU 要求,建議 16GB RAM

  • DetailGen3D
    原始套件名稱:DetailGen3D
    詳細說明:專為 Pinokio 平台打造的 3D 細節增強安裝腳本,自動下載並配置 DetailGen3D 模型,提升網格細節和貼圖品質。
    系統需求:Pinokio 環境、12GB GPU

  • vfusion3d-pinokio
    原始套件名稱:facebookresearch/vfusion3d
    詳細說明:Facebook 研究團隊推出的視頻到 3D 合成腳本,能從單視角視頻中重建三維場景。
    系統需求:Pinokio、12GB GPU

  • densediffusion.pinokio
    原始套件名稱:naver-ai/DenseDiffusion
    詳細說明:一鍵安裝 Naver AI 密集擴散 3D 模型,支持高質量網格生成與多種輸出格式。
    系統需求:Pinokio、10GB GPU


七、圖形化介面/WebUI 平台

  • Open WebUI
    原始套件名稱:open-webui/open-webui
    詳細說明:通用 LLM WebUI,支持 Ollama Runner、OpenAI-compatible API,提供多欄視圖、即時參數調整、聊天歷史與插件擴展。
    系統需求:Node.js、Python 3.8、8GB RAM

  • Text Generation WebUI
    原始套件名稱:oobabooga/text-generation-webui
    詳細說明:Gradio 構建的 LLM 交互平台,提供模型切換、參數微調(溫度、top-k)、批量輸入與導出,適合研究與日常使用。
    系統需求:Python 3.9、CUDA 11.1

  • Whisper-WebUI
    原始套件名稱:Whisper-WebUI
    詳細說明:基於 OpenAI Whisper 的語音識別與字幕工具,支持自動語言檢測、時間軸編輯與多格式導出 (SRT/JSON)。
    系統需求:8GB GPU、FFMPEG

  • bolt.diy / bolt.new
    原始套件名稱:stackblitz-labs/bolt.diy
    詳細說明:瀏覽器內 AI 全棧 Web 應用生成平台,利用自然語言提示即時創建 CRUD、表單、API 端點,並支持一鍵部署到 Netlify。
    系統需求:現代瀏覽器(Chrome/Edge)、互聯網連接

  • browser-use / macOS-use
    原始套件名稱:browser-use/web-uibrowser-use/macOS-use
    詳細說明:AI 代理通過瀏覽器或 macOS 應用自動化操作網頁與桌面軟件,支持點擊、輸入、截圖等操作。
    系統需求:Chrome 瀏覽器或 macOS 12+

  • SillyTavern
    原始套件名稱:SillyTavern
    詳細說明:本地化角色扮演式對話 UI,支持多角色設定、Markdown 格式消息、插件擴展與語音輸入。
    系統需求:Node.js、Python 3.9


八、AI 代理與開發框架

  • AutoGPT
    原始套件名稱:Significant-Gravitas/AutoGPT
    詳細說明:自主任務分解與執行代理,能讀寫本地文件、發送 API 請求、互動網頁並持續迭代。適用於自動市場分析、定期報表生成等場景。
    系統需求:Python 3.8、OpenAI API Key

  • devika
    原始套件名稱:stitionai/devika
    詳細說明:AI 軟體工程師代理,擁有編寫程式、單元測試與除錯能力,能自動完成 GitHub Issue 與 PR。
    系統需求:Python 3.10、Git

  • ai-git-developer
    原始套件名稱:ai-git-developer
    詳細說明:結合 ChatGPT 與 GitHub CLI 的雲端 AI 開發助手,可 clone 任意 Repo、執行代碼更改並自動發起 PR。
    系統需求:Python 3.9、GitHub Token

  • ditto
    原始套件名稱:yoheinakajima/ditto
    詳細說明:最簡易的程式碼代理,根據提示自動生成、測試並提交程式碼片段,並可集成 CI/CD 流水線。
    系統需求:Node.js、Python 3.9

  • superagi_pinokio
    原始套件名稱:superagi_pinokio
    詳細說明:Pinokio 平台上的多代理工作流示例,包括任務分配、結果集成與異常處理。
    系統需求:Pinokio 環境

  • LocalAIVtuber
    原始套件名稱:LocalAIVtuber
    詳細說明:離線運行的虛擬主播解決方案,集成語音合成、面部追蹤與動畫輸出,適用於直播與短視頻內容。
    系統需求:8GB GPU、OpenCV

  • AITown
    原始套件名稱:a16z-infra/ai-town
    詳細說明:虛擬小鎮模擬環境,AI 角色可聊天、執行腳本與互動,適合作為社交 AI 示範平台。
    系統需求:Python 3.8、WebSocket


九、Pinokio 生態與安裝腳本

以下為 Pinokio 生態下一鍵安裝與腳本化套件示例,涵蓋 TTS、影像、影片、3D、代理等多領域,並已優化對應作業系統與硬體需求:

  • FramePack / FP-Studio / Frame-Pack

  • facefusion-pinokio / FaceFusion

  • MMAudio

  • DetailGen3D

  • VACE-Pinokio

  • Orpheus-TTS-FastAPI

  • MatAnyone

  • AudioX

  • Kokoro-TTS

  • RuinedFooocus

  • Index-TTS-Pinokio

  • Sana-Sprint-1.6B

  • StyleTTS2_Studio / StyleTTS2 Studio

  • Realtime-Transcription

  • TRELLIS

  • ComfyDock-Pinokio

  • KD-Talker

  • Advanced-RVC-Pinokio / RVC

  • LlasaTTS-windows

  • deeperhermes / Deeper Hermes

  • AnimateDiff / animatediff.pinokio

  • Diffusers-Image-Outpainting

  • Spark-TTS-Pinokio

  • clarity-refiners-ui

  • slides2video-pinokio-script

  • Ovis2-8B-

  • Florence-2-Image-Captioning

  • BEN2

  • Image-Upscale

  • Leffa

  • IC-Light-Ultimate-Studio

  • UVR5-UI-pinokio / UVR5-WebUI

  • Deepseek-ai-Janus-Pro-7B

  • InvSR

  • roop-unleashed

  • LatentSync-Pinokio

  • AdvancedLivePortraitWebUI

  • Allegro-ti2v-c

  • iopaint-pinokio

  • GLM4Voice

  • pinokio-computer-bolt.new

  • fish-speech / fish

  • SD-Next

  • illusion-diffusion-HQ

  • joy-caption-alpha-two-GUImod / joy-caption-alpha-2

  • whisper-large-v3

  • RVC-WebUI-Pinokio

  • TabbyAPI-Pinokio

  • StyleTTS-WebUI.pinokio

  • Dough-pinokio

  • peers-check

  • FlashFace

  • DatasetHelpers

  • kohya_ss

  • Taggui

  • vfusion3d-pinokio

  • ldm3d.pinokio

  • densediffusion.pinokio

  • VALL-E-X.pinokio

  • text-generation-webui.pinokio

  • pinokio-reforge

  • ai-git-developer

  • fooocus-API-pinokio

  • langflow.pinokio

  • VASR-for-Pinokio

  • OneTrainerPinokio

  • sdxs-pinokio

  • autogen-studio-pinokio

  • tutorial.pinokio

  • instructir.pinokio

  • comfyui.pinokio

  • audiocraft_plus.pinokio

  • facefusion.pinokio

  • sd-webui.pinokio

  • AudioLDM2.pinokio

  • superagi_pinokio

沒有留言:

張貼留言