自造者時代-文盛老師的創意天空: Pinokio 所有套件名稱與內容說明

2025年5月5日星期一

Pinokio 所有套件名稱與內容說明

以下依功能簡易分類，並對所有套件內容提供詳細說明，包含使用場景、主要功能、系統需求與特色：

一、文字轉語音（TTS）

Dia
原始套件名稱：nari-labs/dia
詳細說明：Dia 是一個擁有 1.6B 參數的對話式 TTS 模型，專注於生成擬人化、節奏自然的對話語音。它支援在文字中標註情緒（如歡樂、悲傷、憤怒）以調整語調與語速，並能夠產生笑聲、咳嗽、清嗓等非語音效果。適用於虛擬角色配音、遊戲對話及互動式語音助理。
系統需求：12GB GPU、Python 3.8+
Orpheus-TTS-FastAPI
原始套件名稱：canopyai/Orpheus-TTS
詳細說明：基於 Llama-3b 之上訓練的開源 TTS 系統，利用 LLM 的上下文理解能力提升語音自然度。內建多語者與語調切換功能，並可透過 FastAPI 部署為 RESTful 服務，實時回應文字合成請求。
使用場景：客服機器人、語音播報、智慧助理微服務。
系統需求：16GB GPU、FastAPI、PyTorch 2.0
zonos
原始套件名稱：Zyphra/Zonos
詳細說明：訓練於超過 200k 小時多語種資料的開源 TTS，支持八種語言（英、法、德、中文、日、韓、阿拉伯、西班牙）。具備情感建模與口音仿真能力，並提供簡易 API 供一鍵部署。
適用領域：國際化語音產品、有聲書製作、多語客服。
系統需求：10GB GPU、Transformers 庫
fish
原始套件名稱：fishaudio/fish-speech
詳細說明：多語種 TTS 平台，涵蓋主要語言並內建「聲音克隆」功能，只需數秒錄音即可模擬該語者風格。支援 SSML，可插入停頓、音量與動畫效果標記。
用例：虛擬主播、跨國企業培訓、教育教材自動語音化。
系統需求：8GB GPU、CUDA 11.3
MeloTTS
原始套件名稱：myshell-ai/MeloTTS
詳細說明：採用擴散與流匹配技術，生成高品質、接近自然人聲的多語 TTS，支持英、西、法、中、日、韓等六種語言，並可切換多種音色風格（新聞播報、溫暖廣播、角色配音）。
系統需求：12GB GPU
使用場景：有聲書平臺、教育應用、智能導航語音。
e2-f5-tts
原始套件名稱：mrfakename/E2-F5-TTS
詳細說明：以「Flow Matching」為基礎的新一代 TTS 模型，兼顧真實度與速度，內建降噪機制可減少背景噪音。提供命令行工具與 Python SDK，可調速、調高音頻參數。
系統需求：8GB GPU
parler-tts
原始套件名稱：parler-tts/parler_tts_mini
詳細說明：輕量級 TTS 引擎，模型僅數十 MB，適合邊緣設備與嵌入式系統。可透過命令行指定說話速度、音高、混響與背景噪音等參數。
系統需求：無 GPU 也能運行，建議 CPU 4 核以上。
Spark-TTS
原始套件名稱：Spark-TTS
詳細說明：集成語音合成與聲音克隆功能的工具包，提供 GUI 與 CLI 雙界面，支援 Windows、Linux 平台。可自定義多角色音色，並通過微調生成特定角色語音。
使用場景：直播配音、動畫配音、角色扮演語音服務。
系統需求：16GB GPU
XTTS
原始套件名稱：coqui/xtts
詳細說明：零樣本聲音克隆模型，僅需 3 秒音頻樣本即可模仿該語者的聲音風格，並支持跨語言發聲。常用於虛擬主播、遊戲 NPC 配音、角色扮演。
系統需求：8GB GPU
RVC
原始套件名稱：RVC-Project/Retrieval-based-Voice-Conversion-WebUI
詳細說明：檢索基聲音轉換技術，可將輸入音頻轉換為目標語者的聲音，並保留語調與節奏一致性。WebUI 介面讓非技術用戶可簡單操作。
系統需求：10GB GPU
Bark Voice Cloning
原始套件名稱：fffiloni/instant-TTS-Bark-cloning
詳細說明：基於 Bark TTS 架構的聲音克隆方案，需提供至少 20 秒清錄 WAV 即可生成自訂 TTS 模型，並可在本地離線生成語音。
系統需求：12GB GPU
alltalk-tts
原始套件名稱：alltalk-tts
詳細說明：整合多種主流 TTS（E5-TTS、XTTS、Piper、Piper TTS、Parler TTS、RVC），提供統一 UI、低 VRAM 支援、DeepSpeed 加速與模型微調功能。
系統需求：8GB+ VRAM GPU

二、音樂與音效生成／編輯

DiffRhythm
原始套件名稱：ASLP-lab/DiffRhythm
詳細說明：基於擴散模型的歌曲生成系統，可輸出長度達 4 分 45 秒的音樂，並支持帶歌詞或純樂模式。可輸入旋律片段、和弦進行或歌詞提示，自動生成完整曲目。
使用場景：獨立音樂人作曲、遊戲背景音樂、短影片配樂。
系統需求：12GB GPU
MAGNeT
原始套件名稱：facebookresearch/audiocraft
詳細說明：Meta AudioCraft 的文字→音樂與文字→音效模組，能根據文字描述生成多種風格的音樂片段（古典、流行、電子等），並可調節節奏與樂器配置。
系統需求：16GB GPU
StableAudio
原始套件名稱：Stability-AI/stable-audio-tools
詳細說明：Stability AI 推出的開源音頻設計套件，內含音樂合成、音效生成與樣本混合功能，提供 Python API 與 CLI。
使用場景：廣告音效製作、遊戲音頻開發、音頻後期處理。
AudioSep
原始套件名稱：Audio-AGI/AudioSep
詳細說明：文字驅動的通用音頻分離工具，僅需文字描述（如「提取人聲」、「分離鼓聲」）即可將音軌分離為多個成分，並保持時間一致性。
系統需求：10GB GPU
MMAudio
原始套件名稱：hkchengrex/MMAudio
詳細說明：結合影片與文字輸入生成同步音頻，能自動匹配影像內容並添加解說、配樂或環境聲效。
應用：企業宣傳片配音、教學影片自動配音、社交媒體短片。
UVR5-WebUI
原始套件名稱：UVR5-WebUI
詳細說明：基於 UVR5 模型的音訊分離 WebUI，支援分離聲樂、伴奏、環境音等多軌，並可選擇不同分離精度。
系統需求：8GB GPU
ZETA
原始套件名稱：hilamanor/audioEditing
詳細說明：零樣本文本編輯音頻工具，基於 DDPM 反演可對音訊進行增減聲源、去噪與剪輯，並可導入至 DAW 軟件進行後製。
應用：Podcast 後製、語音訊號修復、音效剪輯。

三、影像生成與擴散（Diffusion）

ComfyUI
原始套件名稱：comfyanonymous/ComfyUI
詳細說明：以可視化節點圖方式構建擴散模型管線，用戶可自由組合文本編碼、圖像解碼、後處理等節點。支持插件擴展、批量處理與自定義節點開發。
系統需求：12GB GPU
omnigen
原始套件名稱：Shitao/OmniGen
詳細說明：全能圖像生成模型，涵蓋文本→圖、圖→圖、主體驅動生成、身份保留生成等多種任務，且 API 設計統一，方便整合至生產環境。
應用：電商產品圖、社媒創意圖、虛擬人像生成。
系統需求：16GB GPU
artist
原始套件名稱：fffiloni/Artist
詳細說明：零訓練圖像風格化工具，用戶僅需提供原圖與風格描述，Artist 即可融合彩色、紋理與風格元素，實現即時試色與風格遷移。
系統需求：8GB GPU
diffusers-image-fill
原始套件名稱：OzzyGT/diffusers-image-fill
詳細說明：基於 Hugging Face Diffusers 的圖像填充工具，可在移除指定物件後自動生成一致風格的背景，並可調整填充強度與細節層級。
系統需求：10GB GPU
InstantIR
原始套件名稱：fffiloni/InstantIR
詳細說明：即時圖像修復模型，支持恢復低解析或損壞圖像並根據文字提示進行重建。
用例：舊照片修復、失真圖像重建、藝術修復。
系統需求：8GB GPU
brushnet
原始套件名稱：TencentARC/BrushNet
詳細說明：雙分支抹除與擴散模型，針對圖像區域進行精細修補，支持複雜邊緣與紋理保留。
系統需求：12GB GPU
PCM
原始套件名稱：radames/Phased-Consistency-Model-PCM
詳細說明：兩步驟相位一致性擴散模型，兼具快速與高品質生成，適合需要即時反饋及微調效果的應用。
系統需求：8GB GPU
Ilaria-Upscaler-Zero
原始套件名稱：Ilaria-Upscaler-Zero
詳細說明：零樣本超分辨率模型，無需額外訓練即可對任何圖像進行最高 4x 放大並保留細節。
應用：電子商務高清圖、視頻幀升級、數位修復。
系統需求：6GB GPU
InvSR
原始套件名稱：InvSR
詳細說明：條件式擴散超分辨模型，提供 CLI 與 API，可批量放大數千張圖像，並內置多種強化預設。
系統需求：12GB GPU
SD-Next
原始套件名稱：SD-Next
詳細說明：Stable Diffusion 的下一代優化版本，增強紋理細節、色彩穩定性與生成效率。
系統需求：16GB GPU
LEDITS++
原始套件名稱：LEDITS++
詳細說明：無限制文本驅動圖像編輯工具，支持局部編輯、遮罩擴散與全圖重繪，可兼容多種擴散後端。
系統需求：10GB GPU
StyleAligned
原始套件名稱：Style-Aligned-Gen
詳細說明：透過共享注意力 (Shared Attention) 同步處理風格與內容，生成的圖像在視覺風格與結構保持方面達到最佳平衡。
系統需求：12GB GPU
ZeST
原始套件名稱：fffiloni/ZeST
詳細說明：零樣本材質轉換模型，僅需一張材質範例與目標圖，即可將該材質融入目標圖像中，適用於遊戲場景材質替換與設計提案。
系統需求：8GB GPU
Differential-Diffusion-UI
原始套件名稱：differential-diffusion
詳細說明：區域定向擴散編輯工具，用戶可上傳「變更量圖」指定各區域編輯強度，配合文字提示精準修改圖像。
系統需求：10GB GPU
flashdiffusion
原始套件名稱：flash-diffusion-project
詳細說明：以少於 10 步的快速採樣生成高品質圖像，支持多種條件與無條件生成。
系統需求：8GB GPU
illusion-diffusion-HQ
原始套件名稱：Illusion-Diffusion-HQ
詳細說明：專注於高品質圖像細節與色彩校正的擴散引擎，適合專業影像後製與廣告素材生成。
系統需求：16GB GPU

五、影片生成與處理

FramePack
原始套件名稱：lllyasviel/FramePack
詳細說明：逐段生成影片的下一幀預測網絡，採用分塊方式生成長影片，提高時序一致性與細節連貫性。支持批量處理與可視化預覽。
使用場景：動畫制作、短片生成、遊戲過場動畫。
系統需求：12GB GPU、Python 3.9+
PyramidFlow
原始套件名稱：jy0205/Pyramid-Flow
詳細說明：金字塔流架構的視頻生成模型，支持文本或多幀圖像條件輸入，能在不同解析度層級逐層生成，提升畫面穩定性與細節豐富度。
使用場景：影像特效、電影預覽、廣告內容制作。
系統需求：16GB GPU、FFMPEG
CogVideo (CogStudio)
原始套件名稱：THUDM/CogVideo／cocktailpeanut/deeperhermes
詳細說明：支持文本→視頻、圖像→視頻、視頻續播與視頻來回編輯。CogStudio 提供高級 WebUI，允許用戶調整生成參數（幀率、分辨率、時長），並在生成過程中實時監控進度。
系統需求：10GB+ VRAM、Node.js、Gradio
VideoCrafter 2
原始套件名稱：AILab-CVC/VideoCrafter
詳細說明：集成 Text2Video 與 Image2Video 模型，並附帶影片剪輯、轉場、濾鏡與字幕功能的工具箱。支持多軌編輯與時間軸管理，適合專業內容創作者。
系統需求：14GB GPU、CUDA 11.4
HunyuanVideo
原始套件名稱：deepbeepmeep/HunyuanVideoGP
詳細說明：專為 5GB VRAM+ GPU 優化的 Hunyuan Video Gradio UI，可生成 10-14 秒高質量視頻，支持批量輸出與 JSON API 調用。
系統需求：6GB GPU、Gradio
Wan 2.1
原始套件名稱：deepbeepmeep/Wan2GP
詳細說明：低 GPU 資源下運行的 Wan2.1 Gradio UI，可生成最多 12 秒的視頻。內建緩存和模型分塊加載機制，適用入門級創作者。
系統需求：5GB GPU
Allegro-txt2vid
原始套件名稱：rhymes-ai/Allegro
詳細說明：使用 Allegro 模型根據文字描述生成視頻，支持調節幀率、分辨率與長度上限，可生成動態短片與廣告預覽。
系統需求：12GB GPU
LaVie
原始套件名稱：Vchitect/LaVie
詳細說明：開源 Text-to-Video 框架，提供多種生成策略（如時間編碼、拼接合成），並支持場景切換與對象跟踪。
系統需求：16GB GPU
Vid2DensePose / vid2pose / Video2Openpose
原始套件名稱：Flode-Labs/vid2densepose；sdbds/vid2pose；fffiloni/video2openpose2
詳細說明：將視頻轉為 DensePose、DWpose 或 OpenPose 表示，方便動畫骨架提取、動作捕捉與後續運動分析。
系統需求：8GB GPU
LivePortrait
原始套件名稱：KwaiVGI/LivePortrait
詳細說明：將靜態人臉照片生動化，支持面部表情與視線跟蹤，可輸出短視頻或動態貼圖。
系統需求：6GB GPU

六、3D 智能與生成

cube
原始套件名稱：Roblox/cube
詳細說明：Roblox 基礎 3D 智能模型，能理解場景結構並生成初步 3D 物件，支持多平台部署（Mac/Windows/Linux）。
使用場景：遊戲原型設計、快速場景搭建、虛擬世界生成。
系統需求：16GB+ VRAM
Hunyuan3D-2-LowVRAM
原始套件名稱：deepbeepmeep/Hunyuan3D-2GP
詳細說明：基於大規模擴散的高解析度 3D 資產生成模型，經過低 VRAM 優化，可在 8GB GPU 上運行，支持 OBJ/GLTF 輸出。
系統需求：8GB GPU
dust3r
原始套件名稱：dust3r
詳細說明：易用的幾何 3D 視覺工具，支持點雲重建、網格細分與紋理貼圖流程。
使用場景：文化遺產修復、建築掃描、3D 打印前處理。
系統需求：無 GPU 要求，建議 16GB RAM
DetailGen3D
原始套件名稱：DetailGen3D
詳細說明：專為 Pinokio 平台打造的 3D 細節增強安裝腳本，自動下載並配置 DetailGen3D 模型，提升網格細節和貼圖品質。
系統需求：Pinokio 環境、12GB GPU
vfusion3d-pinokio
原始套件名稱：facebookresearch/vfusion3d
詳細說明：Facebook 研究團隊推出的視頻到 3D 合成腳本，能從單視角視頻中重建三維場景。
系統需求：Pinokio、12GB GPU
densediffusion.pinokio
原始套件名稱：naver-ai/DenseDiffusion
詳細說明：一鍵安裝 Naver AI 密集擴散 3D 模型，支持高質量網格生成與多種輸出格式。
系統需求：Pinokio、10GB GPU

七、圖形化介面／WebUI 平台

Open WebUI
原始套件名稱：open-webui/open-webui
詳細說明：通用 LLM WebUI，支持 Ollama Runner、OpenAI-compatible API，提供多欄視圖、即時參數調整、聊天歷史與插件擴展。
系統需求：Node.js、Python 3.8、8GB RAM
Text Generation WebUI
原始套件名稱：oobabooga/text-generation-webui
詳細說明：Gradio 構建的 LLM 交互平台，提供模型切換、參數微調（溫度、top-k）、批量輸入與導出，適合研究與日常使用。
系統需求：Python 3.9、CUDA 11.1
Whisper-WebUI
原始套件名稱：Whisper-WebUI
詳細說明：基於 OpenAI Whisper 的語音識別與字幕工具，支持自動語言檢測、時間軸編輯與多格式導出 (SRT/JSON)。
系統需求：8GB GPU、FFMPEG
bolt.diy / bolt.new
原始套件名稱：stackblitz-labs/bolt.diy
詳細說明：瀏覽器內 AI 全棧 Web 應用生成平台，利用自然語言提示即時創建 CRUD、表單、API 端點，並支持一鍵部署到 Netlify。
系統需求：現代瀏覽器(Chrome/Edge)、互聯網連接
browser-use / macOS-use
原始套件名稱：browser-use/web-ui；browser-use/macOS-use
詳細說明：AI 代理通過瀏覽器或 macOS 應用自動化操作網頁與桌面軟件，支持點擊、輸入、截圖等操作。
系統需求：Chrome 瀏覽器或 macOS 12+
SillyTavern
原始套件名稱：SillyTavern
詳細說明：本地化角色扮演式對話 UI，支持多角色設定、Markdown 格式消息、插件擴展與語音輸入。
系統需求：Node.js、Python 3.9

八、AI 代理與開發框架

AutoGPT
原始套件名稱：Significant-Gravitas/AutoGPT
詳細說明：自主任務分解與執行代理，能讀寫本地文件、發送 API 請求、互動網頁並持續迭代。適用於自動市場分析、定期報表生成等場景。
系統需求：Python 3.8、OpenAI API Key
devika
原始套件名稱：stitionai/devika
詳細說明：AI 軟體工程師代理，擁有編寫程式、單元測試與除錯能力，能自動完成 GitHub Issue 與 PR。
系統需求：Python 3.10、Git
ai-git-developer
原始套件名稱：ai-git-developer
詳細說明：結合 ChatGPT 與 GitHub CLI 的雲端 AI 開發助手，可 clone 任意 Repo、執行代碼更改並自動發起 PR。
系統需求：Python 3.9、GitHub Token
ditto
原始套件名稱：yoheinakajima/ditto
詳細說明：最簡易的程式碼代理，根據提示自動生成、測試並提交程式碼片段，並可集成 CI/CD 流水線。
系統需求：Node.js、Python 3.9
superagi_pinokio
原始套件名稱：superagi_pinokio
詳細說明：Pinokio 平台上的多代理工作流示例，包括任務分配、結果集成與異常處理。
系統需求：Pinokio 環境
LocalAIVtuber
原始套件名稱：LocalAIVtuber
詳細說明：離線運行的虛擬主播解決方案，集成語音合成、面部追蹤與動畫輸出，適用於直播與短視頻內容。
系統需求：8GB GPU、OpenCV
AITown
原始套件名稱：a16z-infra/ai-town
詳細說明：虛擬小鎮模擬環境，AI 角色可聊天、執行腳本與互動，適合作為社交 AI 示範平台。
系統需求：Python 3.8、WebSocket

九、Pinokio 生態與安裝腳本

以下為 Pinokio 生態下一鍵安裝與腳本化套件示例，涵蓋 TTS、影像、影片、3D、代理等多領域，並已優化對應作業系統與硬體需求：

FramePack / FP-Studio / Frame-Pack
facefusion-pinokio / FaceFusion
MMAudio
DetailGen3D
VACE-Pinokio
Orpheus-TTS-FastAPI
MatAnyone
AudioX
Kokoro-TTS
RuinedFooocus
Index-TTS-Pinokio
Sana-Sprint-1.6B
StyleTTS2_Studio / StyleTTS2 Studio
Realtime-Transcription
TRELLIS
ComfyDock-Pinokio
KD-Talker
Advanced-RVC-Pinokio / RVC
LlasaTTS-windows
deeperhermes / Deeper Hermes
AnimateDiff / animatediff.pinokio
Diffusers-Image-Outpainting
Spark-TTS-Pinokio
clarity-refiners-ui
slides2video-pinokio-script
Ovis2-8B-
Florence-2-Image-Captioning
BEN2
Image-Upscale
Leffa
IC-Light-Ultimate-Studio
UVR5-UI-pinokio / UVR5-WebUI
Deepseek-ai-Janus-Pro-7B
InvSR
roop-unleashed
LatentSync-Pinokio
AdvancedLivePortraitWebUI
Allegro-ti2v-c
iopaint-pinokio
GLM4Voice
pinokio-computer-bolt.new
fish-speech / fish
SD-Next
illusion-diffusion-HQ
joy-caption-alpha-two-GUImod / joy-caption-alpha-2
whisper-large-v3
RVC-WebUI-Pinokio
TabbyAPI-Pinokio
StyleTTS-WebUI.pinokio
Dough-pinokio
peers-check
FlashFace
DatasetHelpers
kohya_ss
Taggui
vfusion3d-pinokio
ldm3d.pinokio
densediffusion.pinokio
VALL-E-X.pinokio
text-generation-webui.pinokio
pinokio-reforge
ai-git-developer
fooocus-API-pinokio
langflow.pinokio
VASR-for-Pinokio
OneTrainerPinokio
sdxs-pinokio
autogen-studio-pinokio
tutorial.pinokio
instructir.pinokio
comfyui.pinokio
audiocraft_plus.pinokio
facefusion.pinokio
sd-webui.pinokio
AudioLDM2.pinokio
superagi_pinokio

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

GPTssssss

2025年5月5日星期一

Pinokio 所有套件名稱與內容說明

一、文字轉語音（TTS）

二、音樂與音效生成／編輯

三、影像生成與擴散（Diffusion）

五、影片生成與處理

六、3D 智能與生成

七、圖形化介面／WebUI 平台

八、AI 代理與開發框架

九、Pinokio 生態與安裝腳本

沒有留言:

張貼留言

總網頁瀏覽量

科技教育-創客類

電腦安裝區

關於我的影片-點閱率最高部分

學習

認識文盛

廠商採購專區(~~NEW)

十二年國教

教學好站

教學老師區

教學研究、資訊工具

資訊教育-行動學習

GPTssssss

2025年5月5日 星期一

Pinokio 所有套件名稱與內容說明

一、文字轉語音（TTS）

二、音樂與音效生成／編輯

三、影像生成與擴散（Diffusion）

五、影片生成與處理

六、3D 智能與生成

七、圖形化介面／WebUI 平台

八、AI 代理與開發框架

九、Pinokio 生態與安裝腳本

沒有留言:

張貼留言

2025年5月5日星期一