2026年1月7日 星期三

2025下半年AI繪圖中ComfyUI最紅的Z-image-turbo簡介

 2025下半年AI繪圖中ComfyUI最紅的Z-image-turbo簡介

中文略遜Qwen-image,但FP8速度超快,美感及CP值極高

Z-Image(中文名「造相」)是阿里巴巴通義實驗室開發並開源的高效圖像生成基礎模型,它在ComfyUI生態系統中扮演著重要角色,提供輕量級且高性能的AI圖像解決方案。

Z-Image模型概述

 * 開發與定位:Z-Image由阿里巴巴通義實驗室開發,定位為「輕量且高性能」的AI圖像解決方案。它具有6B參數,採用可擴展單流DiT(S3-DiT)架構,將文本、視覺語義tokens和圖像VAE tokens連結成統一輸入流,以最大化參數效率。

 * 核心優勢:

 * 真實感與美學品質:生成圖像具有強烈真實感,同時保持出色的美學品質。

 * 雙語文本渲染:在準確渲染複雜中文和英文文本方面表現卓越。

 * 提示詞增強與推理:內置的提示詞增強器賦予模型推理能力,能生成更精準的圖像描述。

 * 快速推理:在支援的硬體上實現亞秒級推理速度。

生成速度

Z-Image模型以其極快的生成速度著稱(FP8模型會更快):

亞秒級生成:Z-Image-Turbo版本僅需8個推理步驟,在專業顯卡上可實現亞秒級出圖。

消費級顯卡表現:在消費級顯卡上,如搭載RTX 4090的設備,生成一張1024x1024解析度的圖片僅需約4.4秒,比FLUX-1 [schnell]快1.5到2倍。生成512x512像素的圖像約需0.8秒。

低顯存設備表現:即使在配備酷睿Ultra 7 255H處理器、銳炫140T核顯及32GB記憶體的輕薄筆電上,生成一張1080x1440解析度的高品質圖片也能在1分29秒內完成,證明其在集成顯卡平台上的「可用」生產力。

圖像品質

Z-Image模型在圖像品質方面能與參數量更大的模型媲美:

真實感與細節:模型能精細還原皮膚質感、髮絲細節及自然光影,生成照片級真實感圖像,品質可與20B以上的閉源旗艦模型媲美。

文本渲染:在複雜排版和海報設計等高難度場景下,Z-Image-Turbo能精準渲染中英文混合文本,保持文字清晰、版式自然。

美學表現:模型的真實感、構圖與美學表現接近或超越國際主流開源模型。

超越競品:在全球權威AI基準測試平台Artificial Analysis的榜單中,阿里6B參數的Z-Image Turbo超越了32B的FLUX.2,成為最強開源圖像生成模型,其ELO分數達到1152,刷新了榜單紀錄。

Z-Image模型變體

Z-Image家族包含多個版本,針對不同任務進行優化:

 * Z-Image-Turbo:這是Z-Image的蒸餾版本,以僅8個NFEs(功能評估次數)即可達到或超越領先競爭模型的性能。它能在企業級H800 GPU上實現亞秒級推理延遲,並可在僅16GB VRAM的消費級設備上運行。

 * Z-Image-Base:非蒸餾的基礎模型,主要用於社區驅動的微調和自定義開發。

 * Z-Image-Edit:專為圖像編輯任務微調的版本,具有出色的指令遵循能力。

ComfyUI整合與應用

ComfyUI對Z-Image提供了廣泛的支援和整合:

 * 原生支援:ComfyUI自2025年11月26日的v0.3.75版本開始,便已添加Z-Image模型支援,並針對圖像處理工作流進行了性能優化。ComfyUI最新的版本(例如v0.6.0)已完全支援Z-Image-Turbo。

 * 工作流:ComfyUI提供了Z-Image的文本到圖像(text-to-image)工作流範例,用戶可下載JSON工作流文件或在ComfyUI Cloud上運行。

 * LoRA支援:ComfyUI原生支援Z-Image LoRA格式和Z-Image LoRA訓練。Z-Image工作流也支援「transformer.」LoRA前綴。

 * 控制網路 (ControlNet):

 * Z-Image Fun Control Union 2.0:支援圖像修復功能。

 * Z-Image Fun ControlNet:支援多種控制條件,如Canny、HED、Depth、Pose和MLSD等。

 * 效能優化:ComfyUI持續優化Z-Image模型的記憶體管理和運行效率。例如,v0.6.0版本優化了Lumina/Z image模型,移除了未使用的組件。

 * Comfyui-Z-Image-Utilities:這是一個專為Z-Image模型定制的ComfyUI擴展,提供了一系列實用節點。它能透過LLM技術增強提示詞、支援視覺模型、管理會話、自動清理輸出、支援量化(4-bit和8-bit)以在消費級GPU上運行大型模型、雙語支援以及可靠的操作(包含智能重試邏輯),並整合CLIP以簡化工作流。

硬件要求與性能

 * 顯存需求:Z-Image-Turbo模型可在僅16GB VRAM的消費級設備上流暢運行,FP8模型(需自行下載)可成功在8GB顯存的本地設備上配置Z-Image-Turbo工作流來生成圖像。

 * 生成速度:在支援的硬體上,Z-Image-Turbo能實現亞秒級的推理速度。

 * 與SDXL比較:雖然Z-Image在某些方面表現更優,但SDXL在許多應用中仍保持其優勢。Z-Image在生成超高解析度圖像時可與平鋪(tiling)技術結合,但在約3K解析度時圖像品質可能開始下降。

安裝與疑難排解

 * 安裝方法:Comfyui-Z-Image-Utilities擴展可以通過ComfyUI Manager搜尋並安裝。

 * 更新問題:如果ComfyUI更新後,Z-Image模型出現黑白或扭曲變形等問題,建議刪除相關文件並重新下載,或更新ComfyUI到最新的開發版。

ComfyUI對Z-Image模型的持續整合與優化,使其成為AI藝術家和開發者在圖像生成領域中一個高效且強大的選擇。


沒有留言:

張貼留言