2025年8月24日 星期日

114年AIGC向上提升最受歡迎的課程

https://felo.ai/slides/dDiUBE9YACcXnioeGbSnja?modelType=PRO&invite=2mvaZRPEeDMXg

https://felo.ai/page/preview/knkioo9k3BQBCyJgWXhDCF?business_type=AGENT_THREAD&invite=2mvaZRPEeDMXg

2025年8月15日 星期五

學習本地LLM最佳CP值顯卡採購指南

學習本地LLM最佳CP值顯卡採購指南

https://felo.ai/zh-Hant/slides/huvzUwrGMFUABTDzzbzfDK?modelType=PRO&invite=2mvaZRPEeDMXg


https://felo.ai/page/preview/fj9zse6Ez7UUp3dc6yscBW?business_type=AGENT_THREAD&invite=2mvaZRPEeDMXg

2025年8月5日 星期二

Qwen3 or Gemma3 誰勝出?

先說結論

  • 要在公家單位或要看圖用唯一選擇Gemma3
  • 要在家自用選Qwen3

評測項目 說明
ArenaHard 綜合性難題問答評測,用來衡量模型在高難度任務下的推理能力。
AIME’24 / AIME’25 模擬數學競賽題目(AIME,American Invitational Mathematics Examination),用以測試模型之數學解題能力(AIME'25 更難)。
LiveCodeBench 實際編碼能力評估,評測模型生成程式碼後能否成功執行並通過測資。
CodeForces (Elo Rating) 模型在 Codeforces 類競程題目中的 Elo 等級分,數值愈高表示編程實力愈強。
GPQA Graduate-level Physics QA,測試物理知識與推理能力。
LiveBench 廣泛自然語言任務之基準測試集,涵蓋多種場景。
BFCL (v3) 場景推理能力(類似常識推理)測試。
MultiIF (8 Languages) 多語言邏輯推理能力(8種語言),測試跨語言的一致推理表現。

🧠 二、Qwen3 系列與 Gemma3 系列差異分析

模型名稱 架構特性 模型大小 效能分析
Qwen3-30B-A3B (MoE) 混合專家架構(Mixture of Experts)僅激活部分參與計算的子模型,效率高 30B參數 各項目表現均優異,尤其在 ArenaHard、AIME、LiveCodeBench、BFCL 領先群雄
Qwen3-4B (Dense) 緻密模型(Dense Model)全參數參與推理,推理速度穩定 4B參數(小模型) 在相同參數規模中表現良好,但遠遜於 Qwen3-30B-A3B
Gemma3-27B-IT Google 出品,強調**指令微調(Instruct-tuned)**能力 27B參數 對話能力佳,但數學、編碼與推理(如 AIME、LiveCode)明顯不及 Qwen3-30B

📊 三、性能比較示例(精選項目)

評測項目 Qwen3-30B-A3B Gemma3-27B-IT 優勢模型
AIME’24 80.4 32.6 Qwen3(數學壓倒性勝出)
LiveCodeBench 62.6 26.9 Qwen3
CodeForces 1974 1063 Qwen3
GPQA(物理) 65.8 42.4 Qwen3
LiveBench 74.3 49.2 Qwen3

從上述可知,Qwen3 系列推理、數學、編程、物理等硬核任務表現出色,尤其是 **MoE 架構(Qwen3-30B-A3B)**具有高效率與高精度之雙重優勢。


🧾 附註說明(來自圖表下方)

  1. AIME'24 / '25 的數據係取樣 64 次平均值,題目包含 30 題,顯示模型穩定性。

  2. 表中 Qwen3 模型未啟用 "think mode",若啟用可能更強。

  3. BFCL 評測中,Qwen3 採 FC 格式作答,其他模型則取最大得分模式。

以下為來自阿里巴巴官方 Blog「Qwen3: Think Deeper, Act Faster」的精要摘要:




🌟 Qwen3 重點總覽

  1. 完整開源模型系統
    Qwen3 系列模型皆於 2025 年 4 月發布,包含多款 Dense(緻密)與 MoE(Mixture‑of‑Experts,混合專家) 結構模型,從 0.6B 至 235B 規模皆可取得,全部採用 Apache 2.0 授權 (Qwen)。

  2. 智慧雙模式推理機制
    模型支援「思考模式」(for complex reasoning)與「非思考模式」(for fast chat),可依任務難度動態切換;並提供「思考預算」設定,以在效能與速度間取得最佳平衡 (arXiv)。

  3. 卓越推理與多語能力
    在數學、程式碼生成、常識推理等硬實力上,超越前代 Qwen2.5 與 QwQ 模型,在與 DeepSeek‑R1、Gemini‑2.5‑Pro 等競爭者的比拚中表現極佳 (Qwen)。

  4. 大規模與小型 MoE 模型

    • Qwen3‑235B‑A22B:總參數 235B,推理時啟動約 22B;

    • Qwen3‑30B‑A3B:總 30B,啟動約 3B。
      這兩款 MoE 模型相較 dense 模型在效率與計算成本方面具明顯優勢 (Qwen, arXiv)。

  5. 多語言與全球覆蓋
    預訓練包含 36 兆 token,涵蓋 119 種語言與方言,支援跨語言理解與生成,提升全球應用性 (維基百科)。

  6. 可微調、代理與嵌入擴展
    最近推出基於 Qwen3 的 Qwen3‑Coder(專精於 agentic coding 與高 context 長度支援)、Qwen3‑Embedding/Reranker(用於文本表徵與搜尋排序)等系列,均延續核心模型優勢 (Qwen)。


🧭 概括要點(條列)

  • 完整開源,Apache 2.0 授權,促進研究與社群應用。

  • 混合推理架構:具思考與非思考模式、自主思考預算調控。

  • 效能領先:在程式、數學、推理任務上表現超群。

  • MoE 結構雙雄:235B 與 30B 模型兼顧性能與成本效益。

  • 語言支援全面:訓練涵蓋超過 100 種語言 / 方言。

  • 生態延伸豐富:Coder、Embedding 系列提升實作與工具整合能力。




🌟 Gemma 3 重點總覽

  1. 開源輕量模型,適用單卡運行
    Gemma 3 系列由 DeepMind 推出,為輕量開源模型,可於單張 GPU/TPU 上執行,適用筆電、桌機甚至手機(blog.google)。

  2. 多種模型規模
    提供 1B、4B、12B、27B 四種參數規模,皆有預訓練(pre‑trained)與指令微調(instruct‑tuned,簡稱 IT)版本(Hugging Face)。

  3. 支援多語與長文理解能力
    除 1B 外,其餘模型支持 140+ 種語言 的多語處理,且擁有 128K tokens 超長上下文視窗(1B 版為 32K)(Hugging Face)。

  4. 具備多模態理解能力
    除 1B 外皆可處理 圖像與文本輸入,整合定制的 SigLIP 視覺編碼器,將影像壓縮為固定 256 向量編碼,並採用 Pan & Scan 技術處理不同解析度與比例(Google 開發者部落格)。

  5. 記憶體優化與混合注意力架構
    採用 local/global attention 混合架構,具備每 5 層 local attention(跨度 1024 tokens)緊接一層 global attention,以避免 KV-cache 隨長上下文劇增(Google Cloud Storage)。

  6. 卓越性能表現
    在 LMArena Chatbot Arena Elo 評分中,Gemma 3‑27B‑IT 表現與 Gemini‑1.5‑Pro 相當,並優於 DeepSeek‑V3、Llama3‑405B 等同類型模型(blog.google)。
    透過知識蒸餾與指令微調流程,如 RLHF、RLMF、RLEF 等提升數學、推理、程式與聊天能力(Google 開發者部落格)。

  7. 完善開發者生態支援
    模型與文檔整合 Hugging Face、Ollama、Gemma.cpp、JAX、PyTorch 等平台,可透過 Google GenAI API、Vertex AI、Cloud Run、本地部署等方式使用;提供 ShieldGemma 2(4B)圖像安全分類模型作為配套模型(blog.google)。


📄 概覽重點條列

  • 常見參數尺寸:1B / 4B / 12B / 27B

  • 超長上下文能力:最高至 128K tokens

  • 多模態支援:除了 1B,均支援圖文輸入

  • 多語能力強大:涵蓋 140+ 語言

  • 混合注意力架構:local/global 混合設計

  • 指令微調模型(IT)具備高性能,部分版本性能堪比 Gemini 系列

  • 廣泛工具與平台整合,包括安全模型 ShieldGemma 2


2025年7月20日 星期日

《窮查理寶典》

《窮查理寶典》

智慧心智圖

要想得到你想要的的東西,最可靠的辦法是讓你自己配得上它。

1. 思維的局限:問題的根源

  • 過去的誤區:痴迷於各種「術」,瘋狂追逐碎片化知識,導致「知識的富裕性貧困」。
  • 鐵鎚人傾向:「對於一個只有一把鐵鎚的人來說,他遇見的每一個問題看起來都像一顆釘子。」
  • 危害:習慣用單一領域的專業知識分析所有問題,導致思維僵化,無法看清全貌。

2. 核心理念:如何構建智慧

▾ 多元思維模型 (Latticework of Mental Models)

一個由來自不同學科的最重要思維模型構成的網絡,幫助我們從多個維度理解世界本質。

▾ 逆向思維 (Inversion)

「反過來想,永遠反過來想」。在追求成功前,先思考如何避免失敗,這能幫我們避開致命陷阱。

核心理念一:多元思維模型

  • 是什麼?大約100個來自不同學科的核心模型組成的「智慧格柵」。
  • 為什麼重要?避免「盲人摸象」,成為主動的模式識別者。

▾ 如何構建?

  1. 跨界閱讀:刻意閱讀不熟悉領域的基礎學科經典。
  2. 聯想整合:主動思考新知識與已知模型的聯繫,建立連接。
  3. 把書當索引:遇到問題時,回頭查閱書中相關的思維模型。

核心理念二:逆向思維

  • 精髓:成功的路徑複雜多變,但失敗的路徑清晰且相似。
  • 應用:它是一個強大的「決策過濾器」。

▾ 應用舉例

投資:與其問「如何才能賺大錢?」,不如先問「如何才能虧大錢?」(答案:借錢投機、追漲殺跌等),然後避開這些行為。

人生:與其問「如何獲得幸福?」,不如先問「如何才能讓生活一團糟?」(答案:染上毒癮、眾叛親離等),然後避開這些選擇。

3. 關鍵智慧:人類誤判心理學

避免愚蠢比追求卓越更重要。

聰明人也無法豁免根深蒂固的心理傾向。芒格總結了25個導致誤判的標準原因。

▾ 部分心理傾向舉例 (點擊展開)

  • 激勵機制的超級力量:訴諸利益而非理性。
  • 喜好/厭惡傾向:偏愛自己喜歡的人事物。
  • 避免懷疑傾向:大腦討厭不確定性,傾向快速決策。
  • 社會認同傾向:從眾心理。

應用:建立檢查清單,在重大決策前逐一反思,避免落入心理陷阱。

4. 最終目標:成為人生的總工程師

  • 打破專業壁壘:從「專才」的狹窄隧道,走向「通才」的遼闊平原。
  • 智慧的真諦:不在於擁有多少知識的點,而是在於能否在點之間建立強大而多元的**網絡**。
  • 本書的角色:它是一個起點,一個工具箱,一場思維的體操。
你不再是一個被動的資訊接收者,你成了一個主動的模式識別者,一個擁有全套工具的總工程師。

2025年7月15日 星期二

ComfyUI裡面那些工作流裡常見的繪圖模型功能簡介

Flux 

生圖速度稍微慢,但繪圖非常地精美細節豐富,4步以上即可生精美圖形20步以上更精美,可以生英文字,看不懂中文的指令


Flux Kontext

多模態輸入支援:可同時輸入文字(英文prompt)+圖片可產出英文字局部精修能力強:能精準調整局部內容(如換車色、改臉表情),不會影響整體畫面 ,角色/物件一致性高:即使多輪編輯,也能保留人物五官特徵、構圖位置 ,風格轉換/文字識別能力:支援不同風格應用與圖片中文字精準修改(需在指令中加雙引號避混淆)

SD3.5 

常見的較新版的模型,繪圖精美,速度還行,不能產生英文字,看不懂中文的指令


SDXL 

常見的較新版的很棒的模型,繪圖精美,速度還行,不能產生英文字,看不懂中文的指令


SDXL TURBO 

1步生圖5步過頭,畫圖超級快品質也還行,不能產生英文字,看不懂中文的指令


HiDream

是對岸的模型,可以理解中文的prompt,而且可以畫出英文字,畫圖的精細程度取決於你的指令下的好不好,指令下得好繪圖的品質就不錯


Omnigen2

是對岸的模型可以理解中文的prompt,而且可以畫出英文字畫圖的精細程度取決於你的指令下的好不好,指令下得好繪圖的品質就不錯




Cosmos Predict2 

文生图NVIDIA 推出的新一代物理世界基础模型,专为物理 AI 场景下的高质量视觉生成与预测任务设计。 该模型具备极高的物理准确性、环境交互性和细节还原能力,能够真实模拟复杂的物理现象与动态场景。
模型不大畫圖蠻快,真實世界的繪圖細節還不錯,但prompt的不能下中文,可以畫英文字


Chroma 

还在不断更新他们的模型,目前沒有進一步資料,模型挺大的畫圖有點慢,但prompt的不能下中文,也不能畫英文字







2025年5月14日 星期三

想畫圖不會下prompt?這招讓你徹底擺脫使用所有AI 的焦慮!生圖或對話問答都好用!

【範例】
夏天,咱什麼事都沒做,桌底下就提供源源不斷的暖爐
CPU+GPU+外接SSD硬碟自己就不知道在噜甚麼
這時候最期望的就是聽見中央空調冷氣開始送風的聲音
那"ㄘ"的一常聲,就可以聽見整個單位歡呼起來 


想畫個圖表示一下自己的感想又不知道怎樣下Prompt:

先來亂下個prompt作為對照組:

"創作圖像 天氣炎熱,桌下的電腦主機不斷的發熱,汗流浹背,盯著天花板上的中央空調,好想開冷氣"


這就是一般能力者的境界,想更好,要請教高人

畫好之後請GPT幫忙改個prompt

"我想生圖不會下prompt,你幫我把這個場景的細節描述得誇張些"創作圖像 天氣炎熱,桌下的電腦主機不斷的發熱,汗流浹背,盯著天花板上的中央空調,好想開冷氣",給我新的prompt"

GPT給了
"A hyper-realistic digital illustration of an overheated office in the middle of a scorching summer day. A man sits at his desk, drenched in sweat, his soaked shirt clinging to his back. Under the desk, a glowing-hot computer tower radiates heat like a furnace, warping the air around it. The man’s face is twisted in desperation, his eyes fixed on the ceiling where a sleek, modern central air conditioning unit remains cruelly turned off. Sweat drips from his forehead, pooling on the desk beside a half-melted iced coffee. The atmosphere is thick and shimmering with heatwaves, creating a surreal, almost hellish environment of unbearable warmth and longing for relief"

讓他直接生圖,你就發現自己畫圖程度提升了!!!


簡直就是神作完美表達我想要的意境,然後依他的建議加油添醋或是自己要求就好



真的,不要有prompt焦慮,只要會這兩招
元問題、和請GPT教你協助你即可
AI 已經很聰明了,不需要特定的語法或語詞



2025年5月5日 星期一

Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件名稱與說明

以下是 Stability Matrix 中可安裝與管理 (“Packages”) 的所有套件,以及它們的主要功能與特色:

資料來源:套件列表摘自官方 README (GitHub)

套件名稱 簡介與特色
Stable Diffusion WebUI reForge 一款基於 AUTOMATIC1111 的強化分支,加入了多項性能優化和插件支援。Stability Matrix 可一鍵安裝/更新,並自動處理相依套件與版本管理。(GitHub)
Stable Diffusion WebUI Forge AUTOMATIC1111 的另一分支,專注於 GPU 加速與自訂化介面。透過 Stability Matrix 可快速切換 Forge 與原版 WebUI,並保持多個環境並存。(GitHub)
Stable Diffusion WebUI AMDGPU Forge 為 AMD GPU 使用者打造的專用分支,集成了 ROCm 支援。透過自動偵測環境,Stability Matrix 能自動安裝必要驅動與相依。(GitHub)
Automatic1111 最受歡迎的 Web UI,具備廣泛的插件生態與自動標註、批次生圖功能。透過 Stability Matrix,可無痛安裝、更新所有衍生插件,並管理 Python 相依套件。(GitHub)
Automatic1111 DirectML 基於 DirectML(Windows 上的跨 GPU API)構建的 Automatic1111 版本,適用於沒有 CUDA 的設備。Stability Matrix 自動下載並配置 DirectML backend。(GitHub)
SD Web UI‑UX 強調使用者體驗與介面美化的 Web UI,整合了預覽窗格、即時參數調整面板等功能。Stability Matrix 可管理其前端資源與 CSS 模組。(GitHub)
SD.Next 在 SD Web UI‑UX 基礎上加入更多進階功能(如多任務排程、進度儀表板)。Stability Matrix 允許你在多個 SD.Next 專案間快速切換。(GitHub)
Fooocus 由社群開發的輕量級推理介面,專注於低資源消耗與簡易擴充。Stability Matrix 支援多種 Fooocus 分支:– Fooocus MREFooocus ControlNet SDXLRuined FooocusFooocus – mashb1t’s 1‑Up Edition可一鍵新增插件與模型路徑。(GitHub)
SimpleSDXL 精簡版 SDXL Web UI,專為大模型設計的前端。同樣可透過 Stability Matrix 自動管理大型檢查點(checkpoint)與相依。(GitHub)
ComfyUI 節點式流程編輯介面,適合構建複雜管線(pipeline)。Stability Matrix 可以同步佈署 ComfyUI 節點庫、節點模板與版本控制。(GitHub)
StableSwarmUI 分散式推理管理介面,支援多節點協同運算。Stability Matrix 會配置佈署參數並統一管理多台機器的連線資訊。(GitHub)
VoltaML 集成 VoltaML 推理框架的 UI,強化推理效能。透過 Stability Matrix,使用者可輕鬆安裝 VoltaML runtime 并管理版本。(GitHub)
InvokeAI 另一款廣受好評的 CLI/GUI 混合介面,適合喜歡指令行操作的使用者。Stability Matrix 可將其二進位檔與相依封裝起來,並支援多版本並存。(GitHub)
SDFX 集成多款後處理濾鏡與批量特效處理的 UI。透過 Stability Matrix,你能夠一鍵為每個專案套用 SDFX 插件,並維持各插件的設定一致性。(GitHub)
Kohya’s GUI 專為訓練與微調(fine-tuning)設計的 UI,整合了 Kohya_ss 相關訓練函式庫。Stability Matrix 可自動管理 GPU 設定及相依環境。(GitHub)
OneTrainer 面向大規模模型訓練的統一介面,支援分布式訓練。Stability Matrix 支援群集佈署與資源監控插件。(GitHub)
FluxGym 與 FluxML 生態整合的深度學習 UI,特化於 Flux 框架。Stability Matrix 可同時管理 PyTorch/Flux 等多種後端。(GitHub)
CogVideo via CogStudio 以 CogVideo 為核心的多媒體生成 UI,適合影片推理。Stability Matrix 會自動佈署 CogStudio 並配置 GPU 資源分配。(GitHub)

此外,Stability Matrix 本身也提供了多項跨套件共用功能:

  1. 嵌入式 Git 與 Python 相依管理,無需全域安裝就能一鍵同步更新版本與套件。

  2. 可攜式資料目錄,可將 .smdata 目錄移至任意磁碟或電腦,並無痛繼續使用。

  3. 內建 Inference UI:語法高亮、命令列與拖放式畫廊,所有套件共用同一介面。

  4. 檢查點(Checkpoint)與模型瀏覽器:支援 CivitAI、HuggingFace 自動匯入並顯示預覽縮圖,可暫停/續傳。

  5. 多語系介面:已由社群翻譯成中/英/日/西/法等多國語言。(GitHub, GitHub)

透過 Stability Matrix,使用者只需一次設定,即可管理上述各類 Stable Diffusion 與相關訓練、推理工具,並享有版本控制、依賴處理與便捷 UI 的完整體驗。