2024年12月2日 星期一

顯卡跑LLM速度大約是如何呢?( 參照RTX4080)

顯卡跑LLM速度大約是如何呢?( 參照RTX4080)

4080是張16G的顯卡,從官網Qwen的測試看來,從7B的版本看起來速度可以達到124tok/sec,大約是4060的3倍,而顯卡天梯上,4080效能也差不多是4060的3倍左右,所以可以估算,模型在不超過VRAM的容量下,大約就是這樣的比例,

我的4060經實際測試大約是47 tok/sec

因此4070大約會落在70 tok/sec左右

至於超過VRAM之後,速度就會掉得很可怕了

以下是實測的結果,電腦10900/64G 顯卡4060/8G

QWEN2.5 7B/14B (Q4)用 lm-studio平台,在不同型號顯卡大家的速度是多少tokens/sec?

4060→7B:46.9tok/sec(極為順暢)

4060→14B:3.92tok/sec (約需要11G VRAM,顯然已經超過顯卡8G VRAM,速度降得很誇張)

高階顯卡部分感謝金門王家駿教授、陳文舟老師助測:

4090/16G筆電(MSI Raider 18 HX A14V筆電 4090/16GB,RAM 32GB)

4090→7B:69.14tok/sec(極為順暢)

TITAN Xp/16G→7B:46.46 tokens/s(極為順暢)

4090→14B:39.57tok/sec(極為順暢)

4090→32B:4.19tok/sec(需要約22G VRAM已經超過,降速離譜)

4090→70B(llama3.3)無法運行(需要45G VRAM才能跑)

因此,對於一般學習者而言,不牽涉其他AI服務的話,桌面版 4060Ti/16G無疑是平衡下的最佳選擇,而對於要玩AI生圖的人,還是攻頂比較合適,是生產力效率的問題

換句話說:如果你想順跑Qwen2.5 7BQ4 的模型,其實6G/8G顯卡就能順跑,所以如果你是GTX1060/6G 其實也不用換,但是若想跑順跑 14B 的模型,就得買VRAM 有12G的顯卡

以下圖片為官網提供測試的結果


至於對岸便宜的礦卡8G礦卡,等我買回來再測給大家看

若是不用顯卡,純用CPU跑(GPU OFFLOAD),跑Qwen2.5 7BQ4,速度是
在17-8700K(6核12緒):5.85 toks/s (速度很慢)

其他網友的測量
Kevin Chen:顯卡GTX1060/6GB (Qwen2.5 7b)→ 11.88 tokens/s

也歡迎大家協助檢測提供數據

2024年11月26日 星期二

賀!是你控制了GAI?還是GAI控制了你?AIGC時代的上位思考─文章榮登科學研習雙月刊第63卷第4期

是你控制了GAI?還是GAI控制了你?
AIGC時代的上位思考

    ─文章榮登科學研習雙月刊第63卷第4期



期刊全文檔案鏈結在下方

https://www.ntsec.gov.tw/article/detail.aspx?a=5562

PodCast用聽的




2024年11月21日 星期四

我到底要買多大VRAM的顯卡才能順順玩llm

我到底要買多大VRAM的顯卡才能順順玩llm

朋友常常問我這個問題,以阿里巴巴通譯千問2.5的模型來看

如果你使用的是7B參數量的模型,

模型容量是4.7GB通常導入VRAM記憶體之後會再增加個1到2G

所以這個7B的模型在VRAM有6G的顯示卡上面應該是可以順跑的

因此,不管你用的是1060/6G還是3050/4060/6G,順順跑應該都還沒問題

但是一旦VRAM不夠使用,模型部分載入本機記憶體的話體

體感速度就會降10倍

因此如果你想順跑14 B參數的模型
可能就要買到3060/4070/12G或者4060ti/16G以上
想跑32B參數的模型就只能買4090/24G了

但如果你是Mac因為他是共用記憶體架構
因此幾乎大部份的記憶體都可以調用作為VRAM
24G RAM 的Mac應該就可以順跑32B的模型
這是Mac 在LLM領域CP值比較高的原因
不過因為顯示晶片的效能還是不敵獨立顯卡所以速度當然沒有獨立顯卡快

那接下來你就會文32B參數跟14B參數的模型到底有什麼差別
其實就是聰明度的差別從下面這張圖看起來
32B的Qwen2.5各項指標都遠遠超越GPT4-O mini
而14B的模型就跟GPT4-O mini伯仲之間打的有來有回
實際的測試應用上7B以上的模型在國中小服務學生應該是夠用
也可以相當程度的理解角色化GPTs的系統指令(System Prompt)的設定
但是3B以下的模型體感上就覺得他有點笨

所以我的建議是最少用7B的模型,條件稍好用14B的模型
電腦如果實在非常地陽春連顯卡都沒有那就只能用3B的模型體驗體驗

(上面的模型列表大部份是用Q4位元素壓縮量化的,數字越少速度越快但是模型越苯,數字越大模型速度越慢但是越聰明,可以的話儘量Q6~Q8,lm-studio裡面可以選,ollama不行)

注意如果你玩本地AI的話,不管是本地生圖還是大語言模型,甚至是AI動畫製作
老黃的顯卡是資源比較豐富的,如果你使用的是Mac或者是Intel的arc或是AMD的獨顯
都會比較容易遇到相容性和支援的問題
老手可以慢慢處理新手就不建議

又有人問我顯卡那麼貴
我會跟你說公家單位買看得見的設備比較容易買看不見的帳號比較折騰

2024年11月9日 星期六

使用lm-studio本地架設可以提供服務的網路伺服器來提供GPT服務

 

原來使用lm-studio就可以在區網提供GPT服務了
只要啟動lm-studio的server
客戶端使用chatbox將模型設定成兼容openai
給網址,不用給API KEY 就行了
真是太屌了,架區域LLM伺服器原來很簡單
不過應該還有你家自己防火牆的問題

2024年11月4日 星期一

建置本地LLM設備參考(以TOPS排序)

公司 型號 TOPS (FP8) VRAM 台幣參考售價 備註
NVIDIA RTX 4090 1,321 24GB GDDR6X 65,000 最強消費級顯卡
NVIDIA RTX 4080 Super 1,000 16GB GDDR6X 39,900
NVIDIA RTX 4080 780 16GB GDDR6X 38,900
NVIDIA RTX 4070Ti Super 670 16GB GDDR6X 32,900
AMD RX 7900 XTX 650 24GB GDDR6 39,900 AMD旗艦卡
NVIDIA RTX 4070Ti 580 12GB GDDR6X 29,900
AMD RX 7900 XT 520 20GB GDDR6 35,900
NVIDIA RTX 4070 Super 480 12GB GDDR6X 24,900
Intel Arc A770 450 16GB GDDR6 11,900 Intel首發旗艦卡
NVIDIA RTX 4070 420 12GB GDDR6X 22,900
AMD RX 7800 XT 400 16GB GDDR6 23,900
AMD RX 7700 XT 380 12GB GDDR6 19,900
Intel Arc A750 340 8GB GDDR6 9,900
NVIDIA RTX 4060Ti 310 8GB/16GB GDDR6 15,900/17,900
NVIDIA RTX 4060 280 8GB GDDR6 12,900
AMD RX 7600 250 8GB GDDR6 10,900
Intel Arc A580 240 8GB GDDR6 7,900
NVIDIA RTX 3060Ti 220 8GB GDDR6 11,900 上代中階卡
NVIDIA RTX 3060 180 12GB GDDR6 9,900
Intel Arc A380 150 6GB GDDR6 4,900
NVIDIA RTX 3050 140 8GB GDDR6 8,900
AMD RX 6500 XT 130 4GB GDDR6 5,900
Intel Core Ultra 7 285H 80 共享系統記憶體 - Intel最強筆電APU
Intel Core Ultra 7 165H 75 共享系統記憶體 -
Intel Core Ultra 5 125H 70 共享系統記憶體 -
AMD Ryzen 8845HS 65 共享系統記憶體 - AMD最新筆電APU
AMD Ryzen 7840HS 60 共享系統記憶體 -
AMD Ryzen 7835HS 55 共享系統記憶體 -
Apple M3 Ultra 50 共享系統記憶體 - Apple最強晶片
Apple M3 Pro 40 共享系統記憶體 -
Apple M3 35 共享系統記憶體 -
Apple M2 30 共享系統記憶體 -
Apple M1 25 共享系統記憶體 -
學習建議4060Ti/16G最具CP值,生產力請直上4090

建置本地AI之LLM設備參考(TOPS天梯)

學習建議4060Ti/16G最具CP值,生產力請直上4090

2024年11月3日 星期日

AIGC 時代科技教育該如何轉變

 AIGC 時代科技教育該如何轉變


國中小科技領域教學內容一直都有兩個方向

一是科技領域的思考與工具應用用在各領域融入
這個是100%學生未來都有用,
不管你在哪個領域不管是工作或是生活
(但這個方向經常被忽略)
二是科技領域本身的科技技術與科技思考
這個大約只對6%學生有用(未來從事科技相關產業)

我很早就講過
所以教運算思維也不會只有寫程式這種方法
教設計思考也不是只有做手做這條路
早些年我在講這個的時候用語比較尖銳
有些防衛心比較高的人覺得我觸碰了他們的逆鱗
這些人一旦覺得受到威脅就會築起圍牆甚至敵視你

現在AIGC的發展讓這個態勢越來越明顯
就算你以前不想聽我講 現在好像也不得不承認

人在思考前要看得廣,不僅看深度、看廣度,
還要看向前看,看向時間軸的未來

在科技領域推動AIGC也是一樣
第一部分推各領域的普及應用
第二部分你要去推AI的技術,做科技的菁英教育
兩者都要做,但缺一不可,尤其是第一部分

現在和AI聊一下,你不用懂程式,但程式就寫好了
(思考:那現在程式教育該如何轉變...)
但是作品要做得好,還是要比AI更懂那領域的上位思考
你才能控制AI幫你生出符合需求很棒的作品
(思考:使用AIGC 的上位思考是甚麼,教育又該如何轉變...)

你看見了嗎?
未來可能是人人有許多專業助理的時代
繁瑣、重複、技術的事AI都幫你處理了
你要做甚麼?
有你能做甚麼才不會被AI控制?
教育又該如何轉變?

就算你摀著耳朵(我不聽我不聽)
時代一樣會到來