2024年5月1日 星期三

我的設備可以跑甚麼大模型測試

Lenovo小新 AMD 5500U6核12序 16GRAM 內顯 強制VRAM2G系統RAM剩13.8G  使用lm-studio作為大模型容器測試

7B4.92G dolphin-2.9-llama3-8b-q4_K_M.gguf  GPU加速全開,記憶體用盡16G,GPU80%,CPU75%,可用但速度緩慢

7B8.54G Llama3-8B-Chinese-Chat-q8-v2.gguf   GPU加速全開無法載入,開16,記憶體用盡16G,RAM13.8G VRAM近日2G,GPU90%,CPU80%,可用但速度極為緩慢,GPU加速若是開至24,載入就會非常的久,問答時CPU記憶體全爆,等很久不見答案,風扇狂轉極度LAG然後幾分鐘後當機;GPU加速設為0,CPU90%GPU70%,RAM全滿 VRAM1G2G左右跳動,但是反而反應會比上面好很多,所以若是VRAM不足時,反而全部Off-Load稍微順暢

7B8.54G  Llama3-TAIDE-LX-8B-Chat-Alpha1-Q8_0.gguf 跟上面幾乎是一樣,不過感覺比較稍稍順暢些

7B6.6G  Llama3-TAIDE-LX-8B-Chat-Alpha1-Q6_K.gguf   GPU加速設0,RAM占滿,VRAM用一點點,使用時僅CPU90%運作GPU似乎沒在運作,但速度可以接受,GPU加速設16,RAM到12G,VRAM全滿,CPU60%GPU90%運作,速度稍慢

13B5.66G   Taiwan-LLaMa-13b-1.0.Q3_K_S.gguf  GPU加速16,RAM占12G,VRAM全滿,使用時僅CPU80%運作GPU70%運作,但速度極為緩慢,GPU加速設16,RAM到12G,VRAM全滿,CPU60%GPU90%運作,速度稍慢,GPU加速off-load0,情況類似但回答雞同鴨講

7B4.69G  Llama3-TAIDE-LX-8B-Chat-Alpha1-Q4_K_S.gguf   GPU加速0,跑起來順暢,加速16反而變慢

從以上測試看起來,這台電腦的效能大約僅能夠跑得動7B資料量Q6版本模型已是極限,VRAM若是不足,則要調降GPU加速的比率,讓CPU和GPU兩邊使用率差不多的話,可以達到較好的效能。用Q4版本免GPU加速則是順暢許多。

但是如果用內顯,會因為內顯很弱拖慢整體效能,或是VRAM 很低的低階顯卡,還不如全部 off load 直接用CPU 和記憶體來跑還比較快。

使用Jan容器測試

llama3 8BQ4 版本或是Qwn 7BQ4,加速器有選項可選應該是有可能支援各獨顯,但這台內顯所以選項不給選,全使用CPU跑,過程尚堪順暢可用

使用GPT4ALL容器測試

8B4.3G llama 3 TAIDE Q4版本,可以選支援的獨顯或GPU選項有可能支援各獨顯,CPU還能選使用多少執行序,過程順暢可用,每秒約5字

========================================================================================

桌機 i7-8700K(6核12序)/GTX-1060/6G  16GRAM 

使用lm-studio作為大模型容器測試

7B8.54G llama3 TAIDE 7BQ8 版本,GPU Off-load0,完全使用CPU運作,RAM吃滿15.2G,GPU沒動作VRAM沒加載,反應速度尚稱順暢可執行,看來若無獨顯只要CPU多核速度快也是多少可以玩大模型;GPU調加速到20,RAM吃滿15.6G,VRAM用滿5.8G,CPU60%GPU25%,速度比剛剛稍微快些調到204就會顯示超過VRAM。

13B5.66G taiwan LLM Q3_ks 版本, GPU Off-load0,完全使用CPU運作,RAM吃滿14.7G,GPU動一下就沒再動過VRAM沒加載,反應速度慢約每秒2-3字;GPU調加速到20,RAM吃滿13.2G,VRAM用滿5.6G,CPU60%GPU98%,速度比剛剛稍微快些,Q5 GPU off-load15 VRAM5.7G RAM15.4G CPU70% GPU80% 約每秒1字,極限大約是這樣,電腦數度Lag,還是在Q3就好

========================================================================================

桌機 E5-2680(14核28序)/RTX-3070Ti/8G /32GRAM 

使用lm-studio作為大模型容器測試

8B5.73G的Q5版本 Meta-Llama-3-8B-Instruct-Q5_K_M.gguf

  • GPU Off-load0,完全使用CPU運作RAM13G,反應速度還行,目測約每秒7字;
  • GPU全數加入加速,,RAM吃12.7G,VRAM用7.5G,CPU12%GPU90%,速度極快,大約每秒40中文字左右,比我去APPLE商店試用的Mac Studio M2 64G還要快

8B8.54G的Q8版本 Meta-Llama-3-8B-Instruct-Q8_0.gguf

  • GPU Off-load0,完全使用CPU運作RAM15G,CPU60%,他想了一下大約半分鐘才回答,反應速度還行,目測約每秒7字;
  • GPU load 24/32 加入加速(全部加入爆顯存),RAM吃15.7G,VRAM用7.5G,CPU42%GPU30%,速度極快,大約每秒15中文字左右。

13B8.97G的Q5版本 Taiwan-LLM-13B-v2.0-chat-Q5_0.gguf

  • GPU load 30/40 加入加速(全部加入爆顯存),RAM吃21.4G,VRAM用7.7G,CPU35%GPU26%,速度可以大約每秒4中文字左右。

13B13.83G的Q8版本 Taiwan-LLM-13B-v2.0-chat-Q8_0.gguf

  • GPU Off-load 10,VRAM6.8,RAM25G,GPU30%、CPU50,目測約每秒3字;

70B15.4G的IQ1版本 Meta-Llama-3-70B-Instruct.IQ1_S.gguf

  • GPU Off-load0,完全使用CPU運作RAM21.2G,CPU68%,他想了大約8分鐘都沒回答我我就放棄了
  • GPU load 40/80 加入加速(全部加入爆顯存),RAM吃23G,VRAM用7.7G,CPU10%GPU99%,我等1分鐘後才回答,目測每秒不到2字
  • GPU load 30/80 加入加速(全部加入爆顯存),RAM吃21.3G,VRAM用7.5G,CPU57%GPU15%,每秒目測3字

結論

  1. 沒有獨顯或是獨顯很低階也可以玩大模型(7BQ4就好),記憶體要大速度要快越好,核心當然越多越好,全部off load只用CPU也許比較快。
  2. 有獨顯的明顯比較快(7BQ8或13BQ3就好),超過VRAM大小的大模型,使用GPU Off-load儘量調到VRAM占用最大以儘可能的加速。
  3. 模型世代越新越聰明,例如LLM3>LLM2,模型資料量大越聰明,例如13B>7B,版本越高越聰明,例如Q8>Q4,但聰明和設備需求成正比。
  4. 所以有獨顯的話VRAM越大越好,RAM儘量加到滿,再來考慮要甚麼等級。
  5. VRAM<8G玩玩8B的llm3 Q8即可,不要碰70B的。
  6. 能夠全部load進入VRAM加入GPU加速的話,效率會是最好的,部分分到RAM中調用的就會效率低落很明顯。
  7. 基本上llama3 taide已經是可以接受的聰明程度,而一般的輕筆電5500U/16G 已經勉強可執行Q8。
  8. 因此,想很順體驗的話最便宜的選項應該會是
    • 現有設備免花錢玩小模型(完全不想問,超笨)。
    • 對岸撿垃圾,E5 26XX+X99的伺服器主板,記憶體儘量加到32G以上(不快但可玩小模型8BQ8能玩僅是速度稍慢)。
    • 其次是一般PC+RAM+大VRAM的獨顯(例如:N卡最沒問題4060Ti16G、也可以考慮對岸退下來的特斯拉M40/24G便宜大容量(設定比較麻煩)、或是 Intel ARC A770/16G(怕軟體有的限制N卡沒法加速))。
    • 最後是電競筆電記憶體加滿(可惜VRAM被限制住可玩性不如PC)
  1. 再來是想玩較大模型的高階用戶,或是架站分享專業用途的
    • Mac studio 或 Mac PRO/Ultra,記憶體加滿的性價比高,省電高效。
    • 最厲害的還是高階伺服器PC+多張特斯拉顯卡並行,費電超高效,$要超級多。






沒有留言:

張貼留言