自造者時代-文盛老師的創意天空: 我的設備可以跑甚麼大模型測試

2024年5月1日星期三

我的設備可以跑甚麼大模型測試

Lenovo小新 AMD 5500U6核12序 16GRAM 內顯強制VRAM2G系統RAM剩13.8G 使用lm-studio作為大模型容器測試

7B4.92G dolphin-2.9-llama3-8b-q4_K_M.gguf GPU加速全開，記憶體用盡16G，GPU80%，CPU75%，可用但速度緩慢

7B8.54G Llama3-8B-Chinese-Chat-q8-v2.gguf GPU加速全開無法載入，開16，記憶體用盡16G，RAM13.8G VRAM近日2G，GPU90%，CPU80%，可用但速度極為緩慢，GPU加速若是開至24，載入就會非常的久，問答時CPU記憶體全爆，等很久不見答案，風扇狂轉極度LAG然後幾分鐘後當機；GPU加速設為0，CPU90%GPU70%，RAM全滿 VRAM1G2G左右跳動，但是反而反應會比上面好很多，所以若是VRAM不足時，反而全部Off-Load稍微順暢

7B8.54G Llama3-TAIDE-LX-8B-Chat-Alpha1-Q8_0.gguf 跟上面幾乎是一樣，不過感覺比較稍稍順暢些

7B6.6G Llama3-TAIDE-LX-8B-Chat-Alpha1-Q6_K.gguf GPU加速設0，RAM占滿，VRAM用一點點，使用時僅CPU90%運作GPU似乎沒在運作，但速度可以接受，GPU加速設16，RAM到12G，VRAM全滿，CPU60%GPU90%運作，速度稍慢

13B5.66G Taiwan-LLaMa-13b-1.0.Q3_K_S.gguf GPU加速16，RAM占12G，VRAM全滿，使用時僅CPU80%運作GPU70%運作，但速度極為緩慢，GPU加速設16，RAM到12G，VRAM全滿，CPU60%GPU90%運作，速度稍慢，GPU加速off-load0，情況類似但回答雞同鴨講

7B4.69G Llama3-TAIDE-LX-8B-Chat-Alpha1-Q4_K_S.gguf GPU加速0，跑起來順暢，加速16反而變慢

從以上測試看起來，這台電腦的效能大約僅能夠跑得動7B資料量Q6版本模型已是極限，VRAM若是不足，則要調降GPU加速的比率，讓CPU和GPU兩邊使用率差不多的話，可以達到較好的效能。用Q4版本免GPU加速則是順暢許多。

但是如果用內顯，會因為內顯很弱拖慢整體效能，或是VRAM 很低的低階顯卡，還不如全部 off load 直接用CPU 和記憶體來跑還比較快。

使用Jan容器測試

llama3 8BQ4 版本或是Qwn 7BQ4，加速器有選項可選應該是有可能支援各獨顯，但這台內顯所以選項不給選，全使用CPU跑，過程尚堪順暢可用

使用GPT4ALL容器測試

8B4.3G llama 3 TAIDE Q4版本，可以選支援的獨顯或GPU選項有可能支援各獨顯，CPU還能選使用多少執行序，過程順暢可用，每秒約5字

========================================================================================

桌機 i7-8700K(6核12序)/GTX-1060/6G 16GRAM

使用lm-studio作為大模型容器測試

7B8.54G llama3 TAIDE 7BQ8 版本，GPU Off-load0，完全使用CPU運作，RAM吃滿15.2G，GPU沒動作VRAM沒加載，反應速度尚稱順暢可執行，看來若無獨顯只要CPU多核速度快也是多少可以玩大模型；GPU調加速到20，RAM吃滿15.6G，VRAM用滿5.8G，CPU60%GPU25%，速度比剛剛稍微快些調到204就會顯示超過VRAM。

13B5.66G taiwan LLM Q3_ks 版本， GPU Off-load0，完全使用CPU運作，RAM吃滿14.7G，GPU動一下就沒再動過VRAM沒加載，反應速度慢約每秒2-3字；GPU調加速到20，RAM吃滿13.2G，VRAM用滿5.6G，CPU60%GPU98%，速度比剛剛稍微快些，Q5 GPU off-load15 VRAM5.7G RAM15.4G CPU70% GPU80% 約每秒1字，極限大約是這樣，電腦數度Lag，還是在Q3就好

========================================================================================

桌機 E5-2680(14核28序)/RTX-3070Ti/8G /32GRAM

使用lm-studio作為大模型容器測試

8B5.73G的Q5版本 Meta-Llama-3-8B-Instruct-Q5_K_M.gguf

GPU Off-load0，完全使用CPU運作，RAM13G，反應速度還行，目測約每秒7字；
GPU全數加入加速，，RAM吃12.7G，VRAM用7.5G，CPU12%GPU90%，速度極快，大約每秒40中文字左右，比我去APPLE商店試用的Mac Studio M2 64G還要快

8B8.54G的Q8版本 Meta-Llama-3-8B-Instruct-Q8_0.gguf

GPU Off-load0，完全使用CPU運作，RAM15G，CPU60%，他想了一下大約半分鐘才回答，反應速度還行，目測約每秒7字；
GPU load 24/32 加入加速(全部加入爆顯存)，RAM吃15.7G，VRAM用7.5G，CPU42%GPU30%，速度極快，大約每秒15中文字左右。

13B8.97G的Q5版本 Taiwan-LLM-13B-v2.0-chat-Q5_0.gguf

GPU load 30/40 加入加速(全部加入爆顯存)，RAM吃21.4G，VRAM用7.7G，CPU35%GPU26%，速度可以大約每秒4中文字左右。

13B13.83G的Q8版本 Taiwan-LLM-13B-v2.0-chat-Q8_0.gguf

GPU Off-load 10，VRAM6.8，RAM25G，GPU30%、CPU50，目測約每秒3字；

70B15.4G的IQ1版本 Meta-Llama-3-70B-Instruct.IQ1_S.gguf

GPU Off-load0，完全使用CPU運作，RAM21.2G，CPU68%，他想了大約8分鐘都沒回答我我就放棄了
GPU load 40/80 加入加速(全部加入爆顯存)，RAM吃23G，VRAM用7.7G，CPU10%GPU99%，我等1分鐘後才回答，目測每秒不到2字
GPU load 30/80 加入加速(全部加入爆顯存)，RAM吃21.3G，VRAM用7.5G，CPU57%GPU15%，每秒目測3字

結論

沒有獨顯或是獨顯很低階也可以玩大模型(7BQ4就好)，記憶體要大速度要快越好，核心當然越多越好，全部off load只用CPU也許比較快。
有獨顯的明顯比較快(7BQ8或13BQ3就好)，超過VRAM大小的大模型，使用GPU Off-load儘量調到VRAM占用最大以儘可能的加速。
模型世代越新越聰明，例如LLM3>LLM2，模型資料量大越聰明，例如13B>7B，版本越高越聰明，例如Q8>Q4，但聰明和設備需求成正比。
所以有獨顯的話VRAM越大越好，RAM儘量加到滿，再來考慮要甚麼等級。
VRAM<8G玩玩8B的llm3 Q8即可，不要碰70B的。
能夠全部load進入VRAM加入GPU加速的話，效率會是最好的，部分分到RAM中調用的就會效率低落很明顯。
基本上llama3 taide已經是可以接受的聰明程度，而一般的輕筆電5500U/16G 已經勉強可執行Q8。
因此，想很順體驗的話最便宜的選項應該會是

現有設備免花錢玩小模型(完全不想問，超笨)。
對岸撿垃圾，E5 26XX+X99的伺服器主板，記憶體儘量加到32G以上(不快但可玩小模型8BQ8能玩僅是速度稍慢)。
其次是一般PC+RAM+大VRAM的獨顯(例如：N卡最沒問題4060Ti16G、也可以考慮對岸退下來的特斯拉M40/24G便宜大容量(設定比較麻煩)、或是 Intel ARC A770/16G(怕軟體有的限制N卡沒法加速))。
最後是電競筆電記憶體加滿(可惜VRAM被限制住可玩性不如PC)

再來是想玩較大模型的高階用戶，或是架站分享專業用途的

Mac studio 或 Mac PRO/Ultra，記憶體加滿的性價比高，省電高效。
最厲害的還是高階伺服器PC+多張特斯拉顯卡並行，費電超高效，$要超級多。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

GPTssssss

2024年5月1日星期三

我的設備可以跑甚麼大模型測試

Lenovo小新 AMD 5500U6核12序 16GRAM 內顯強制VRAM2G系統RAM剩13.8G 使用lm-studio作為大模型容器測試

桌機 i7-8700K(6核12序)/GTX-1060/6G 16GRAM

使用lm-studio作為大模型容器測試

========================================================================================

桌機 E5-2680(14核28序)/RTX-3070Ti/8G /32GRAM

使用lm-studio作為大模型容器測試

8B5.73G的Q5版本 Meta-Llama-3-8B-Instruct-Q5_K_M.gguf

GPU Off-load0，完全使用CPU運作，RAM13G，反應速度還行，目測約每秒7字；
GPU全數加入加速，，RAM吃12.7G，VRAM用7.5G，CPU12%GPU90%，速度極快，大約每秒40中文字左右，比我去APPLE商店試用的Mac Studio M2 64G還要快

8B8.54G的Q8版本 Meta-Llama-3-8B-Instruct-Q8_0.gguf

GPU Off-load0，完全使用CPU運作，RAM15G，CPU60%，他想了一下大約半分鐘才回答，反應速度還行，目測約每秒7字；
GPU load 24/32 加入加速(全部加入爆顯存)，RAM吃15.7G，VRAM用7.5G，CPU42%GPU30%，速度極快，大約每秒15中文字左右。

13B8.97G的Q5版本 Taiwan-LLM-13B-v2.0-chat-Q5_0.gguf

GPU load 30/40 加入加速(全部加入爆顯存)，RAM吃21.4G，VRAM用7.7G，CPU35%GPU26%，速度可以大約每秒4中文字左右。

13B13.83G的Q8版本 Taiwan-LLM-13B-v2.0-chat-Q8_0.gguf

GPU Off-load 10，VRAM6.8，RAM25G，GPU30%、CPU50，目測約每秒3字；

70B15.4G的IQ1版本 Meta-Llama-3-70B-Instruct.IQ1_S.gguf

結論

沒有留言:

張貼留言

總網頁瀏覽量

科技教育-創客類

電腦安裝區

關於我的影片-點閱率最高部分

學習

認識文盛

廠商採購專區(~~NEW)

十二年國教

教學好站

教學老師區

教學研究、資訊工具

資訊教育-行動學習

GPTssssss

2024年5月1日 星期三

我的設備可以跑甚麼大模型測試

Lenovo小新 AMD 5500U6核12序 16GRAM 內顯 強制VRAM2G系統RAM剩13.8G 使用lm-studio作為大模型容器測試

桌機 i7-8700K(6核12序)/GTX-1060/6G 16GRAM

使用lm-studio作為大模型容器測試

========================================================================================

桌機 E5-2680(14核28序)/RTX-3070Ti/8G /32GRAM

使用lm-studio作為大模型容器測試

8B5.73G的Q5版本 Meta-Llama-3-8B-Instruct-Q5_K_M.gguf

GPU Off-load0，完全使用CPU運作，RAM13G，反應速度還行，目測約每秒7字；GPU全數加入加速，，RAM吃12.7G，VRAM用7.5G，CPU12%GPU90%，速度極快，大約每秒40中文字左右，比我去APPLE商店試用的Mac Studio M2 64G還要快

8B8.54G的Q8版本 Meta-Llama-3-8B-Instruct-Q8_0.gguf

GPU Off-load0，完全使用CPU運作，RAM15G，CPU60%，他想了一下大約半分鐘才回答，反應速度還行，目測約每秒7字；GPU load 24/32 加入加速(全部加入爆顯存)，RAM吃15.7G，VRAM用7.5G，CPU42%GPU30%，速度極快，大約每秒15中文字左右。

13B8.97G的Q5版本 Taiwan-LLM-13B-v2.0-chat-Q5_0.gguf

GPU load 30/40 加入加速(全部加入爆顯存)，RAM吃21.4G，VRAM用7.7G，CPU35%GPU26%，速度可以大約每秒4中文字左右。

13B13.83G的Q8版本 Taiwan-LLM-13B-v2.0-chat-Q8_0.gguf

GPU Off-load 10，VRAM6.8，RAM25G，GPU30%、CPU50，目測約每秒3字；

70B15.4G的IQ1版本 Meta-Llama-3-70B-Instruct.IQ1_S.gguf

結論

沒有留言:

張貼留言

2024年5月1日星期三

Lenovo小新 AMD 5500U6核12序 16GRAM 內顯強制VRAM2G系統RAM剩13.8G 使用lm-studio作為大模型容器測試

GPU Off-load0，完全使用CPU運作，RAM13G，反應速度還行，目測約每秒7字；
GPU全數加入加速，，RAM吃12.7G，VRAM用7.5G，CPU12%GPU90%，速度極快，大約每秒40中文字左右，比我去APPLE商店試用的Mac Studio M2 64G還要快

GPU Off-load0，完全使用CPU運作，RAM15G，CPU60%，他想了一下大約半分鐘才回答，反應速度還行，目測約每秒7字；
GPU load 24/32 加入加速(全部加入爆顯存)，RAM吃15.7G，VRAM用7.5G，CPU42%GPU30%，速度極快，大約每秒15中文字左右。