我到底要買多大VRAM的顯卡才能順順玩llm
朋友常常問我這個問題,以阿里巴巴通譯千問2.5的模型來看
如果你使用的是7B參數量的模型,
模型容量是4.7GB通常導入VRAM記憶體之後會再增加個1到2G
所以這個7B的模型在VRAM有6G的顯示卡上面應該是可以順跑的
因此,不管你用的是1060/6G還是3050/4060/6G,順順跑應該都還沒問題
但是一旦VRAM不夠使用,模型部分載入本機記憶體的話體
體感速度就會降10倍
因此如果你想順跑14 B參數的模型
可能就要買到3060/4070/12G或者4060ti/16G以上
想跑32B參數的模型就只能買4090/24G了
但如果你是Mac因為他是共用記憶體架構
因此幾乎大部份的記憶體都可以調用作為VRAM
24G RAM 的Mac應該就可以順跑32B的模型
這是Mac 在LLM領域CP值比較高的原因
不過因為顯示晶片的效能還是不敵獨立顯卡所以速度當然沒有獨立顯卡快
那接下來你就會文32B參數跟14B參數的模型到底有什麼差別
其實就是聰明度的差別從下面這張圖看起來
32B的Qwen2.5各項指標都遠遠超越GPT4-O mini
而14B的模型就跟GPT4-O mini伯仲之間打的有來有回
實際的測試應用上7B以上的模型在國中小服務學生應該是夠用
也可以相當程度的理解角色化GPTs的系統指令(System Prompt)的設定
但是3B以下的模型體感上就覺得他有點笨
所以我的建議是最少用7B的模型,條件稍好用14B的模型
電腦如果實在非常地陽春連顯卡都沒有那就只能用3B的模型體驗體驗
(上面的模型列表大部份是用Q4位元素壓縮量化的,數字越少速度越快但是模型越苯,數字越大模型速度越慢但是越聰明,可以的話儘量Q6~Q8,lm-studio裡面可以選,ollama不行)
注意如果你玩本地AI的話,不管是本地生圖還是大語言模型,甚至是AI動畫製作
老黃的顯卡是資源比較豐富的,如果你使用的是Mac或者是Intel的arc或是AMD的獨顯
都會比較容易遇到相容性和支援的問題
老手可以慢慢處理新手就不建議
又有人問我顯卡那麼貴
我會跟你說公家單位買看得見的設備比較容易買看不見的帳號比較折騰
沒有留言:
張貼留言