顯卡跑LLM速度大約是如何呢?( 參照RTX4080)
4080是張16G的顯卡,從官網Qwen的測試看來,從7B的版本看起來速度可以達到124tok/sec,大約是4060的3倍,而顯卡天梯上,4080效能也差不多是4060的3倍左右,所以可以估算,模型在不超過VRAM的容量下,大約就是這樣的比例,
我的4060經實際測試大約是47 tok/sec
因此4070大約會落在70 tok/sec左右
至於超過VRAM之後,速度就會掉得很可怕了
以下是實測的結果,電腦10900/64G 顯卡4060/8G
QWEN2.5 7B/14B (Q4)用 lm-studio平台,在不同型號顯卡大家的速度是多少tokens/sec?
4060→7B:46.9tok/sec(極為順暢)
4060→14B:3.92tok/sec (約需要11G VRAM,顯然已經超過顯卡8G VRAM,速度降得很誇張)
高階顯卡部分感謝金門王家駿教授、陳文舟老師助測:
4090/16G筆電(MSI Raider 18 HX A14V筆電 4090/16GB,RAM 32GB)
4090→7B:69.14tok/sec(極為順暢)
TITAN Xp/16G→7B:46.46 tokens/s(極為順暢)
4090→14B:39.57tok/sec(極為順暢)
4090→32B:4.19tok/sec(需要約22G VRAM已經超過,降速離譜)
4090→70B(llama3.3)無法運行(需要45G VRAM才能跑)
因此,對於一般學習者而言,不牽涉其他AI服務的話,桌面版 4060Ti/16G無疑是平衡下的最佳選擇,而對於要玩AI生圖的人,還是攻頂比較合適,是生產力效率的問題
換句話說:如果你想順跑Qwen2.5 7BQ4 的模型,其實6G/8G顯卡就能順跑,所以如果你是GTX1060/6G 其實也不用換,但是若想跑順跑 14B 的模型,就得買VRAM 有12G的顯卡
以下圖片為官網提供測試的結果
至於對岸便宜的礦卡8G礦卡,等我買回來再測給大家看