2024年12月2日 星期一

顯卡跑LLM速度大約是如何呢?( 參照RTX4080)

顯卡跑LLM速度大約是如何呢?( 參照RTX4080)

4080是張16G的顯卡,從官網Qwen的測試看來,從7B的版本看起來速度可以達到124tok/sec,大約是4060的3倍,而顯卡天梯上,4080效能也差不多是4060的3倍左右,所以可以估算,模型在不超過VRAM的容量下,大約就是這樣的比例,

我的4060經實際測試大約是47 tok/sec

因此4070大約會落在70 tok/sec左右

至於超過VRAM之後,速度就會掉得很可怕了

以下是實測的結果,電腦10900/64G 顯卡4060/8G

QWEN2.5 7B/14B (Q4)用 lm-studio平台,在不同型號顯卡大家的速度是多少tokens/sec?

4060→7B:46.9tok/sec(極為順暢)

4060→14B:3.92tok/sec (約需要11G VRAM,顯然已經超過顯卡8G VRAM,速度降得很誇張)

高階顯卡部分感謝金門王家駿教授、陳文舟老師助測:

4090/16G筆電(MSI Raider 18 HX A14V筆電 4090/16GB,RAM 32GB)

4090→7B:69.14tok/sec(極為順暢)

TITAN Xp/12G→7B:46.46 tokens/s(極為順暢)

4090→14B:39.57tok/sec(極為順暢)

4090→32B:4.19tok/sec(需要約22G VRAM已經超過,降速離譜)

4090→70B(llama3.3)無法運行(需要45G VRAM才能跑)

因此,對於一般學習者而言,不牽涉其他AI服務的話,桌面版 4060Ti/16G無疑是平衡下的最佳選擇,而對於要玩AI生圖的人,還是攻頂比較合適,是生產力效率的問題

換句話說:如果你想順跑Qwen2.5 7BQ4 的模型,其實6G/8G顯卡就能順跑,所以如果你是GTX1060/6G 其實也不用換,但是若想跑順跑 14B 的模型,就得買VRAM 有12G的顯卡

以下圖片為官網提供測試的結果


至於對岸便宜的礦卡8G礦卡,等我買回來再測給大家看

若是不用顯卡,純用CPU跑(GPU OFFLOAD),跑Qwen2.5 7BQ4,速度是
在17-8700K(6核12緒):5.85 toks/s (速度很慢)

其他網友的測量
Kevin Chen:顯卡GTX1060/6GB (Qwen2.5 7b)→ 11.88 tokens/s
RX580/8G  (Qwen2.5 7b/Gemma2 9B,使用GPT4ALL)→ 6~11 tokens/s

也歡迎大家協助檢測提供數據

沒有留言:

張貼留言