自造者時代-文盛老師的創意天空: 顯卡跑LLM速度大約是如何呢？( 參照RTX4080)

2024年12月2日星期一

顯卡跑LLM速度大約是如何呢？( 參照RTX4080)

顯卡跑LLM速度大約是如何呢？( 參照RTX4080)

4080是張16G的顯卡，從官網Qwen的測試看來，從7B的版本看起來速度可以達到124tok/sec，大約是4060的3倍，而顯卡天梯上，4080效能也差不多是4060的3倍左右，所以可以估算，模型在不超過VRAM的容量下，大約就是這樣的比例，

我的4060經實際測試大約是47 tok/sec

因此4070大約會落在70 tok/sec左右

至於超過VRAM之後，速度就會掉得很可怕了

以下是實測的結果，電腦10900/64G 顯卡4060/8G

QWEN2.5 7B/14B (Q4)用 lm-studio平台，在不同型號顯卡大家的速度是多少tokens/sec?

4060→7B：46.9tok/sec(極為順暢)

4060→14B：3.92tok/sec (約需要11G VRAM，顯然已經超過顯卡8G VRAM，速度降得很誇張)

高階顯卡部分感謝金門王家駿教授、陳文舟老師助測：

4090/16G筆電(MSI Raider 18 HX A14V筆電 4090/16GB，RAM 32GB)

4090→7B：69.14tok/sec(極為順暢)

TITAN Xp/12G→7B：46.46 tokens/s(極為順暢)

4090→14B：39.57tok/sec(極為順暢)

4090→32B：4.19tok/sec(需要約22G VRAM已經超過，降速離譜)

4090→70B(llama3.3)無法運行(需要45G VRAM才能跑)

因此，對於一般學習者而言，不牽涉其他AI服務的話，桌面版 4060Ti/16G無疑是平衡下的最佳選擇，而對於要玩AI生圖的人，還是攻頂比較合適，是生產力效率的問題

換句話說：如果你想順跑Qwen2.5 7BQ4 的模型，其實6G/8G顯卡就能順跑，所以如果你是GTX1060/6G 其實也不用換，但是若想跑順跑 14B 的模型，就得買VRAM 有12G的顯卡

以下圖片為官網提供測試的結果

至於對岸便宜的礦卡8G礦卡，等我買回來再測給大家看

若是不用顯卡，純用CPU跑(GPU OFFLOAD)，跑Qwen2.5 7BQ4，速度是

在17-8700K(6核12緒)：5.85 toks/s (速度很慢)

其他網友的測量

Kevin Chen：顯卡GTX1060/6GB (Qwen2.5 7b)→ 11.88 tokens/s

RX580/8G (Qwen2.5 7b/Gemma2 9B，使用GPT4ALL)→ 6～11 tokens/s

M3 pro 18G 測qwen2.5 "3B" 速度達53token/s /7B未測試/32B無法載入需要再確認

也歡迎大家協助檢測提供數據

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

GPTssssss

2024年12月2日星期一

顯卡跑LLM速度大約是如何呢？( 參照RTX4080)

沒有留言:

張貼留言

總網頁瀏覽量

科技教育-創客類

電腦安裝區

關於我的影片-點閱率最高部分

學習

認識文盛

廠商採購專區(~~NEW)

十二年國教

教學好站

教學老師區

教學研究、資訊工具

資訊教育-行動學習

GPTssssss

2024年12月2日 星期一

顯卡跑LLM速度大約是如何呢？( 參照RTX4080)

沒有留言:

張貼留言

2024年12月2日星期一