2024年10月13日 星期日

適合8G獨立顯卡+16G記憶體跑的LLM推薦

結至目前2024年10月以前

適合8G獨立顯卡+16G記憶體跑的LLM推薦

Qwen2.5/7B/檔案4.7G/VRAM需求約6G

  • 對岸阿里雲通譯千問出品,中文特好、程式及數學較強,支持多語言。
  • 模型小又高效,也適合陽春舊電腦、手機等攜帶裝置有各種大小(0.5B~72B)版本。
  • 特別是在生成長文本(8K~128K)和理解結構化數據(如表格)方面表現優秀。
  • 這個模型具有多語言能力表現出色,可以處理和生成多種語言的內容。
  • 在指令跟隨方面有顯著的改進,能夠更好地理解和執行複雜的指令。
  • 能夠生成結構化的輸出,特別是JSON格式,非常適合實際應用。
  • 對系統提示的多樣性更加響應,增強了角色扮演和條件設置的實現。
  • 不管是自然語言處理、文化語境理解(中文文化背景括對成語、俚語及諺語的恰當使用,或是多元應用場景(能夠生成風格多樣的段落),還同時支持繁體和簡體。

Gemma2/9B/檔案5.4G/VRAM需求約7G

  • 有2B版本適合陽春舊電腦、手機等攜帶裝置,還有和27B版本
  • Google出的,政治潔癖人首選
  • 採用知識蒸餾法訓練(把知識預測的機率也放進去),更小模型更大效能
  • 27B能力接近GPT-4且近乎完勝30B的llama3(舊版)
  • 優點包含卓越的創意寫作能力、強大的推理能力
  • 繁體中文友善的核心基底引擎
  • 並針對Nvidia的加速優化
  • 融入全面的安全措施

Mistral NeMo/12B/檔案7.1G/VRAM需求約9G(系統較為吃力)

  • Mistral AI 和 NVIDIA 共同開發
  • 大部分評比贏過Gemma2 9B(但體感倒是不如預期)
  • 大上下文窗口(128K)能夠處理長篇文本
  • 支持多語言
  • 使用FP8數據格式進行推理,減少了記憶體需求並加快速度
  • 多轉對話、數學推理、邏輯推理和編程方面表現出色
  • 提供了強大的安全性和支持,使其在商業應用中更為可靠

其他: 

  1. Llama 3.2/3B(先不要,等他出7-9B級距,目前3B版不支援中文)
  2. 沒獨立顯卡RAM<8G的陽春電腦,建議Gemma2/2B或Qwen2.5/3B
  3. 中文特別訓練版的 Taiwan llama 和 TAIDE 目前都還停留在Llama3的舊版上
  4.  容器推薦Lm-studio(簡單易用更新快)、Ollama(文字介面可被串接)、AnythingLLM (有RAG可串接)
  5.  要使用SystemPrompt功能的話建議 Gemma2/9B或Qwen2.5/7B以上

 


沒有留言:

張貼留言