2024年6月12日 星期三

著名的大模型與分類

要使用LLM大模型的分類與特色,幾個比較著名的LLM分述如下:

  • GPT-4:具有強大的語言理解和生成能力,能夠處理圖像和影像,支持邏輯、推理和計算密集型問題1。
  • Claude-3:擁有快速的處理速度和長文本記憶能力,能夠處理超長文章,並在多個測試中展現出接近人類的能力2。
  • GLM-4:支持多語言,包括日語、韓語、德語等26種語言,並在多模態評測中表現出色3。
  • Qwen2-72B:包含多个模型大小,支持多语言,具有显著的性能提升,特别是在人类偏好的聊天模型方面,新版的Qwen2很多部分超越llama3。
  • LLaMA3:由Meta公司(臉書)所訓練的大模型,我個人很愛用,由於是部分從臉書資料訓練來的,感覺比較聽得懂人話,8B 的版本就很好用了。
目前對台灣、中國文化及語言有特別訓練過的LLM
  • BLOOM-zh:這是全球首款千億參數級繁體中文AI語言生成模型,由聯發科技、中央研究院詞庫小組和國家教育研究院共同開發。這個模型比目前開源可用的最大繁體中文模型大1000倍,訓練資料也多1000倍,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等1。
  • yentinglin/Llama-3-Taiwan-70B-Instruct、(DPO)
    • 數據由長庚紀念醫院、長春集團、Legalsign.ai、NVIDIA、和碩、TechOrange和Unimicron提供,是一個針對繁體普通話和英語用戶進行微調的大型語言模型。具有較強的語言理解能力、生成能力、推理能力、多回合對話能力。主要功能包括對高品質的繁體中文和英文語料庫進行微調,涵蓋法律、製造、醫療和電子領域的常識和工業知識、8K 上下文長度、在 Llama-3 許可下發佈的開放模型
  • taide/Llama3-TAIDE-LX-8B-Chat-Alpha1
    • TAIDE計畫致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型,同時建構可信任的人工智慧環境。結合產學研能量,推動可信任生成式人工智慧的發展,提升台灣在國際競爭中的地位,促進產業發展,避免對外國技術的依賴。
    • Llama3 TAIDE 系列模型以 Meta 公司釋出的 LLaMA3-8b 為基礎,特色:嚴格把關模型的訓練資料,提升模型生成資料的可信任性和適用性,針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強,針對台灣在地文化、用語、國情等知識做加強,具備多輪問答對話能力
    • 參數量: 8B、最大內容長度 (context length): 8K、繁中訓練資料 token 量: 43B
    • 訓練資料包含:訴訟資料中央社中文新聞ETtoday新聞雲立法院公報出版商網站書籍介紹包含三采、Gotop出版商網站上的書籍簡介GRB 研究計畫摘要學術會議論文摘要光華雜誌樂詞網各部會資料今周刊教育部國語辭典、成語辭典重編國語辭典修訂本國語辭典簡編本科技大觀園資料iKnow 科技產業資訊室台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊科學發展月刊法規資料庫各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等各地政府旅遊網國教院課程綱要(十二年國教)含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要中央社譯名檔資料庫童話書20 本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等RedPajama-Data-V2 MathPile-commercial國外開放數學語料庫 MathPile-commercial中文維基百科github-code-clean為 github 開源程式碼資料集TAIDE團隊訓練llama2系列模型來產生微調資料資料,產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料後續會對外釋出。
  • GLM-4-9B-Chat
    • 由智谱 AI 推出的一款大型预训练模型,属于 GLM-4 系列中的开源版本。这个模型在多个方面进行了优化和提升,具有以下特点:多方面优化:在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat 展现出了卓越的性能,超越了其他一些知名模型1。多轮对话能力:除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理的能力,支持最大 128K 上下文长度1。多语言支持:模型增加了多语言支持,包括日语、韩语、德语等共 26 种语言1。多模态能力:GLM-4V-9B 是基于 GLM-4-9B 的多模态模型,具备视觉理解能力,在多模态评测中表现出色1。
  • Qwen2-72B-Instruct
    • Qwen2 是 Qwen 大型語言模型的新系列。對於 Qwen2,我們發佈了許多基礎語言模型和指令調優語言模型,範圍從 0.5 到 720 億個參數,包括專家混合模型。此儲存庫包含指令調整的 72B Qwen2 模型。與之前發佈的 Qwen1.5 等最先進的開源語言模型相比,Qwen2 總體上超越了大多數開源模型,並在語言理解、語言生成、多語言能力、編碼、數學、推理等一系列基準測試中表現出了與專有模型的競爭力。Qwen2-72B-Instruct 支援高達 131,072 個令牌的上下文長度,從而能夠處理大量輸入

沒有留言:

張貼留言