2024年6月12日 星期三

著名的大模型與分類

要使用LLM大模型的分類與特色,幾個比較著名的LLM分述如下:

  • GPT-4:具有強大的語言理解和生成能力,能夠處理圖像和影像,支持邏輯、推理和計算密集型問題1。
  • Claude-3:擁有快速的處理速度和長文本記憶能力,能夠處理超長文章,並在多個測試中展現出接近人類的能力2。
  • GLM-4:支持多語言,包括日語、韓語、德語等26種語言,並在多模態評測中表現出色3。
  • Qwen2-72B:包含多个模型大小,支持多语言,具有显著的性能提升,特别是在人类偏好的聊天模型方面,新版的Qwen2很多部分超越llama3。
  • LLaMA3:由Meta公司(臉書)所訓練的大模型,我個人很愛用,由於是部分從臉書資料訓練來的,感覺比較聽得懂人話,8B 的版本就很好用了。
目前對台灣、中國文化及語言有特別訓練過的LLM
  • BLOOM-zh:這是全球首款千億參數級繁體中文AI語言生成模型,由聯發科技、中央研究院詞庫小組和國家教育研究院共同開發。這個模型比目前開源可用的最大繁體中文模型大1000倍,訓練資料也多1000倍,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等1。
  • yentinglin/Llama-3-Taiwan-70B-Instruct、(DPO)
    • 數據由長庚紀念醫院、長春集團、Legalsign.ai、NVIDIA、和碩、TechOrange和Unimicron提供,是一個針對繁體普通話和英語用戶進行微調的大型語言模型。具有較強的語言理解能力、生成能力、推理能力、多回合對話能力。主要功能包括對高品質的繁體中文和英文語料庫進行微調,涵蓋法律、製造、醫療和電子領域的常識和工業知識、8K 上下文長度、在 Llama-3 許可下發佈的開放模型
  • taide/Llama3-TAIDE-LX-8B-Chat-Alpha1
    • TAIDE計畫致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型,同時建構可信任的人工智慧環境。結合產學研能量,推動可信任生成式人工智慧的發展,提升台灣在國際競爭中的地位,促進產業發展,避免對外國技術的依賴。
    • Llama3 TAIDE 系列模型以 Meta 公司釋出的 LLaMA3-8b 為基礎,特色:嚴格把關模型的訓練資料,提升模型生成資料的可信任性和適用性,針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強,針對台灣在地文化、用語、國情等知識做加強,具備多輪問答對話能力
    • 參數量: 8B、最大內容長度 (context length): 8K、繁中訓練資料 token 量: 43B
    • 訓練資料包含:訴訟資料中央社中文新聞ETtoday新聞雲立法院公報出版商網站書籍介紹包含三采、Gotop出版商網站上的書籍簡介GRB 研究計畫摘要學術會議論文摘要光華雜誌樂詞網各部會資料今周刊教育部國語辭典、成語辭典重編國語辭典修訂本國語辭典簡編本科技大觀園資料iKnow 科技產業資訊室台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊科學發展月刊法規資料庫各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等各地政府旅遊網國教院課程綱要(十二年國教)含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要中央社譯名檔資料庫童話書20 本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等RedPajama-Data-V2 MathPile-commercial國外開放數學語料庫 MathPile-commercial中文維基百科github-code-clean為 github 開源程式碼資料集TAIDE團隊訓練llama2系列模型來產生微調資料資料,產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料後續會對外釋出。
  • GLM-4-9B-Chat
    • 由智谱 AI 推出的一款大型预训练模型,属于 GLM-4 系列中的开源版本。这个模型在多个方面进行了优化和提升,具有以下特点:多方面优化:在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat 展现出了卓越的性能,超越了其他一些知名模型1。多轮对话能力:除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理的能力,支持最大 128K 上下文长度1。多语言支持:模型增加了多语言支持,包括日语、韩语、德语等共 26 种语言1。多模态能力:GLM-4V-9B 是基于 GLM-4-9B 的多模态模型,具备视觉理解能力,在多模态评测中表现出色1。
  • Qwen2-72B-Instruct
    • Qwen2 是 Qwen 大型語言模型的新系列。對於 Qwen2,我們發佈了許多基礎語言模型和指令調優語言模型,範圍從 0.5 到 720 億個參數,包括專家混合模型。此儲存庫包含指令調整的 72B Qwen2 模型。與之前發佈的 Qwen1.5 等最先進的開源語言模型相比,Qwen2 總體上超越了大多數開源模型,並在語言理解、語言生成、多語言能力、編碼、數學、推理等一系列基準測試中表現出了與專有模型的競爭力。Qwen2-72B-Instruct 支援高達 131,072 個令牌的上下文長度,從而能夠處理大量輸入

老師最困擾的事─孩子不主動學習

對於學習較困難的學生,一般老師會降低期待,但是希望他們走在老師希望的軌道上,但是因為“道”不對,所以孩子總是沒辦法達到你已經降低的標準,大錯特錯;

每個人來到世上都有自己的責任,找到自己的道在這裡發揮最大的光與熱才是人生的目標,老師其實很辛苦,要張大眼睛幫孩子找到那條屬於自己的道,甚至是訓練孩子自己找道的能力,這其實對沒受過訓沒開悟的老師是很大的挑戰,找錯道,會讓孩子一生都辛苦。

如果你的學生都找到自己的道,在此前題之下,建議你使用心智圖人生目標規劃法,帶著孩子向已知的天命前進,豐富自己生命的體驗,在自己的道上發光發熱,依據系統拆解後的心智圖,以及排列好年齡階段的演算法,做出規劃並督促自己砥礪前行,最終才能成就孩子自己。

既然目標是自己的,也就找出了自己前進的動機,這是一切學習之母,然後再教會他們自我成長的方法,激勵自己的方法...等。

套一句世俗的話,死馬當活馬醫;如果你要天生是畫家的孩子去走一般升學孩子的道,那就是死馬,必死無疑,但若是向他的天生優勢前進,走他的道,必然如魚得水,而且這完全符合比馬龍效應。

老師是孩子人生的mentor,不是教書匠

褻瀆自己神聖工作的老師,好好反省!

2024年6月4日 星期二

SD生圖的側門 ComfyUI 簡易生圖 修圖與放大

畫圖正式流程:使用ComfyUI

通常S生圖先不要放大,先生多數草圖,合用的草圖鎖定種子再來做放大與細緻化

放大時,迭代步數這邊開啟HiresFix修圖選項,項目內透過升頻演算法(Upscaler)將圖像放大,裡面有演算法的選項,仿真照片類型建議選擇ESRGAN_4x,如果是漫畫、插畫類型則建議選擇R-ESRGAN-4x+-Anime6B,Hires steps表示放大圖片的運算步數,數值越大產生的圖像品質越好,但需要花更多時間,一般建議設定15~20之間的數值(總步數約45-50)。

Denoising strength為降噪強度,可以理解為放大過程重新繪製的幅度,數值越大就是給系統越大的空間去調整圖像內容,建議設定0.25~0.35之間的數值避免圖像崩壞,品質未達期望可嘗試提升到0.5~0.7,通常在0.5時會造成很顯著的顏色光影改變,0.75時連結構跟人物姿態都會有很明顯的變動。

Hires. fix記憶體使用量,1920 x 1080解析大約需要8GB左右顯示記憶體,而3840 x 2160需要14~16GB顯示記憶體,不符合需求可用 Tiled VAE教學中提供替代解決方法。

另外在模型的選擇上,如果需要高解析的模型,SDXL 的型號更擅長創建更高的分辨率。

也可以生完圖之後,再用img2img extra 選項進行放大。

使用工作流:(顯存需求較低、效能更好)

工作流中文化:

  1. 先進入ComfyUI 所在資料夾位置,例如:E:\SD\Data\Packages\ComfyUI\custom_nodes
  2. 開啟 powershell 然後提供 clone中文化資料:git clone http://github.com/AIGODLIKE/AIGODLIKE-COMFYUI-TRANSLATION.git
  3. 設定介面選繁體中文之後重開即可使用。

一般使用:

底稿中加入管理目錄:git clone https://github.com/ltdrdata/ComfyUI-Manager.git







參考網站:
https://www.techbang.com/posts/111715-stable-diffusion-hires-fix

https://medium.com/rendernet/using-hires-fix-to-upscale-your-stable-diffusion-images-8d8e2826593e