2024年4月11日 星期四

本地自建大模型 Ollama 的使用與大模型普查

本地自建大模型 Ollama 的使用與大模型普查

  1. 官網直接安裝 Ollama,之後她會在背景執行,不會出現任何視窗。
  2. 在瀏覽器中連接 http://localhost:11434/,如果顯示 “Ollama is running”,則代表 Ollama 已經成功啟動
  3. Windows 系統中叫出 cmd ,這個Ollama 都是在命令列模式下運行,如果要在視窗介面使用 Ollama你需要安裝 Ollama Web UI
  4. 使用 ollama run 命令選擇並執行模型,例如:ollama run 模型名稱,例如:ollama run notus、ollama run xwinlm ...,启动成功后,ollama 在本地 11434 端口启动了一个 API 服务,可通过 http://localhost:11434 訪問
  5. 然後他會開始跑一些下載和準備一直到出現 success 就能在視窗中開始對話。
  6. 命令 /bye 可以跳出來
  7. ollama list 看有哪些模型在電腦中
  8. ollama rm 模型名稱 來清理不用的模型,例如:ollama rm notus
  9. 原則上ollama使用cpu比較多,若要強迫其使用GPU,可以試試在啟動之前執行set CUDA_VISIBLE_DEVICES=0 (你的顯卡位置0/1),並且在設定檔(位置:C:\Users\<你的用戶名>\AppData\Local\Ollama,裡面的config.json,加上 "use_gpu": true, "gpu_id": 0,存檔後,再重開ollama。可以用nvidia-smi指令是否有用GPU。
  10. Ollama 所提供的模型可以參考 https://ollama.com/library
  11. 可以使用模型名稱詢問 GPT 相關功能和是否支援中文等,目前建議的模型:Gemma2/Llama3.1/Qwen2。
  12. 模型可以互通?下載好的模型也可以在lm-studio/jan/gpt4all使用?GGUF匯入的方法目前沒有很明確...
    



模型如何下載與選用

  1. 建議先看一下下方的模型摘要,確認自己想試試哪個模型,複製一下紅色關鍵字。
  2. 在Google 搜尋上直接輸入 “huggingface gguf download 關鍵字名稱”。
  3. 通常第一條就是你要的模型下載位置,進入頁面可以用Google翻譯稍微看一下內容。
  4. 在頁面下方的位置會有檔案列表,註明模型的版本、檔案大小、RAM與VRAM需求、效能與建議,所以你要依據自己的硬體能力下載相對應想測試的檔案,當然,這邊也可以知道想玩怎樣的模型就要有怎樣的設備,(mac應該是最便宜的選項,記憶體最大到192G,還大部分都可以分享給VRAM,所以可以玩最大的模型,只是速度有差,如果買PC那就是天價和高昂的電費)。
  5. 下載後就能匯入你的JAN、GPT4ALL、LM-STUDIO去試用大模型。
  6. 直接使用上述指令即可不用事先下載
  7. 檔案很大,不用的就記得刪掉,以免爆倉。(關機離開就會釋放檔案及記憶體)
  8. 接下來一兩年,蘋果、PC的記憶體、SSD、顯卡都匯價格居高不下,顯而易見,還有手機或家裡的網路傳輸速率也會開始重視。

基本指令:

  • ollama pull llama2 拉一個模型回來
  • ollama run llama2 啟動一個模型(互動介面)
  • ollama rm llama2 刪除模型
  • ollama cp llama2 my-llama2 複製一個模型
  • ollama list 目前主機上已經擁有的模型列表
  • ollama create {model_name} -f ./Modelfile 建立自己的 modelfile 裡面會寫 prompt 或是一些相關參數調整
  • ollama run llama2 "Summarize this file: $(cat README.md)" 傳入 prompt
  • ollama serve 啟動一個伺服器。
  • set CUDA_VISIBLE_DEVICES=0 強迫其使用GPU,可以試試在啟動之前執行


模型部分摘要如下(不含寫code協助的)

notus基於 Zephyr,使用高品質資料進行微調的 7B 聊天模型(中文)

1. 语音或文字命令解析:您可以通过说出或者书写指令来操作我们的系统。
2. 自然语言处理(nlp):我可以帮助您阅读和理解文本内容,并回答您的问题。
3. 数据分析和预测:我可以帮助您分析数据并提供有用的洞察力和见解。
4. 语音合成(text-to-speech)和识别(speech recognition):我可以为您提供语音输入或者输出功能,方便与人类进 行交流。
5. 智能推荐系统:我可以基于您的历史数据和偏好来推荐内容、商品或者服务。
6. 图像和视频处理:我可以帮助您处理图片和视频,例如识别对象、面部识别等。
7. 多语言支持:我可以为多种语言提供服务,包括中文、英文等等。
8. 电子邮件管理和自动回复:我可以帮助您处理并自动回复收到的邮件。
9. 智能家居控制:我可以帮助您进行各种智能家居设备的控制,例如开关灯、调节温度等等。
10. 其他功能:根据您的需求和想法,我可以为您提供更多的定制化功能,例如游戏 AI、健康数据分析等等。

ollama run notus (7B4.1G)


xwinlm:基於 Llama 2 的中文對話模型,在各種基準測試中表現具有競爭力(中文)

1. 簡單易用的界面:我提供一個簡單直觀的用戶界面,使用者可以輕鬆地查看和管理他們的資料。
2. 多語言支持:我可以在不同的語言中提供相同的功能,使用者可以選擇自己喜歡的語言進行操作。
3. 協助學習:我可以根據用戶的需求和進度提供有關課程、教材和其他學習資源的建議,幫助用戶更好地安排自己的學習 時間。
4. 聊天機器人:我可以與用戶進行文字對話,回答他們的問題和需求,使用者能更容易地互動和交流。
5. 計算機科學教程:我可以提供基本的計算機科學知識,例如語言、數據結構、算法等,幫助用戶更好地理解和運用這些 概念。
6. 資料處理:我可以幫助用戶進行基本的資料操作,如插值、簡化和分析等,以提高他們的學習效率。
7. 個性化建議:我可以根據用戶的進度、需求和喜好,為他們提供更加個性化的建議和鼓勵。
8. 學習路徑規劃:我可以根據用戶的目標和進度,為他們規劃合理的學習路徑,包括每日/每週的學習時間和任务。
9. 教育資源搜索:我可以根據用戶的需求提供相關的教育資源,如教材、培訓課程和在線課程等。
10. 社交連接:我可以為用戶提供建立學習社群的機會,透過在線平台或現實活動來與他人分享學習經驗和成果。
11. 進度紀錄:我可以記錄用戶的學習進度,包括完成的任务、時間使用和分數等,幫助他們更好地跟踪自己的進展。
12. 類似用戶聯繫:我可以建議用戶與其他在同一學習領域或目標上的人建立聯繫,共同交流和學習。
13. 定期評估:我可以根據用戶的進度和需求提供定期的評估和反饋,幫助他們更好地了解自己的學習成長。
14. 多元化教育:我可以推薦不同類型的教育資源,如書籍、文章、課程和研討會等,幫助用戶更全面地了解學習主題。
15. 跨平台支持:我可以在不同的設備和操作系統上運行,如電腦、手機和平板等,使用者能更方便地使用我的功能。
16. 定制化建議:我可以根據用戶的個人需求和喜好提供定制化的學習計劃和建議,讓他們更加自信地學習。
17. 課程跟踪:我可以記錄用戶在不同課程中的進度和成就,幫助他們更好地分析自己的學習效果。
18. 動態生成:我可以根據用戶的需求和進度生成動態的建議和任務,使得他們始終在學習過程中保持活力四溢。
19. 實時反饋:我可以根據用戶的表現提供實時的建議和反饋,幫助他們在學習過程中更好地改進自己。
20. 社區支持:我可以構建一個安全、友好的學習社區,讓用戶在這裡分享學習經驗和成果,共同成長。
ollama run xwinlm (7B3.8G)
ollama run xwinlm:13b (13B7.4G)


MegaDolphin-120b 是一個由 Cognitive Computations 開發的語言模型。它是基於 Dolphin-2.2-70b 的改進版本,並受到 Venus-120b 的啟發。MegaDolphin-120b 使用了與自身交織的方法,並在 2.2 版本中新增了對話和共情功能。透過精心挑選的 Samantha 和 WizardLM 資料,MegaDolphin 現在可以給出個人建議並關心你的情感,並且在長時間的多輪對話中進行更多的訓練。此模型是未經審查的,作者已從數據集中過濾掉了對齊和偏見,以提高合規性。然而,使用者應該在將模型作為服務公開之前實施自己的對齊層,以確保模型不會回應不道德的請求。
ollama run megadolphin (120B68G)


Alfred 是一款只能在 macOS 下运行的软件,它能通过 hotkeys、keywords、text expansion 等形式提高我们对电脑的掌控能力。以下是一些 Alfred 的功能特点:
App 启动:只需输入简单的几个字母,就能快速打开某个应用程序。
文件搜索:输入部分文件名字符串,就能快速搜索出某个文件,甚至基于文件内容中的关键字进行搜索。
网络搜索:输入特定的关键字,就能在任意特定的搜索引擎中进行内容的搜索,而无需首先打开浏览器。
计算器:可以直接在输入栏中输入表达式进行计算。
字典:可以直接在输入栏中输入单词进行翻译。
联系人列表:可以快速打开某个联系人的相关信息,包括电话和电子邮件。
剪贴板历史:记住你之前对文本、图片、链接等的所有复制记录,然后进行选择性粘贴。
缩略语和文字拓展:只需简单的几个字母,就能输入一些常用的语句。
iTunes 迷你播放器:可以使用迷你播放器,在没有鼠标的情况下控制你的音乐集。
1Password:帮助你管理众多密码。
系统命令:Alfred 包含了一系列的系统命令,可以在 Alfred 中输入这些命令来控制你的 Mac。
终端:可以在 Alfred 输入栏里快速执行一些常用的终端命令。
远程控制:让 Alfred 变成 Mac 的控制中心,可以使用 iPhone 或 iPad 远程控制你的 Mac。
Workflow:Alfred 最强大的工具,可以定制你想要的任意工作流程,使一些需要很多步骤的复杂工作变成简单的自动化流程,大大提高你的学习和工作效率。
外观主题:可以定制 Alfred 的外观,选择自己喜欢的主题。
ollama run alfred (42B24G)


MistralLite 是一款精心设计的语言大模型,拥有高达 70 亿 参数,专注于实现卓越性能与高效运行。在各类基准测试中,该模型力压当前最佳的开源 13B 模型——Llama 2,并在推理能力、数学计算精准度以及代码生成任务上均超越了一款已公开的 34B 模型——Llama 1。
MistralLite 的核心技术亮点包括:
分组查询注意力(Grouped-Query Attention, GQA):采用这一机制,显著提升了推理速度。
滑动窗口注意力(Sliding Window Attention, SWA):结合滑动窗口策略,既保证对任意长度输入序列的有效处理,又降低了推理阶段的资源消耗。
MistralLite 还发布了针对指令理解和执行能力优化的版本——Mistral 7B – Instruct。这款微调后的模型不仅在自动化评估系统中胜出,更在人工评测环节表现出色,成功超越了 Llama 2 所拥有的 13B 聊天模型。
MistralLite 及其相关资源遵循 Apache 2.0 许可协议开放给公众使用。通过开源发布,我们期望这一工具能够激发研究者和开发者们的探索热情,共同推动自然语言处理领域的持续进步与发展。
如果你对自然语言处理、推理能力和STEM相关任务感兴趣,MistralLite 是一个值得尝试的模型!
ollama run mistrallite (7B4.1G)


Wizard Vicuna 是一款精心设计的语言模型,拥有高达 13 亿 参数。它综合了 Vicuna 和 Wizard 的精调,相比其他模型在许多方面表现更优。这个模型在没有显卡的情况下运行,只需使用 CPU 和 16GB 内存,因此几乎适用于大部分个人电脑。
以下是关于 Wizard Vicuna 的一些特点和使用方法:
模型性能:与 ChatGPT 相比,Wizard Vicuna 的性能相当于 90%,在许多基准测试上表现出色。
Bit 精度:相比于 4-bit 或 5-bit,Wizard Vicuna 使用了 8-bit,保留了更多的精度,从而改善了生成效果。
模型大小:这是一个 13 亿 参数的模型,下一个档次的模型是 30 亿 参数,但后者需要 24GB 内存,并且生成速度较慢。
如果你想要尝试在本地运行大模型,Wizard Vicuna 是一个值得一试的选择!如果你需要更详细的操作步骤,可以查看知乎上的相关文章1。
ollama run wizard-vicuna (13B7.4G)


DeepSeek LLM 是一款先进的语言模型,拥有 67 亿 参数。它是由 DeepSeek AI 开发的,经过从头开始的训练,使用了包含 2 万亿 个标记的庞大数据集,其中包括英文和中文。为了促进研究,DeepSeek LLM 7B/67B Base 和 DeepSeek LLM 7B/67B Chat 已经对研究社区开源。
这里有一些关于 DeepSeek LLM 的特点:
通用能力:DeepSeek LLM 67B Base 在推理、编程、数学和中文理解等方面的表现超越了 Llama2 70B Base。
编程和数学能力:DeepSeek LLM 67B Chat 在编程(HumanEval Pass@1: 73.78)和数学(GSM8K 0-shot: 84.1,Math 0-shot: 32.6)方面表现出色。
中文能力:DeepSeek LLM 67B Chat 在中文方面超越了 GPT-3.5。
ollama run deepseek-llm (7B4G)


LLAMA PRO 是一种用于大规模自然语言处理的模型。通过使用 Transformer 模块的扩展,该模型可以在不遗忘旧知识的情况下,高效而有效地利用新语料库来提升模型的知识。LLAMA PRO 具有出色的性能,在通用任务、编程和数学方面都表现出色。
这个模型的核心思想是在原始模型中添加新的块,同时保持模型输出的一致性。新添加的块被初始化为恒等映射,仅用于特定领域语料库的进一步微调,从而提高模型的知识。这种方法有效地解决了灾难性遗忘的问题,使得模型能够同时具备通用能力和特定领域的知识。
LLAMA PRO 在代码和数学的语料库上进行了实验,提出了一个从 LLaMA 2-7B 初始化的多功能基础模型。此外,LLAMA PRO 和它的指令调优模型(LLAMA PRO-INSTRUCT)在各种基准测试中实现了先进的性能,证明了现有开放模型的优越性以及推理和解决各种任务的巨大潜力。
如果你对自然语言处理、编程和数学感兴趣,LLAMA PRO 是一个值得尝试的模型!
ollama run llama-pro (8B4.7G)

Llama 2 7B 是一款强大的语言模型,具有以下特点:
模型描述:
规模:Llama 2 7B 具有 73 亿 参数。
性能:
在各种基准测试中优于 Llama 2 13B。
在代码任务上接近 CodeLlama 7B 的性能,同时在英语任务上表现良好。
注意机制:它使用 Sliding Window Attention (SWA) 来高效处理更长的序列。
中文支持:
是的,Llama 2 7B 支持中文。你可以使用这个模型来处理中文文本。
ollama run llama2(7B3.8G)


StableLM Zephyr 3B 是一款 30 亿参数 的大型语言模型(LLM),专为手机、笔记本等移动设备设计。它的突出特点包括参数较小、性能强大且算力消耗低,能够自动生成文本、总结摘要等,与 70 亿 和 130 亿 参数的模型相媲美1。
ollama run stablelm-zephyr (3B1.6G)


Meditron 是一套开源的医学领域大型语言模型(LLM)。我们发布了两个版本:Meditron-7B 和 Meditron-70B,它们是从 Llama-2 经过持续预训练适应到医学领域的。这些模型在医学推理任务上表现出色,特别是 Meditron-70B 在相关数据上进行微调后,优于 Llama-2-70B、GPT-3.5 和 Flan-PaLM。
需要注意的是,虽然 Meditron 被设计用于从高质量证据来源中编码医学知识,但它尚未适应以适当、安全或符合专业可行性约束的方式传递这些知识。因此,我们建议在没有充分用例对齐的情况下,不要在医学应用中使用 Meditron,并且还需要进行额外的测试,特别是在真实世界的实践环境中进行随机对照试验。
ollama run meditron (7B3.8G)


Samantha LLMSamantha 是一个大型语言模型,经过训练可以执行多种任务,包括生成文本、翻译语言、创作不同类型的创意内容以及回答问题。
它在响应用户指令和完成请求时表现出色。
Samantha 还可以回答开放性、具有挑战性或奇怪的问题。
它可以生成不同创意文本格式,例如诗歌、代码、脚本、音乐作品、电子邮件、信件等。
Mistral 7B:
Mistral 7B 是另一个大型语言模型,它在参数较少的情况下表现出色,超越了参数更多的模型,如 Llama 2 13B。
Mistral 7B 在英语任务和编程任务方面都表现出色。
通过结合 Samantha 和 Mistral 7B,你可以创建一个更强大且多用途的语言模型。
这对于生成更具创意和信息性的文本内容、更准确地翻译语言、编写更复杂的代码以及更全面和信息性地回答问题非常有用。
ollama run samantha-mistral (7B4.1G)


Yarn-Mistral-7b-128k 是一款由 NousResearch 开发的语言模型,它是在 Mistral-7B-v0.1 的基础上进行了扩展。这个模型支持 128k 令牌的上下文窗口,并使用了 YaRN 扩展方法进行了进一步预训练。你可以在 Hugging Face 上找到这个模型1.
ollama run yarn-mistral

SOLAR-10.7B 是由韩国公司 Upstage 推出的一款大型语言模型(LLM)。这个模型号称是世界上第一个开源的 10.7B 参数的 LLM。让我们来了解一下 SOLAR-10.7B 的一些特点:
模型构建:
SOLAR-10.7B 是通过合并两个 Llama 2 模型(每个模型有 70B 参数)得到的。
这种合并使用了一种称为 深度放大(Depth Up-Scaling) 的新方法,与其他合并方法形成鲜明对比。
深度放大(Depth Up-Scaling):
这个方法的核心思想是从两个基本模型中删除一些层,然后将它们连接起来,形成一个更大的模型。
SOLAR-10.7B 有 48 层,比常见的 7B 模型的 32 层更大。
预训练和微调:
SOLAR-10.7B 经过两个阶段的预训练和微调:
指令微调:在数据集上与指令保持一致。
对齐微调:进一步微调,使其与人类或其他强大的 AI 更加一致。
性能:
SOLAR-10.7B 在多个基准测试中表现优秀,超越了其他大型语言模型。
ollama run solar (11B6.1G)


Nous Hermes 2 - Mixtral 8x7B - DPO 是 Nous Research 推出的一款大型语言模型(LLM)。这个模型是在 Mixtral 8x7B MoE LLM 的基础上进行了训练和微调的。以下是关于 Nous Hermes 2 - Mixtral 8x7B - DPO 的一些特点:
模型描述:
Nous Hermes 2 - Mixtral 8x7B - DPO 是 Nous Research 的新旗舰模型,经过 Mixtral 8x7B MoE LLM 的训练。
模型在超过 100 万条主要由 GPT-4 生成的数据以及其他高质量数据集上进行了训练,表现出色。
这是 Mixtral Hermes 2 的 SFT + DPO 版本,我们还发布了仅 SFT 版本,供用户选择使用。
性能评估:
Nous Hermes 2 - Mixtral 8x7B - DPO 在多个基准测试中表现优秀,超越了其他模型,包括 AGIEval、BigBench Reasoning、GPT4All 和 TruthfulQA。
ollama run nous-hermes2-mixtral (47B26G)


MedLlama2 是由 Siraj Raval 开发的基于 Llama 2 的语言模型,专门用于回答医学问题。虽然它不能替代医疗专业人士,但它可以作为进一步研究的起点。
这个模型使用了 MedQA 数据集进行训练,旨在提供对医学问题的回答。如果你有关于医学的问题,可以尝试使用 MedLlama2 来获取一些初始信息,但请记住,它不应该替代专业医生的建议。
你可以通过命令行或 API 来与 MedLlama2 进行交互。如果你想要在本地运行大型语言模型,这是一个值得尝试的选择!
ollama run medllama2  (7B3.8G)


BakLLaVA 1 是一个基于 Mistral 7B 基础模型的语言模型,通过 LLaVA 1.5 架构进行增强。在这个首个版本中,我们展示了 Mistral 7B 基础模型在多个基准测试上优于 Llama 2 13B。你可以在我们的 repo 上运行 BakLLaVA-1。我们目前正在更新它,以便更容易地进行微调和推理。请注意,BakLLaVA-1 是完全开源的,但是它是在包含 LLaVA 语料库的某些数据上进行训练的,而这些数据不具有商业许可。我们将在即将发布的版本中解决这个问题。BakLLaVA 2 正在研发中,它将使用一个更大(商业可行)的数据集和一个超越当前 LLaVA 方法的新架构。BakLLaVA-2 将摆脱 BakLLaVA-1 的限制
ollama run bakllava (7B4.7G)

Nous Hermes 2 是 Nous Research 公司发布的一款大型语言模型(LLM)。它是基于 Mixtral 8x7B 的基础模型进行微调的。以下是关于 Nous Hermes 2 的一些特点:
模型描述:
Nous Hermes 2 是 Nous Research 的新旗舰模型,经过 Mixtral 8x7B 的训练和微调。
这个模型在超过 100 万条 主要由 GPT-4 生成的数据以及其他高质量数据集上进行了训练,表现出色。
它在长篇回答、低幻觉率和没有 OpenAI 审查机制方面表现出色。
性能评估:
Nous Hermes 2 在多个基准测试中表现优秀,超越了其他模型,包括 AGIEval、BigBench Reasoning 和 GPT3.5-turbo。
ollama run nous-hermes (7B3.8G)


Starling-7B 是一个开放的大型语言模型(LLM),通过 AI 反馈的强化学习(RLAIF) 进行训练。这个模型利用了 GPT-4 标记的排序数据集 Nectar,以及新的奖励训练和策略调整流程。在 MT Bench 中,Starling-7B-alpha 的得分为 8.09,超越了迄今为止所有模型在 MT-Bench 上的表现,除了 OpenAI 的 GPT-4 和 GPT-4 Turbo。我们还发布了 Nectar 排名数据集、奖励模型 Starling-RM-7B-alpha 和语言模型 Starling-LM-7B-alpha 在 HuggingFace 上,并提供了在线演示在 LMSYS Chatbot Arena。敬请期待即将发布的代码和论文,详细介绍整个过程1。
ollama run starling-lm (7B4.1G)


WizardMath 是一个强化学习模型,旨在增强大型语言模型(LLMs)在数学推理方面的能力。它通过应用我们提出的**强化学习来自进化指导反馈(RLEIF)**方法,将数学领域的推理能力提升到了Llama-2模型上。这个模型在两个数学推理基准测试中表现出非凡的能力:GSM8k 和 MATH。让我们来看看一些关键信息:
GSM8k:在GSM8k基准测试中,WizardMath 超越了所有其他开源的LLMs,取得了显著的优势。它甚至在GSM8k上胜过了 ChatGPT-3.5、Claude Instant-1、PaLM-2 和 Minerva。
MATH:在MATH基准测试中,WizardMath 同时超越了 Text-davinci-002、PaLM-1 和 GPT-3。
ollama run wizard-math (7B4.1G)



Orca 2 是微软研究院发布的一款小型语言模型(LLM),旨在提升小型模型在推理能力方面的表现。让我们来了解一下关于 Orca 2 的一些关键信息:
模型尺寸:Orca 2 提供了两种尺寸的模型,分别是 70 亿 和 130 亿 参数的版本1.
训练信号改进:与传统的模仿学习不同,Orca 2 通过教授模型不同的推理策略来提升其性能。这些策略包括逐步处理、回忆-生成、回忆-推理-生成、提取-生成和直接回答等技巧。更重要的是,它帮助模型决定在每个任务中使用最有效的解决方案2.
基准测试表现:Orca 2 在15个不同的基准测试上进行了评估,包括约100个任务和超过36000个独特提示。结果显示,Orca 2 在复杂任务的零样本设置中,明显超越了同等大小的其他模型,并达到或超过了体量为其5-10倍的模型的性能水平2.
这是一个令人振奋的研究项目,因为它为小型语言模型在推理能力方面的应用打开了新的可能性!
提升小型模型在推理能力方面的表现。它通过应用我们提出的**强化学习来自进化指导反馈(RLEIF)**方法,将数学领域的推理能力提升到了Llama-2模型上。这个模型在两个数学推理基准测试中表现出非凡的能力:GSM8k 和 MATH。让我们来看看一些关键信息:
GSM8k:在GSM8k基准测试中,Orca 2 超越了所有其他开源的LLMs,取得了显著的优势。它甚至在GSM8k上胜过了 ChatGPT-3.5、Claude Instant-1、PaLM-2 和 Minerva。
MATH:在MATH基准测试中,Orca 2 同时超越了 Text-davinci-002、PaLM-1 和 GPT-3。
ollama run orca2 (7B3.8G)
ollama run orca-mini (3B)
ollama run orca2:13b (13B7.4G)



Falcon 180B 是由阿布扎比的技术创新研究院(TII)发布的一款完全开源且可商用的大型语言模型。它是继 Falcon 40B 之后,TII 推出的第二个开源大语言模型(LLM),也是目前世界上最大的开源开放大模型。让我们深入了解一下关于 Falcon 180B 的一些关键信息:
模型规模:Falcon 180B 拥有1800亿参数,是目前开源开放大模型中参数规模最大的模型。
训练数据集:它是在 RefinedWeb 数据集上进行训练的,该数据集包含了约 3.5万亿个词元。
目标和应用:Falcon 180B 的目标是为研究者和商业用户提供一个强大、高效、多语言和多领域的基础模型,可用于各种自然语言处理(NLP)任务,例如文本生成、摘要、问答、对话、机器翻译等。
此外,Falcon 180B 还发布了两个版本:
基础模型(Falcon-180B):纯无监督训练出来的基础模型。
Chat模型(Falcon-180B-chat):在基础模型之上进行有监督微调SFT和人类反馈的强化学习RLHF进行训练。
虽然 Falcon 180B 的效果很不错,但由于其计算资源需求较高,实际使用时,如果性价比更重要,你可能还是会选择使用 LLaMA-2-70B。总之,这是一个令人振奋的研究项目,为小型语言模型在推理能力方面的应用打开了新的可能性
ollama run falcon (7B4.2G)



Yi 是由 01.AI 开发的一系列大型语言模型(LLMs),旨在成为下一代开源大型语言模型。这些模型是从头开始训练的,针对双语任务,并在3T多语言语料库上进行了训练。Yi 系列模型在全球范围内成为最强大的LLM之一,展现出在语言理解、常识推理、阅读理解等方面的潜力。
一些关键信息如下:
Yi-34B-Chat:在 AlpacaEval排行榜 上,Yi-34B-Chat 模型位居第二(仅次于GPT-4 Turbo),超越了其他LLMs(如GPT-4、Mixtral、Claude)1。
Yi-34B:在英文和中文基准测试中,Yi-34B 在Hugging Face开源LLM排行榜(预训练)和C-Eval上均排名第一,超越了其他开源模型(如Falcon-180B、Llama-70B、Claude)1。
Yi 系列模型采用了与 Llama 相同的模型架构,但并不是 Llama 的派生版本。它们都基于Transformer结构,这自2018年以来一直是大型语言模型的标准架构。感谢Transformer和Llama开源社区,它们降低了从头开始构建模型的难度,并在AI生态系统中使用相同的工具。
ollama run yi (6B3.5G)


Neural-Chat 是由 Intel 设计的一系列大型语言模型(LLMs),旨在成为下一代开源对话AI。这些模型不仅能够理解和生成类似人类的语言,还能在对话中保持语境的连贯性,提供准确且相关的回答。让我们深入了解一下关于 Neural-Chat 的一些关键信息:
Neural-Chat-7B-v3-1:这个模型是在 Intel Gaudi 2 处理器上,基于 mistralai/Mistral-7B-v0.1 数据集进行的精调,参数规模为 7B。它使用了 Direct Performance Optimization (DPO) 方法进行模型对齐,具体细节可以参考 Medium 上的文章《The Practice of Supervised Fine-tuning and Direct Preference Optimization on Intel Gaudi2》1。
Neural-Chat-7B-v1-1:这个模型是基于 mosaicml/mpt-7b 构建的,最大序列长度为 2048,使用了数据集 Intel/neural-chat-dataset-v1-1,该数据集是多个开源数据集的综合2.
这些模型支持细调、优化和推理,适用于多种对话AI应用。如果你对构建自己的聊天机器人感兴趣,可以探索这些模型并根据特定任务进行细调。请注意,模型不应用于故意创建对人类不友好或排斥性的环境
ollama run neural-chat (7B4.1G)  

OpenChat 是一个由 Intel 开发的开源语言模型,旨在成为下一代对话AI。它具备生成类似人类文本的能力,可以根据上下文和过去的对话生成自然语言。以下是关于 OpenChat 的一些关键信息:
功能:你可以使用 OpenChat 进行有趣的对话、获取创意灵感、学习新知识等。它还支持自动化任务,让你一站式体验AI的未来。
图像交互:你现在可以通过描述来创建图像。在对话中,你可以发明新的标志、漫画片段和逼真的场景。这是通过我们最强大的图像模型 DALL·E 3 实现的。1
语音交互:你现在可以使用语音与 OpenChat 进行双向对话。无论是在路上与它交流,还是为家人请求一则睡前故事,或者解决晚餐桌上的争论,都可以使用语音进行交流。
OpenChat 提供了免费和付费的计划,你可以根据需求选择适合你的版本。如果你想要构建自己的聊天机器人,可以探索这个开源模型并根据特定任务进行细调。请注意,模型不应用于故意创建对人类不友好或排斥性的环境。
ollama run openchat (7B4.1G)  


TinyLlama 是一个令人振奋的项目,旨在构建一个紧凑且高性能的开源小型语言模型。让我们深入了解一下关于 TinyLlama 的一些关键信息:
模型规模:TinyLlama 是一款具有 1.1B 参数的语言模型,经过大约 3 个时期的训练,预训练数据集包含约 1 万亿个标记。
基于 Llama 2:TinyLlama 基于 Llama 2 的架构和分词器(tokenizer)。这意味着 TinyLlama 可以与许多基于 Llama 构建的开源项目无缝集成。
性能优越:尽管规模相对较小,TinyLlama 在一系列下游任务中表现出非凡的性能。它明显优于其他具有相似规模的开源语言模型。
TinyLlama 的模型检查点和代码都可以在 GitHub 上公开获取。如果你对构建自己的聊天机器人或其他自然语言处理应用感兴趣,可以探索这个项目并根据特定任务进行细调。请注意,模型不应用于故意创建对人类不友好或排斥性的环境
ollama run tinyllama (1B0.6G)


TinyDolphin 是一个实验性的语言模型,它基于 TinyLlama 并在新的 Dolphin 2.8 数据集上进行了训练。这个模型具有 1.1B 参数,是一个紧凑且高性能的开源小型语言模型。以下是关于 TinyDolphin 的一些关键信息:
模型规模:TinyDolphin 具有 1.1B 参数,经过大约 3 个时期的训练,预训练数据集包含约 1 万亿个标记。
基于 TinyLlama:TinyDolphin 基于 TinyLlama 的架构和分词器。这意味着 TinyDolphin 可以与许多基于 Llama 构建的开源项目无缝集成。
ollama run tinydolphin (1B0.6G)


Vicuna 是一个令人振奋的项目,旨在构建一个紧凑且高性能的开源小型语言模型。它基于 Llama 2 架构,并在新的 Dolphin 2.8 数据集上进行了训练。以下是关于 Vicuna 的一些关键信息:
模型规模:Vicuna 具有 1.1B 参数,经过大约 3 个时期的训练,预训练数据集包含约 1 万亿个标记。
基于 Llama 2:Vicuna 基于 Llama 2 的架构和分词器。这意味着 Vicuna 可以与许多基于 Llama 构建的开源项目无缝集成。
ollama run vicuna


Llama2-Chinese 是一个令人振奋的项目,旨在进一步增强 Llama 2 大型语言模型在中文理解、生成和翻译等能力方面的表现。这个项目采用了多种技术,包括 LoRA 微调、全参数指令微调 和 二次预训练,以提高模型在中文任务上的表现。
一些关键信息如下:
预训练数据:Llama2-Chinese 在 400GB 的中英文文学文本上进行了持续预训练,并在中文指令数据集上进行了微调。1
模型版本:目前,Llama2-Chinese 提供了 Atom-7B 和 Atom-13B 两个版本,基于 Llama 2 架构,具备更强的中文对话能力。这些模型已完全开源,支持商用。你可以在 Hugging Face 上获取模型参数。
ollama run llama2-chinese (7B3.8G)
ollama run vicuna:13b (13B7.4G)
ollama run vicuna:33b (33B18G)

Wizard Vicuna Uncensored 是由 Eric Hartford 开发的一个强大的语言模型,它是 Wizard Vicuna 13B Uncensored 的精细调整版本。以下是关于 Wizard Vicuna Uncensored 的一些关键信息:
模型描述:
类型:一个具有 13B 参数的 GPT 类似模型。
训练数据:在主要由 GPT-4 生成的数据中,包括 GPTeacher - General Instruct、Roleplay v1、Roleplay v2 和 Code Instruct 数据集等。
用途和限制:
初始微调在一个变体的 UltraChat 数据集上进行,其中包含由 ChatGPT 生成的合成对话。
进一步在 openbmb/UltraFeedback 数据集上进行了微调,该数据集通过排名提示和完成来自 GPT-4 的结果。
适用于聊天应用;你可以在 这里 测试其功能。
请注意,Uncensored 模型没有防护措施。你对模型的使用负有责任,就像你对刀、枪、打火机或汽车的使用一样。发布模型生成的任何内容与你自己发布一样,你对发布的内容负有责任,不能将模型的行为归咎于模型本身。
ollama run wizard-vicuna-uncensored (7B3.8G)
ollama run wizard-vicuna-uncensored:30b (30B18G)
ollama run wizard-vicuna-uncensored:13b(13B7.4G)

Qwen 是一个由阿里巴巴云提出的大型语言模型系列,包括 Qwen-1.8B、Qwen-7B、Qwen-14B 和 Qwen-72B,以及 Qwen-Chat 系列,包括 Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat 和 Qwen-72B-Chat。这些模型具有以下特点:
强大的基础语言模型:Qwen 系列的基础语言模型经过稳定的预训练,使用了多语言数据,总计达到了 3 万亿标记,覆盖了多个领域、多种语言(尤其是中文和英文)等。它们在基准数据集上表现出色。
聊天模型:Qwen 系列的聊天模型经过与人类偏好的对齐,基于 SFT 和 RLHF(尚未发布),能够进行对话、生成内容、提取信息、总结、翻译、编码、解决数学问题等。它们还可以使用工具、扮演代理人,甚至作为代码解释器。
总之,Qwen 系列模型不仅在基准性能上表现优异,而且在实际场景中的问题解决能力也得到了显著提升。这些先进的模型可以轻松地进行对话、识别名人和地标、生成文本,尤其是在描述和解释视觉内容方面,它们的能力得到了显著提高
ollama run qwen (4B2.3G)
ollama run qwen:32b (32B18G)
ollama run qwen:7b (7B4.5G)
ollama run qwen:14b (14B8.2G)
ollama run qwen:72b (72B41G)


Dolphin Mixtral 2.8 是一款先进的、未经审查的语言模型,具有 32K 上下文窗口。它基于 Mistral 0.2 模型,并在此基础上进行了精细调整。以下是关于 Dolphin Mixtral 2.8 的一些关键信息:
模型描述:
类型:这是一个用于文本嵌入的模型,专门用于检索、相似性、聚类和分类任务。
性能:Dolphin Mixtral 2.8 在短文和长文本任务上都超越了现有的模型,包括其他7B和13B模型。
开源和可复现性:模型权重和训练代码都是完全开源的,你可以在 这里 获取模型参数。
中文支持:是的,Dolphin Mixtral 2.8 支持中文。你可以使用这个模型来处理中文文本。
ollama run dolphin-mixtral (47G26G)
ollama run dolphin-mixtral:8x7b (26G)



LLaVA(Large Language and Vision Assistant)是一个大型语言和视觉助手,结合了视觉编码器和 Vicuna,用于通用的视觉和语言理解。它在模仿多模态 GPT-4 的精神上具有令人印象深刻的聊天能力,并在科学问答方面创下了新的准确性记录。
关于 LLaVA 的一些关键信息:
功能:
视觉和语言理解:LLaVA 结合了视觉和语言,可以处理多模态输入,例如图像和文本。
聊天能力:LLaVA 在多模态对话中表现出色,有时展现出多模态 GPT-4 在未见过的图像/指令上的行为。
科学问答:LLaVA 在科学问答任务上取得了最佳表现,例如在 Science QA 数据集上。
中文支持:是的,LLaVA 支持中文。你可以使用这个模型来处理中文文本。
ollama run llava (7B4.7G)
ollama run llava:13b (13B8G)
ollama run llava:34b (34B20G)


Command R 是一个大型语言模型,经过优化,适用于对话交互和长文本任务。它属于“可扩展”类别的模型,平衡了高性能和强大的准确性,使公司能够超越概念验证,进入实际生产环境。以下是关于 Command R 的一些关键信息:
模型描述:
对话模型:Command R 是一个遵循指令的对话模型,其在质量、可靠性和上下文长度方面优于之前的模型。它适用于复杂的工作流,如代码生成、检索增强生成(RAG)、工具使用和代理。
多语言能力:Command R 可以在多种语言中进行交互,达到相当高的准确度。模型在以下语言中表现良好:英语、法语、西班牙语、意大利语、德语、巴西葡萄牙语、日语、韩语、简体中文和阿拉伯语。此外,预训练数据还包括以下 13 种语言:俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印度尼西亚语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。模型已经训练成根据用户的语言进行回应。
Command R 不仅可以用于生成多种语言的文本,还可以执行跨语言任务,如翻译或回答其他语言内容的问题。
检索增强生成(RAG):Command R 具备基于提供的文档片段生成回应的能力。它会在回应中包含引用,指示信息来源。
ollama run command-r (35B20G)


Mixtral 8x7B 是一个强大的语言模型,它基于 Mistral 7B 模型,并在此基础上进行了精细调整。以下是关于 Mixtral 8x7B 的一些关键信息:
模型描述:
类型:这是一个用于文本嵌入的模型,专门用于检索、相似性、聚类和分类任务。
架构:Mixtral 8x7B 采用了 Sparse Mixture of Experts (SMoE) 的架构。每个层由 8 个前馈块(即专家)组成。对于每个令牌,在每一层中,路由网络选择两个专家(即 8 个不同参数组的 2 组)来处理令牌,并将它们的输出进行加和。换句话说,对于给定的输入,整个 MoE 模块的输出是由专家网络产生的输出的加权和。
参数量:由于 Mixtral 是 SMoE,它总共有 47B 参数,但在推理过程中,每个令牌只使用 13B 参数。这种方法的好处在于更好地控制成本和延迟,因为每个令牌只使用了一小部分总参数。
训练数据:Mixtral 使用了开放 Web 数据进行训练,上下文大小为 32 个令牌。
性能和能力:
数学推理:Mixtral 在数学推理、代码生成和多语言任务方面表现出色。
多语言支持:Mixtral 可以处理英语、法语、意大利语、德语和西班牙语。
指令模型:Mixtral 可以进行指令微调,生成一个遵循指令的模型,其在 MT-Bench 上获得了 8.3 的得分。
中文支持:是的,Mixtral 8x7B 支持中文。你可以使用这个模型来处理中文文本。
ollama run mixtral (8*7B26G)


Mistral 7B 是一款由 Mistral AI 开发的强大语言模型。以下是关于这个模型的一些关键信息:
模型描述:
规模:Mistral 7B 具有 73亿 参数。
性能:
在各种基准测试中优于 Llama 2 13B。
在代码任务上接近 CodeLlama 7B 的性能,同时在英语任务上表现良好。
注意机制:它使用 Sliding Window Attention (SWA) 来高效处理更长的序列。
中文支持:
是的,Mistral 7B 支持中文。你可以使用这个模型来处理中文文本。
ollama run mistral (7B4.1G)


Gemma 9B 是一款基于 Google Gemini 研究和技术的开放模型。以下是关于 Gemma 9B 的一些关键信息:
模型描述:
规模:Gemma 9B 具有 90亿 参数。
性能:
在学术基准测试中,Gemma 9B 在语言理解、推理和安全性方面表现出色。
模型类型:Gemma 9B 是一个轻量级的开放模型,适用于多种任务。
中文支持:
是的,Gemma 9B 支持中文。你可以使用这个模型来处理中文文本。
ollama run gemma(9B5G)


CodeGemma 9B 是一系列专门用于代码的轻量级语言模型(LLM),由 Google 发布。以下是关于 CodeGemma 9B 的一些关键信息:
模型描述:
规模:CodeGemma 9B 具有 90 亿 参数。
功能:
代码自动补全和生成:CodeGemma 可以智能地完成代码行、函数,甚至生成整个代码块,无论你是在本地工作还是利用云资源。
提高的准确性:CodeGemma 模型经过训练,不仅在语法上更准确,而且在语义上也更有意义,有助于减少错误和调试时间。
多语言支持:CodeGemma 可以处理 Python、JavaScript、Java 等流行语言的代码。
中文支持:
是的,CodeGemma 9B 支持中文。你可以使用这个模型来处理中文代码。
ollama run codegemma(9B5G)



沒有留言:

張貼留言