自造者時代-文盛老師的創意天空: 本地自建大模型 Ollama 的使用與大模型普查

2024年4月11日星期四

本地自建大模型 Ollama 的使用與大模型普查

官網直接安裝 Ollama，之後她會在背景執行，不會出現任何視窗。
在瀏覽器中連接 http://localhost:11434/，如果顯示 “Ollama is running”，則代表 Ollama 已經成功啟動
Windows 系統中叫出 cmd ，這個Ollama 都是在命令列模式下運行，如果要在視窗介面使用 Ollama你需要安裝 Ollama Web UI 或是另外安裝 ChatBox
使用 ollama run 命令選擇並執行模型，例如：ollama run 模型名稱，例如：ollama run llama3.2、ollama run Qwen2.5 ...，启动成功后，ollama 在本地 11434 端口启动了一个 API 服务，可通过 http://localhost:11434 訪問
然後他會開始跑一些下載和準備一直到出現 success 就能在視窗中開始對話。
命令 /bye 可以跳出對談聊天室
用 ollama list 看有哪些模型在電腦中
用 ollama rm 模型名稱來清理不用的模型，例如：ollama rm notus
原則上ollama使用cpu比較多，若要強迫其使用GPU，可以試試在啟動之前執行set CUDA_VISIBLE_DEVICES=0 (你的顯卡位置0/1)，並且在設定檔(位置：C:\Users\<你的用戶名>\AppData\Local\Ollama，裡面的config.json，加上 "use_gpu": true, "gpu_id": 0，存檔後，再重開ollama。可以用工作管理員查看是否有用GPU運作。
Ollama 所提供的模型可以參考 https://ollama.com/library
可以使用模型名稱，目前建議的模型：Google的Gemma2沒有政治問題/對岸通譯千問Qwen2.5中文支援良好、TAIDE或是Taiwan llama用的是llama3比較舊的模型訓練，熟悉台灣用語及文化。
~~模型可以互通？下載好的模型也可以在lm-studio/jan/gpt4all使用？GGUF匯入的方法目前沒有很明確...~~

模型如何下載與選用

建議先看一下下方的模型摘要，確認自己想試試哪個模型，~~複製一下紅色關鍵字。~~
~~在Google 搜尋上直接輸入 “huggingface gguf download 關鍵字名稱”。~~
~~通常第一條就是你要的模型下載位置，進入頁面可以用Google翻譯稍微看一下內容。~~
在頁面下方的位置會有檔案列表，註明模型的版本、檔案大小、RAM與VRAM需求、效能與建議，所以你要依據自己的硬體能力下載相對應想測試的檔案，當然，這邊也可以知道想玩怎樣的模型就要有怎樣的設備，(mac應該是最便宜的選項，記憶體最大到192G，還大部分都可以分享給VRAM，所以可以玩最大的模型，只是速度有差，如果買PC那就是天價和高昂的電費)。
~~下載後就能匯入你的JAN、GPT4ALL、LM-STUDIO去試用大模型。~~
直接使用上述指令即可不用事先下載
~~檔案很大，不用的就記得刪掉，以免爆倉。~~(關機離開就會釋放檔案及記憶體)
接下來一兩年，蘋果、PC的記憶體、SSD、顯卡都匯價格居高不下，顯而易見，還有手機或家裡的網路傳輸速率也會開始重視。

基本指令：

ollama pull XXXX 拉一個模型回來
ollama run XXXX 啟動一個模型（互動介面）
ollama rm XXXX 刪除模型
ollama cp llama2 my-llama2 複製一個模型
ollama list 目前主機上已經擁有的模型列表
ollama create {model_name} -f ./Modelfile 建立自己的 modelfile 裡面會寫 prompt 或是一些相關參數調整
ollama run llama2 "Summarize this file: $(cat README.md)" 傳入 prompt
ollama serve 啟動一個伺服器。
set CUDA_VISIBLE_DEVICES=0 強迫其使用GPU，可以試試在啟動之前執行

ollama 使用其他精度量化模型的方式(取自騰訊原文：https://cloud.tencent.com/developer/article/2472886)

模型部分摘要如下

目前我只推薦

Google的Gemma2沒有政治問題
對岸通譯千問Qwen2.5中文支援良好
TAIDE或是Taiwan llama用的是llama3比較舊的模型訓練，熟悉台灣用語及文化。

以下模型看看就好

notus基於 Zephyr，使用高品質資料進行微調的 7B 聊天模型(中文)

1. 语音或文字命令解析：您可以通过说出或者书写指令来操作我们的系统。
2. 自然语言处理（nlp）：我可以帮助您阅读和理解文本内容，并回答您的问题。
3. 数据分析和预测：我可以帮助您分析数据并提供有用的洞察力和见解。
4. 语音合成（text-to-speech）和识别（speech recognition）：我可以为您提供语音输入或者输出功能，方便与人类进行交流。
5. 智能推荐系统：我可以基于您的历史数据和偏好来推荐内容、商品或者服务。
6. 图像和视频处理：我可以帮助您处理图片和视频，例如识别对象、面部识别等。
7. 多语言支持：我可以为多种语言提供服务，包括中文、英文等等。
8. 电子邮件管理和自动回复：我可以帮助您处理并自动回复收到的邮件。
9. 智能家居控制：我可以帮助您进行各种智能家居设备的控制，例如开关灯、调节温度等等。
10. 其他功能：根据您的需求和想法，我可以为您提供更多的定制化功能，例如游戏 AI、健康数据分析等等。

ollama run notus (7B4.1G)

xwinlm：基於 Llama 2 的中文對話模型，在各種基準測試中表現具有競爭力(中文)

1. 簡單易用的界面：我提供一個簡單直觀的用戶界面，使用者可以輕鬆地查看和管理他們的資料。

2. 多語言支持：我可以在不同的語言中提供相同的功能，使用者可以選擇自己喜歡的語言進行操作。

3. 協助學習：我可以根據用戶的需求和進度提供有關課程、教材和其他學習資源的建議，幫助用戶更好地安排自己的學習時間。

4. 聊天機器人：我可以與用戶進行文字對話，回答他們的問題和需求，使用者能更容易地互動和交流。

5. 計算機科學教程：我可以提供基本的計算機科學知識，例如語言、數據結構、算法等，幫助用戶更好地理解和運用這些概念。

6. 資料處理：我可以幫助用戶進行基本的資料操作，如插值、簡化和分析等，以提高他們的學習效率。

7. 個性化建議：我可以根據用戶的進度、需求和喜好，為他們提供更加個性化的建議和鼓勵。

8. 學習路徑規劃：我可以根據用戶的目標和進度，為他們規劃合理的學習路徑，包括每日/每週的學習時間和任务。

9. 教育資源搜索：我可以根據用戶的需求提供相關的教育資源，如教材、培訓課程和在線課程等。

10. 社交連接：我可以為用戶提供建立學習社群的機會，透過在線平台或現實活動來與他人分享學習經驗和成果。

11. 進度紀錄：我可以記錄用戶的學習進度，包括完成的任务、時間使用和分數等，幫助他們更好地跟踪自己的進展。

12. 類似用戶聯繫：我可以建議用戶與其他在同一學習領域或目標上的人建立聯繫，共同交流和學習。

13. 定期評估：我可以根據用戶的進度和需求提供定期的評估和反饋，幫助他們更好地了解自己的學習成長。

14. 多元化教育：我可以推薦不同類型的教育資源，如書籍、文章、課程和研討會等，幫助用戶更全面地了解學習主題。

15. 跨平台支持：我可以在不同的設備和操作系統上運行，如電腦、手機和平板等，使用者能更方便地使用我的功能。

16. 定制化建議：我可以根據用戶的個人需求和喜好提供定制化的學習計劃和建議，讓他們更加自信地學習。

17. 課程跟踪：我可以記錄用戶在不同課程中的進度和成就，幫助他們更好地分析自己的學習效果。

18. 動態生成：我可以根據用戶的需求和進度生成動態的建議和任務，使得他們始終在學習過程中保持活力四溢。

19. 實時反饋：我可以根據用戶的表現提供實時的建議和反饋，幫助他們在學習過程中更好地改進自己。

20. 社區支持：我可以構建一個安全、友好的學習社區，讓用戶在這裡分享學習經驗和成果，共同成長。

ollama run xwinlm (7B3.8G)

ollama run xwinlm:13b (13B7.4G)

MegaDolphin-120b 是一個由 Cognitive Computations 開發的語言模型。它是基於 Dolphin-2.2-70b 的改進版本，並受到 Venus-120b 的啟發。MegaDolphin-120b 使用了與自身交織的方法，並在 2.2 版本中新增了對話和共情功能。透過精心挑選的 Samantha 和 WizardLM 資料，MegaDolphin 現在可以給出個人建議並關心你的情感，並且在長時間的多輪對話中進行更多的訓練。此模型是未經審查的，作者已從數據集中過濾掉了對齊和偏見，以提高合規性。然而，使用者應該在將模型作為服務公開之前實施自己的對齊層，以確保模型不會回應不道德的請求。

ollama run megadolphin (120B68G)

Alfred 是一款只能在 macOS 下运行的软件，它能通过 hotkeys、keywords、text expansion 等形式提高我们对电脑的掌控能力。以下是一些 Alfred 的功能特点：

App 启动：只需输入简单的几个字母，就能快速打开某个应用程序。

文件搜索：输入部分文件名字符串，就能快速搜索出某个文件，甚至基于文件内容中的关键字进行搜索。

网络搜索：输入特定的关键字，就能在任意特定的搜索引擎中进行内容的搜索，而无需首先打开浏览器。

计算器：可以直接在输入栏中输入表达式进行计算。

字典：可以直接在输入栏中输入单词进行翻译。

联系人列表：可以快速打开某个联系人的相关信息，包括电话和电子邮件。

剪贴板历史：记住你之前对文本、图片、链接等的所有复制记录，然后进行选择性粘贴。

缩略语和文字拓展：只需简单的几个字母，就能输入一些常用的语句。

iTunes 迷你播放器：可以使用迷你播放器，在没有鼠标的情况下控制你的音乐集。

1Password：帮助你管理众多密码。

系统命令：Alfred 包含了一系列的系统命令，可以在 Alfred 中输入这些命令来控制你的 Mac。

终端：可以在 Alfred 输入栏里快速执行一些常用的终端命令。

远程控制：让 Alfred 变成 Mac 的控制中心，可以使用 iPhone 或 iPad 远程控制你的 Mac。

Workflow：Alfred 最强大的工具，可以定制你想要的任意工作流程，使一些需要很多步骤的复杂工作变成简单的自动化流程，大大提高你的学习和工作效率。

外观主题：可以定制 Alfred 的外观，选择自己喜欢的主题。

ollama run alfred (42B24G)

MistralLite 是一款精心设计的语言大模型，拥有高达 70 亿参数，专注于实现卓越性能与高效运行。在各类基准测试中，该模型力压当前最佳的开源 13B 模型——Llama 2，并在推理能力、数学计算精准度以及代码生成任务上均超越了一款已公开的 34B 模型——Llama 1。

MistralLite 的核心技术亮点包括：

分组查询注意力（Grouped-Query Attention, GQA）：采用这一机制，显著提升了推理速度。

滑动窗口注意力（Sliding Window Attention, SWA）：结合滑动窗口策略，既保证对任意长度输入序列的有效处理，又降低了推理阶段的资源消耗。

MistralLite 还发布了针对指令理解和执行能力优化的版本——Mistral 7B – Instruct。这款微调后的模型不仅在自动化评估系统中胜出，更在人工评测环节表现出色，成功超越了 Llama 2 所拥有的 13B 聊天模型。

MistralLite 及其相关资源遵循 Apache 2.0 许可协议开放给公众使用。通过开源发布，我们期望这一工具能够激发研究者和开发者们的探索热情，共同推动自然语言处理领域的持续进步与发展。

如果你对自然语言处理、推理能力和STEM相关任务感兴趣，MistralLite 是一个值得尝试的模型！

ollama run mistrallite (7B4.1G)

Wizard Vicuna 是一款精心设计的语言模型，拥有高达 13 亿参数。它综合了 Vicuna 和 Wizard 的精调，相比其他模型在许多方面表现更优。这个模型在没有显卡的情况下运行，只需使用 CPU 和 16GB 内存，因此几乎适用于大部分个人电脑。

以下是关于 Wizard Vicuna 的一些特点和使用方法：

模型性能：与 ChatGPT 相比，Wizard Vicuna 的性能相当于 90%，在许多基准测试上表现出色。

Bit 精度：相比于 4-bit 或 5-bit，Wizard Vicuna 使用了 8-bit，保留了更多的精度，从而改善了生成效果。

模型大小：这是一个 13 亿参数的模型，下一个档次的模型是 30 亿参数，但后者需要 24GB 内存，并且生成速度较慢。

如果你想要尝试在本地运行大模型，Wizard Vicuna 是一个值得一试的选择！如果你需要更详细的操作步骤，可以查看知乎上的相关文章1。

ollama run wizard-vicuna (13B7.4G)

DeepSeek LLM 是一款先进的语言模型，拥有 67 亿参数。它是由 DeepSeek AI 开发的，经过从头开始的训练，使用了包含 2 万亿个标记的庞大数据集，其中包括英文和中文。为了促进研究，DeepSeek LLM 7B/67B Base 和 DeepSeek LLM 7B/67B Chat 已经对研究社区开源。

这里有一些关于 DeepSeek LLM 的特点：

通用能力：DeepSeek LLM 67B Base 在推理、编程、数学和中文理解等方面的表现超越了 Llama2 70B Base。

编程和数学能力：DeepSeek LLM 67B Chat 在编程（HumanEval Pass@1: 73.78）和数学（GSM8K 0-shot: 84.1，Math 0-shot: 32.6）方面表现出色。

中文能力：DeepSeek LLM 67B Chat 在中文方面超越了 GPT-3.5。

ollama run deepseek-llm (7B4G)

LLAMA PRO 是一种用于大规模自然语言处理的模型。通过使用 Transformer 模块的扩展，该模型可以在不遗忘旧知识的情况下，高效而有效地利用新语料库来提升模型的知识。LLAMA PRO 具有出色的性能，在通用任务、编程和数学方面都表现出色。

这个模型的核心思想是在原始模型中添加新的块，同时保持模型输出的一致性。新添加的块被初始化为恒等映射，仅用于特定领域语料库的进一步微调，从而提高模型的知识。这种方法有效地解决了灾难性遗忘的问题，使得模型能够同时具备通用能力和特定领域的知识。

LLAMA PRO 在代码和数学的语料库上进行了实验，提出了一个从 LLaMA 2-7B 初始化的多功能基础模型。此外，LLAMA PRO 和它的指令调优模型（LLAMA PRO-INSTRUCT）在各种基准测试中实现了先进的性能，证明了现有开放模型的优越性以及推理和解决各种任务的巨大潜力。

如果你对自然语言处理、编程和数学感兴趣，LLAMA PRO 是一个值得尝试的模型！

ollama run llama-pro (8B4.7G)

Llama 2 7B 是一款强大的语言模型，具有以下特点：

模型描述：

规模：Llama 2 7B 具有 73 亿参数。

性能：

在各种基准测试中优于 Llama 2 13B。

在代码任务上接近 CodeLlama 7B 的性能，同时在英语任务上表现良好。

注意机制：它使用 Sliding Window Attention (SWA) 来高效处理更长的序列。

中文支持：

是的，Llama 2 7B 支持中文。你可以使用这个模型来处理中文文本。

ollama run llama2(7B3.8G)

StableLM Zephyr 3B 是一款 30 亿参数的大型语言模型（LLM），专为手机、笔记本等移动设备设计。它的突出特点包括参数较小、性能强大且算力消耗低，能够自动生成文本、总结摘要等，与 70 亿和 130 亿参数的模型相媲美1。

ollama run stablelm-zephyr (3B1.6G)

Meditron 是一套开源的医学领域大型语言模型（LLM）。我们发布了两个版本：Meditron-7B 和 Meditron-70B，它们是从 Llama-2 经过持续预训练适应到医学领域的。这些模型在医学推理任务上表现出色，特别是 Meditron-70B 在相关数据上进行微调后，优于 Llama-2-70B、GPT-3.5 和 Flan-PaLM。

需要注意的是，虽然 Meditron 被设计用于从高质量证据来源中编码医学知识，但它尚未适应以适当、安全或符合专业可行性约束的方式传递这些知识。因此，我们建议在没有充分用例对齐的情况下，不要在医学应用中使用 Meditron，并且还需要进行额外的测试，特别是在真实世界的实践环境中进行随机对照试验。

ollama run meditron (7B3.8G)

Samantha LLMSamantha 是一个大型语言模型，经过训练可以执行多种任务，包括生成文本、翻译语言、创作不同类型的创意内容以及回答问题。

它在响应用户指令和完成请求时表现出色。

Samantha 还可以回答开放性、具有挑战性或奇怪的问题。

它可以生成不同创意文本格式，例如诗歌、代码、脚本、音乐作品、电子邮件、信件等。

Mistral 7B：

Mistral 7B 是另一个大型语言模型，它在参数较少的情况下表现出色，超越了参数更多的模型，如 Llama 2 13B。

Mistral 7B 在英语任务和编程任务方面都表现出色。

通过结合 Samantha 和 Mistral 7B，你可以创建一个更强大且多用途的语言模型。

这对于生成更具创意和信息性的文本内容、更准确地翻译语言、编写更复杂的代码以及更全面和信息性地回答问题非常有用。

ollama run samantha-mistral (7B4.1G)

Yarn-Mistral-7b-128k 是一款由 NousResearch 开发的语言模型，它是在 Mistral-7B-v0.1 的基础上进行了扩展。这个模型支持 128k 令牌的上下文窗口，并使用了 YaRN 扩展方法进行了进一步预训练。你可以在 Hugging Face 上找到这个模型1.

ollama run yarn-mistral

SOLAR-10.7B 是由韩国公司 Upstage 推出的一款大型语言模型（LLM）。这个模型号称是世界上第一个开源的 10.7B 参数的 LLM。让我们来了解一下 SOLAR-10.7B 的一些特点：

模型构建：

SOLAR-10.7B 是通过合并两个 Llama 2 模型（每个模型有 70B 参数）得到的。

这种合并使用了一种称为深度放大（Depth Up-Scaling）的新方法，与其他合并方法形成鲜明对比。

深度放大（Depth Up-Scaling）：

这个方法的核心思想是从两个基本模型中删除一些层，然后将它们连接起来，形成一个更大的模型。

SOLAR-10.7B 有 48 层，比常见的 7B 模型的 32 层更大。

预训练和微调：

SOLAR-10.7B 经过两个阶段的预训练和微调：

指令微调：在数据集上与指令保持一致。

对齐微调：进一步微调，使其与人类或其他强大的 AI 更加一致。

性能：

SOLAR-10.7B 在多个基准测试中表现优秀，超越了其他大型语言模型。

ollama run solar (11B6.1G)

Nous Hermes 2 - Mixtral 8x7B - DPO 是 Nous Research 推出的一款大型语言模型（LLM）。这个模型是在 Mixtral 8x7B MoE LLM 的基础上进行了训练和微调的。以下是关于 Nous Hermes 2 - Mixtral 8x7B - DPO 的一些特点：

模型描述：

Nous Hermes 2 - Mixtral 8x7B - DPO 是 Nous Research 的新旗舰模型，经过 Mixtral 8x7B MoE LLM 的训练。

模型在超过 100 万条主要由 GPT-4 生成的数据以及其他高质量数据集上进行了训练，表现出色。

这是 Mixtral Hermes 2 的 SFT + DPO 版本，我们还发布了仅 SFT 版本，供用户选择使用。

性能评估：

Nous Hermes 2 - Mixtral 8x7B - DPO 在多个基准测试中表现优秀，超越了其他模型，包括 AGIEval、BigBench Reasoning、GPT4All 和 TruthfulQA。

ollama run nous-hermes2-mixtral (47B26G)

MedLlama2 是由 Siraj Raval 开发的基于 Llama 2 的语言模型，专门用于回答医学问题。虽然它不能替代医疗专业人士，但它可以作为进一步研究的起点。

这个模型使用了 MedQA 数据集进行训练，旨在提供对医学问题的回答。如果你有关于医学的问题，可以尝试使用 MedLlama2 来获取一些初始信息，但请记住，它不应该替代专业医生的建议。

你可以通过命令行或 API 来与 MedLlama2 进行交互。如果你想要在本地运行大型语言模型，这是一个值得尝试的选择！

ollama run medllama2 (7B3.8G)

BakLLaVA 1 是一个基于 Mistral 7B 基础模型的语言模型，通过 LLaVA 1.5 架构进行增强。在这个首个版本中，我们展示了 Mistral 7B 基础模型在多个基准测试上优于 Llama 2 13B。你可以在我们的 repo 上运行 BakLLaVA-1。我们目前正在更新它，以便更容易地进行微调和推理。请注意，BakLLaVA-1 是完全开源的，但是它是在包含 LLaVA 语料库的某些数据上进行训练的，而这些数据不具有商业许可。我们将在即将发布的版本中解决这个问题。BakLLaVA 2 正在研发中，它将使用一个更大（商业可行）的数据集和一个超越当前 LLaVA 方法的新架构。BakLLaVA-2 将摆脱 BakLLaVA-1 的限制

ollama run bakllava (7B4.7G)

Nous Hermes 2 是 Nous Research 公司发布的一款大型语言模型（LLM）。它是基于 Mixtral 8x7B 的基础模型进行微调的。以下是关于 Nous Hermes 2 的一些特点：

模型描述：

Nous Hermes 2 是 Nous Research 的新旗舰模型，经过 Mixtral 8x7B 的训练和微调。

这个模型在超过 100 万条主要由 GPT-4 生成的数据以及其他高质量数据集上进行了训练，表现出色。

它在长篇回答、低幻觉率和没有 OpenAI 审查机制方面表现出色。

性能评估：

Nous Hermes 2 在多个基准测试中表现优秀，超越了其他模型，包括 AGIEval、BigBench Reasoning 和 GPT3.5-turbo。

ollama run nous-hermes (7B3.8G)

Starling-7B 是一个开放的大型语言模型（LLM），通过 AI 反馈的强化学习（RLAIF）进行训练。这个模型利用了 GPT-4 标记的排序数据集 Nectar，以及新的奖励训练和策略调整流程。在 MT Bench 中，Starling-7B-alpha 的得分为 8.09，超越了迄今为止所有模型在 MT-Bench 上的表现，除了 OpenAI 的 GPT-4 和 GPT-4 Turbo。我们还发布了 Nectar 排名数据集、奖励模型 Starling-RM-7B-alpha 和语言模型 Starling-LM-7B-alpha 在 HuggingFace 上，并提供了在线演示在 LMSYS Chatbot Arena。敬请期待即将发布的代码和论文，详细介绍整个过程1。

ollama run starling-lm (7B4.1G)

WizardMath 是一个强化学习模型，旨在增强大型语言模型（LLMs）在数学推理方面的能力。它通过应用我们提出的**强化学习来自进化指导反馈（RLEIF）**方法，将数学领域的推理能力提升到了Llama-2模型上。这个模型在两个数学推理基准测试中表现出非凡的能力：GSM8k 和 MATH。让我们来看看一些关键信息：

GSM8k：在GSM8k基准测试中，WizardMath 超越了所有其他开源的LLMs，取得了显著的优势。它甚至在GSM8k上胜过了 ChatGPT-3.5、Claude Instant-1、PaLM-2 和 Minerva。

MATH：在MATH基准测试中，WizardMath 同时超越了 Text-davinci-002、PaLM-1 和 GPT-3。

ollama run wizard-math (7B4.1G)

Orca 2 是微软研究院发布的一款小型语言模型（LLM），旨在提升小型模型在推理能力方面的表现。让我们来了解一下关于 Orca 2 的一些关键信息：

模型尺寸：Orca 2 提供了两种尺寸的模型，分别是 70 亿和 130 亿参数的版本1.

训练信号改进：与传统的模仿学习不同，Orca 2 通过教授模型不同的推理策略来提升其性能。这些策略包括逐步处理、回忆-生成、回忆-推理-生成、提取-生成和直接回答等技巧。更重要的是，它帮助模型决定在每个任务中使用最有效的解决方案2.

基准测试表现：Orca 2 在15个不同的基准测试上进行了评估，包括约100个任务和超过36000个独特提示。结果显示，Orca 2 在复杂任务的零样本设置中，明显超越了同等大小的其他模型，并达到或超过了体量为其5-10倍的模型的性能水平2.

这是一个令人振奋的研究项目，因为它为小型语言模型在推理能力方面的应用打开了新的可能性！

提升小型模型在推理能力方面的表现。它通过应用我们提出的**强化学习来自进化指导反馈（RLEIF）**方法，将数学领域的推理能力提升到了Llama-2模型上。这个模型在两个数学推理基准测试中表现出非凡的能力：GSM8k 和 MATH。让我们来看看一些关键信息：

GSM8k：在GSM8k基准测试中，Orca 2 超越了所有其他开源的LLMs，取得了显著的优势。它甚至在GSM8k上胜过了 ChatGPT-3.5、Claude Instant-1、PaLM-2 和 Minerva。

MATH：在MATH基准测试中，Orca 2 同时超越了 Text-davinci-002、PaLM-1 和 GPT-3。

ollama run orca2 (7B3.8G)

ollama run orca-mini (3B)

ollama run orca2:13b (13B7.4G)

Falcon 180B 是由阿布扎比的技术创新研究院（TII）发布的一款完全开源且可商用的大型语言模型。它是继 Falcon 40B 之后，TII 推出的第二个开源大语言模型（LLM），也是目前世界上最大的开源开放大模型。让我们深入了解一下关于 Falcon 180B 的一些关键信息：

模型规模：Falcon 180B 拥有1800亿参数，是目前开源开放大模型中参数规模最大的模型。

训练数据集：它是在 RefinedWeb 数据集上进行训练的，该数据集包含了约 3.5万亿个词元。

目标和应用：Falcon 180B 的目标是为研究者和商业用户提供一个强大、高效、多语言和多领域的基础模型，可用于各种自然语言处理（NLP）任务，例如文本生成、摘要、问答、对话、机器翻译等。

此外，Falcon 180B 还发布了两个版本：

基础模型（Falcon-180B）：纯无监督训练出来的基础模型。

Chat模型（Falcon-180B-chat）：在基础模型之上进行有监督微调SFT和人类反馈的强化学习RLHF进行训练。

虽然 Falcon 180B 的效果很不错，但由于其计算资源需求较高，实际使用时，如果性价比更重要，你可能还是会选择使用 LLaMA-2-70B。总之，这是一个令人振奋的研究项目，为小型语言模型在推理能力方面的应用打开了新的可能性

ollama run falcon (7B4.2G)

Yi 是由 01.AI 开发的一系列大型语言模型（LLMs），旨在成为下一代开源大型语言模型。这些模型是从头开始训练的，针对双语任务，并在3T多语言语料库上进行了训练。Yi 系列模型在全球范围内成为最强大的LLM之一，展现出在语言理解、常识推理、阅读理解等方面的潜力。

一些关键信息如下：

Yi-34B-Chat：在 AlpacaEval排行榜上，Yi-34B-Chat 模型位居第二（仅次于GPT-4 Turbo），超越了其他LLMs（如GPT-4、Mixtral、Claude）1。

Yi-34B：在英文和中文基准测试中，Yi-34B 在Hugging Face开源LLM排行榜（预训练）和C-Eval上均排名第一，超越了其他开源模型（如Falcon-180B、Llama-70B、Claude）1。

Yi 系列模型采用了与 Llama 相同的模型架构，但并不是 Llama 的派生版本。它们都基于Transformer结构，这自2018年以来一直是大型语言模型的标准架构。感谢Transformer和Llama开源社区，它们降低了从头开始构建模型的难度，并在AI生态系统中使用相同的工具。

ollama run yi (6B3.5G)

Neural-Chat 是由 Intel 设计的一系列大型语言模型（LLMs），旨在成为下一代开源对话AI。这些模型不仅能够理解和生成类似人类的语言，还能在对话中保持语境的连贯性，提供准确且相关的回答。让我们深入了解一下关于 Neural-Chat 的一些关键信息：

Neural-Chat-7B-v3-1：这个模型是在 Intel Gaudi 2 处理器上，基于 mistralai/Mistral-7B-v0.1 数据集进行的精调，参数规模为 7B。它使用了 Direct Performance Optimization (DPO) 方法进行模型对齐，具体细节可以参考 Medium 上的文章《The Practice of Supervised Fine-tuning and Direct Preference Optimization on Intel Gaudi2》1。

Neural-Chat-7B-v1-1：这个模型是基于 mosaicml/mpt-7b 构建的，最大序列长度为 2048，使用了数据集 Intel/neural-chat-dataset-v1-1，该数据集是多个开源数据集的综合2.

这些模型支持细调、优化和推理，适用于多种对话AI应用。如果你对构建自己的聊天机器人感兴趣，可以探索这些模型并根据特定任务进行细调。请注意，模型不应用于故意创建对人类不友好或排斥性的环境

ollama run neural-chat (7B4.1G)

OpenChat 是一个由 Intel 开发的开源语言模型，旨在成为下一代对话AI。它具备生成类似人类文本的能力，可以根据上下文和过去的对话生成自然语言。以下是关于 OpenChat 的一些关键信息：

功能：你可以使用 OpenChat 进行有趣的对话、获取创意灵感、学习新知识等。它还支持自动化任务，让你一站式体验AI的未来。

图像交互：你现在可以通过描述来创建图像。在对话中，你可以发明新的标志、漫画片段和逼真的场景。这是通过我们最强大的图像模型 DALL·E 3 实现的。1

语音交互：你现在可以使用语音与 OpenChat 进行双向对话。无论是在路上与它交流，还是为家人请求一则睡前故事，或者解决晚餐桌上的争论，都可以使用语音进行交流。

OpenChat 提供了免费和付费的计划，你可以根据需求选择适合你的版本。如果你想要构建自己的聊天机器人，可以探索这个开源模型并根据特定任务进行细调。请注意，模型不应用于故意创建对人类不友好或排斥性的环境。

ollama run openchat (7B4.1G)

TinyLlama 是一个令人振奋的项目，旨在构建一个紧凑且高性能的开源小型语言模型。让我们深入了解一下关于 TinyLlama 的一些关键信息：

模型规模：TinyLlama 是一款具有 1.1B 参数的语言模型，经过大约 3 个时期的训练，预训练数据集包含约 1 万亿个标记。

基于 Llama 2：TinyLlama 基于 Llama 2 的架构和分词器（tokenizer）。这意味着 TinyLlama 可以与许多基于 Llama 构建的开源项目无缝集成。

性能优越：尽管规模相对较小，TinyLlama 在一系列下游任务中表现出非凡的性能。它明显优于其他具有相似规模的开源语言模型。

TinyLlama 的模型检查点和代码都可以在 GitHub 上公开获取。如果你对构建自己的聊天机器人或其他自然语言处理应用感兴趣，可以探索这个项目并根据特定任务进行细调。请注意，模型不应用于故意创建对人类不友好或排斥性的环境

ollama run tinyllama (1B0.6G)

TinyDolphin 是一个实验性的语言模型，它基于 TinyLlama 并在新的 Dolphin 2.8 数据集上进行了训练。这个模型具有 1.1B 参数，是一个紧凑且高性能的开源小型语言模型。以下是关于 TinyDolphin 的一些关键信息：

模型规模：TinyDolphin 具有 1.1B 参数，经过大约 3 个时期的训练，预训练数据集包含约 1 万亿个标记。

基于 TinyLlama：TinyDolphin 基于 TinyLlama 的架构和分词器。这意味着 TinyDolphin 可以与许多基于 Llama 构建的开源项目无缝集成。

ollama run tinydolphin (1B0.6G)

Vicuna 是一个令人振奋的项目，旨在构建一个紧凑且高性能的开源小型语言模型。它基于 Llama 2 架构，并在新的 Dolphin 2.8 数据集上进行了训练。以下是关于 Vicuna 的一些关键信息：

模型规模：Vicuna 具有 1.1B 参数，经过大约 3 个时期的训练，预训练数据集包含约 1 万亿个标记。

基于 Llama 2：Vicuna 基于 Llama 2 的架构和分词器。这意味着 Vicuna 可以与许多基于 Llama 构建的开源项目无缝集成。

ollama run vicuna

Llama2-Chinese 是一个令人振奋的项目，旨在进一步增强 Llama 2 大型语言模型在中文理解、生成和翻译等能力方面的表现。这个项目采用了多种技术，包括 LoRA 微调、全参数指令微调和二次预训练，以提高模型在中文任务上的表现。

一些关键信息如下：

预训练数据：Llama2-Chinese 在 400GB 的中英文文学文本上进行了持续预训练，并在中文指令数据集上进行了微调。1

模型版本：目前，Llama2-Chinese 提供了 Atom-7B 和 Atom-13B 两个版本，基于 Llama 2 架构，具备更强的中文对话能力。这些模型已完全开源，支持商用。你可以在 Hugging Face 上获取模型参数。

ollama run llama2-chinese (7B3.8G)

ollama run vicuna:13b (13B7.4G)

ollama run vicuna:33b (33B18G)

Wizard Vicuna Uncensored 是由 Eric Hartford 开发的一个强大的语言模型，它是 Wizard Vicuna 13B Uncensored 的精细调整版本。以下是关于 Wizard Vicuna Uncensored 的一些关键信息：

模型描述：

类型：一个具有 13B 参数的 GPT 类似模型。

训练数据：在主要由 GPT-4 生成的数据中，包括 GPTeacher - General Instruct、Roleplay v1、Roleplay v2 和 Code Instruct 数据集等。

用途和限制：

初始微调在一个变体的 UltraChat 数据集上进行，其中包含由 ChatGPT 生成的合成对话。

进一步在 openbmb/UltraFeedback 数据集上进行了微调，该数据集通过排名提示和完成来自 GPT-4 的结果。

适用于聊天应用；你可以在这里测试其功能。

请注意，Uncensored 模型没有防护措施。你对模型的使用负有责任，就像你对刀、枪、打火机或汽车的使用一样。发布模型生成的任何内容与你自己发布一样，你对发布的内容负有责任，不能将模型的行为归咎于模型本身。

ollama run wizard-vicuna-uncensored (7B3.8G)

ollama run wizard-vicuna-uncensored:30b (30B18G)

ollama run wizard-vicuna-uncensored:13b(13B7.4G)

Qwen 是一个由阿里巴巴云提出的大型语言模型系列，包括 Qwen-1.8B、Qwen-7B、Qwen-14B 和 Qwen-72B，以及 Qwen-Chat 系列，包括 Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat 和 Qwen-72B-Chat。这些模型具有以下特点：

强大的基础语言模型：Qwen 系列的基础语言模型经过稳定的预训练，使用了多语言数据，总计达到了 3 万亿标记，覆盖了多个领域、多种语言（尤其是中文和英文）等。它们在基准数据集上表现出色。

聊天模型：Qwen 系列的聊天模型经过与人类偏好的对齐，基于 SFT 和 RLHF（尚未发布），能够进行对话、生成内容、提取信息、总结、翻译、编码、解决数学问题等。它们还可以使用工具、扮演代理人，甚至作为代码解释器。

总之，Qwen 系列模型不仅在基准性能上表现优异，而且在实际场景中的问题解决能力也得到了显著提升。这些先进的模型可以轻松地进行对话、识别名人和地标、生成文本，尤其是在描述和解释视觉内容方面，它们的能力得到了显著提高

ollama run qwen (4B2.3G)

ollama run qwen:32b (32B18G)

ollama run qwen:7b (7B4.5G)

ollama run qwen:14b (14B8.2G)

ollama run qwen:72b (72B41G)

Dolphin Mixtral 2.8 是一款先进的、未经审查的语言模型，具有 32K 上下文窗口。它基于 Mistral 0.2 模型，并在此基础上进行了精细调整。以下是关于 Dolphin Mixtral 2.8 的一些关键信息：

模型描述：

类型：这是一个用于文本嵌入的模型，专门用于检索、相似性、聚类和分类任务。

性能：Dolphin Mixtral 2.8 在短文和长文本任务上都超越了现有的模型，包括其他7B和13B模型。

开源和可复现性：模型权重和训练代码都是完全开源的，你可以在这里获取模型参数。

中文支持：是的，Dolphin Mixtral 2.8 支持中文。你可以使用这个模型来处理中文文本。

ollama run dolphin-mixtral (47G26G)

ollama run dolphin-mixtral:8x7b (26G)

LLaVA（Large Language and Vision Assistant）是一个大型语言和视觉助手，结合了视觉编码器和 Vicuna，用于通用的视觉和语言理解。它在模仿多模态 GPT-4 的精神上具有令人印象深刻的聊天能力，并在科学问答方面创下了新的准确性记录。

关于 LLaVA 的一些关键信息：

功能：

视觉和语言理解：LLaVA 结合了视觉和语言，可以处理多模态输入，例如图像和文本。

聊天能力：LLaVA 在多模态对话中表现出色，有时展现出多模态 GPT-4 在未见过的图像/指令上的行为。

科学问答：LLaVA 在科学问答任务上取得了最佳表现，例如在 Science QA 数据集上。

中文支持：是的，LLaVA 支持中文。你可以使用这个模型来处理中文文本。

ollama run llava (7B4.7G)

ollama run llava:13b (13B8G)

ollama run llava:34b (34B20G)

Command R 是一个大型语言模型，经过优化，适用于对话交互和长文本任务。它属于“可扩展”类别的模型，平衡了高性能和强大的准确性，使公司能够超越概念验证，进入实际生产环境。以下是关于 Command R 的一些关键信息：

模型描述：

对话模型：Command R 是一个遵循指令的对话模型，其在质量、可靠性和上下文长度方面优于之前的模型。它适用于复杂的工作流，如代码生成、检索增强生成（RAG）、工具使用和代理。

多语言能力：Command R 可以在多种语言中进行交互，达到相当高的准确度。模型在以下语言中表现良好：英语、法语、西班牙语、意大利语、德语、巴西葡萄牙语、日语、韩语、简体中文和阿拉伯语。此外，预训练数据还包括以下 13 种语言：俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印度尼西亚语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。模型已经训练成根据用户的语言进行回应。

Command R 不仅可以用于生成多种语言的文本，还可以执行跨语言任务，如翻译或回答其他语言内容的问题。

检索增强生成（RAG）：Command R 具备基于提供的文档片段生成回应的能力。它会在回应中包含引用，指示信息来源。

ollama run command-r (35B20G)

Mixtral 8x7B 是一个强大的语言模型，它基于 Mistral 7B 模型，并在此基础上进行了精细调整。以下是关于 Mixtral 8x7B 的一些关键信息：

模型描述：

类型：这是一个用于文本嵌入的模型，专门用于检索、相似性、聚类和分类任务。

架构：Mixtral 8x7B 采用了 Sparse Mixture of Experts (SMoE) 的架构。每个层由 8 个前馈块（即专家）组成。对于每个令牌，在每一层中，路由网络选择两个专家（即 8 个不同参数组的 2 组）来处理令牌，并将它们的输出进行加和。换句话说，对于给定的输入，整个 MoE 模块的输出是由专家网络产生的输出的加权和。

参数量：由于 Mixtral 是 SMoE，它总共有 47B 参数，但在推理过程中，每个令牌只使用 13B 参数。这种方法的好处在于更好地控制成本和延迟，因为每个令牌只使用了一小部分总参数。

训练数据：Mixtral 使用了开放 Web 数据进行训练，上下文大小为 32 个令牌。

性能和能力：

数学推理：Mixtral 在数学推理、代码生成和多语言任务方面表现出色。

多语言支持：Mixtral 可以处理英语、法语、意大利语、德语和西班牙语。

指令模型：Mixtral 可以进行指令微调，生成一个遵循指令的模型，其在 MT-Bench 上获得了 8.3 的得分。

中文支持：是的，Mixtral 8x7B 支持中文。你可以使用这个模型来处理中文文本。

ollama run mixtral (8*7B26G)

Mistral 7B 是一款由 Mistral AI 开发的强大语言模型。以下是关于这个模型的一些关键信息：

模型描述：

规模：Mistral 7B 具有 73亿参数。

性能：

在各种基准测试中优于 Llama 2 13B。

在代码任务上接近 CodeLlama 7B 的性能，同时在英语任务上表现良好。

注意机制：它使用 Sliding Window Attention (SWA) 来高效处理更长的序列。

中文支持：

是的，Mistral 7B 支持中文。你可以使用这个模型来处理中文文本。

ollama run mistral (7B4.1G)

Gemma 9B 是一款基于 Google Gemini 研究和技术的开放模型。以下是关于 Gemma 9B 的一些关键信息：

模型描述：

规模：Gemma 9B 具有 90亿参数。

性能：

在学术基准测试中，Gemma 9B 在语言理解、推理和安全性方面表现出色。

模型类型：Gemma 9B 是一个轻量级的开放模型，适用于多种任务。

中文支持：

是的，Gemma 9B 支持中文。你可以使用这个模型来处理中文文本。

ollama run gemma(9B5G)

CodeGemma 9B 是一系列专门用于代码的轻量级语言模型（LLM），由 Google 发布。以下是关于 CodeGemma 9B 的一些关键信息：

模型描述：

规模：CodeGemma 9B 具有 90 亿参数。

功能：

代码自动补全和生成：CodeGemma 可以智能地完成代码行、函数，甚至生成整个代码块，无论你是在本地工作还是利用云资源。

提高的准确性：CodeGemma 模型经过训练，不仅在语法上更准确，而且在语义上也更有意义，有助于减少错误和调试时间。

多语言支持：CodeGemma 可以处理 Python、JavaScript、Java 等流行语言的代码。

中文支持：

是的，CodeGemma 9B 支持中文。你可以使用这个模型来处理中文代码。

ollama run codegemma(9B5G)

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

GPTssssss

2024年4月11日星期四

本地自建大模型 Ollama 的使用與大模型普查

本地自建大模型 Ollama 的使用與大模型普查

模型如何下載與選用

基本指令：

模型部分摘要如下

目前我只推薦

以下模型看看就好

notus基於 Zephyr，使用高品質資料進行微調的 7B 聊天模型(中文)

xwinlm：基於 Llama 2 的中文對話模型，在各種基準測試中表現具有競爭力(中文)

沒有留言:

張貼留言

總網頁瀏覽量

科技教育-創客類

電腦安裝區

關於我的影片-點閱率最高部分

學習

認識文盛

廠商採購專區(~~NEW)

十二年國教

教學好站

教學老師區

教學研究、資訊工具

資訊教育-行動學習

GPTssssss

2024年4月11日 星期四

本地自建大模型 Ollama 的使用與大模型普查

本地自建大模型 Ollama 的使用與大模型普查

模型如何下載與選用

基本指令：

模型部分摘要如下

目前我只推薦

以下模型看看就好

notus基於 Zephyr，使用高品質資料進行微調的 7B 聊天模型(中文)

xwinlm：基於 Llama 2 的中文對話模型，在各種基準測試中表現具有競爭力(中文)

沒有留言:

張貼留言

2024年4月11日星期四