大模型 - 极客日志 (Page 15)

Llama 3.1 405B：4050亿参数史上最强开源大模型

01 。概述 Meta公司推出了其最大的开源人工智能模型——Llama 3.1 405B，拥有4050亿个参数，与GPT-4o和Claude 3.5 Sonnet相媲美。该模型在16000个Nvidia H100 GPU上训练而成，现已在云平台上可用，并被应用于WhatsApp和Meta.ai中。它能够处理包括编码和摘要在内的八种语言任务，但仅限于文本。Llama 3.1模型拥有128000个token的上下文窗口，同时Meta还发布了更小规模的模型版本，即Llama 3.1 8B和70B。 02 。关键信息 Meta公司推出了迄今为止最大的开源人工智能模型——Llama 3.1 405B，该模型包含4050亿个参数。虽然它并非史上最大的模型，但确实是近年来规模最大的模型之一，与OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet等领先的专有模型形成竞争。该模型使用了16000个Nvidia H100 GPU进行训练，得益于先进的训练技术，现已可在AWS、Azure和Google Cloud等云平台上下载或使用。此外，

大模型——如何本地跑通一个大模型

前言这里主要借助两个开源项目 ollama]和 openwebui] 这两个项目，来尝试本地跑通llama3.1 8b 、 mistral-nemo 12b 和 qwen2 7b 这些模型，再大的模型机器也撑不住了，机器配置如下： CPU： M2 Max 内存：32 GB 内容 ollama：https://ollama.com/ ollama GitHub：https://github.com/ollama/ollama ollama Models：https://ollama.com/library openwebui：https://openwebui.com/ openwebui GitHub：https://github.com/

基于langchain+本地lamma3.1+本地chroma做RAG增强生成系统

在实际做RAG(RAG，Retrieval Augmented Generation,即：增强生成)系统时，经常会遇到数据安全、隐私保护等问题，此时使用本地部署的大模型和本地部署的矢量数据库时很必要的。对一些概念的理解以下的概念定义不严谨，主要是为了便于理解。实际上这些概念不仅适用于“文本”。 1. 嵌入（embedding）计算机的强项是计算。在处理文本时，只有把文本转换成“数”以后才能被计算机处理，我们可以认为这个过程就是：嵌入（embedding）。我们可以用大模型进行这种嵌入：把喂给它的文本转换成“数”。嵌入的过程参见下图： 2. 矢量数据库在对文本做了“嵌入”以后，文本会被转换成“矢量”。矢量通常由很多“维度”组成，比如我们常见的笛卡尔坐标：有x轴和y轴，我们可以用(x,y)来表示一个点的位置，这个矢量就是2维的。 “嵌入”的过程实际上也可以称之为“

在langchian中集成本地部署的llama3.1大模型

部署本地大模型llama3.1 Ollama是一个工具和框架，主要用于本地部署和使用大语言模型（Large Language Models, LLMs）。它旨在帮助开发者和组织方便地在本地或私有环境中运行和交互这些模型，避免依赖外部API或云端服务，保护隐私并降低成本。这些大模型可以利用cpu运行，只是速度慢。 1. 安装ollama 下载地址：[] 2. 检查是否下载成功输入命令： ollama 看到类似下图的提示，代表安装成功： 3. 下载安装llama3 ollama pull llama3.1 系统自动下载8b（b是billion的意思，8b意味着80亿参数）的模型，根据进度条提示可以看到下载过程：也可以安装其它版本大模型，例如，使用命令：ollama pull llama3.1:70b 可以安装更大的70b的模型。 ollama中有很多大模型，点击：[]可以查找其它大模型。 4. 启动测试大模型使用命令： ollama run

基于 Qwen2.5-Coder 模型和 CrewAI 多智能体框架，实现智能编程系统的实战教程

9 月 19 日，阿里开源了 Qwen2.5 系列大模型全家桶：除常规的语言模型 Qwen2.5 之外，还发布了专门针对编程的Qwen2.5-Coder模型和数学的 Qwen2.5-Math 模型，并且针对每个模型都提供了不同规模参数版本，包括： * Qwen2.5 语音模型: 0.5B, 1.5B, 3B, 7B, 14B, 32B 和 72B * Qwen2.5-Coder 编程模型: 1.5B, 7B, 以及即将推出的 32B * Qwen2.5-Math 数学模型: 1.5B, 7B 和 72B Qwen2.5

大模型

【LLM大模型】一些Llama3微调工具以及如何在Ollama中运行

Llama3是Meta提供的一个开源大模型，包含8B和 70B两种参数规模，涵盖预训练和指令调优的变体。这个开源模型推出已经有一段时间，并且在许多标准测试中展示了其卓越的性能。特别是Llama3 8B，其具备小尺寸和高质量的输出使其成为边缘设备或者移动设备上实现LLM的完美选择。但是Llama3也还有许多缺陷，因此，在场景应用中，有时候还需要对其进行微调，以提升中文能力、场景应用的专业度等。目前有许多团队在做微调工具，他们的贡献提高了我们的效率、减少失误。比较优秀的例如： * MLX-LM * PyReft * litgpt * LLaMA-Factory 本文主要介绍如何使用这几个工具进行微调，以及如何在Ollama中安装运行微调后的模型。 01 MLX-LM MLX团队一直在不懈地努力改进MLX-LM库在模型微调工具方面的能力。使用MLX-LM微调llama3十分简单。可以参考相关例子： https://github.com/ml-explore/mlx-examples/tree/main/llms/llama 大致步骤如下：

Ollama 使用指南：Linux、Windows 和 macOS

Ollama 是一个开源平台，用于部署和运行大型语言模型。它提供了一种在本地环境中运行语言模型的能力，使得用户可以在本地安全地与这些模型进行交互，而无需将数据发送到云端。安装 Ollama 确保您已经安装了 Ollama。如果还没有安装，可以通过以下命令安装：代码语言：javascript # Linux, macOS curl -s https://install.ollama.ai | sh # Windows (PowerShell) Invoke-WebRequest -Uri https://install.ollama.ai -OutFile ollama-install.ps1 .\ollama-install.ps1 启动服务使用 ollama serve 命令启动服务。 Linux/macOS: 代码语言：javascript ollama serve Windows (PowerShell): 代码语言：

14.3k star！ Git开源的开箱即用的 AI 知识库问答系统

之前介绍了很多 AI 大模型以及如何编写 AI Prompt 的文章，但从实际应用的维度来看，我们在使用这些 AI 产品时一般都是将它作为一个搜索引擎来使用的，并没有发挥出它应有的价值。为什么这么说呢？首先，大多数情况下我们只是通过和 AI 对话来获取自己想要的答案，一个标准的、符合预期的回答往往需要多轮对话才会产生；其次，对于一些实时信息、企业内部资料等数据，无法从此类 AI 应用上获取；最后，单纯通过和 AI 对话来完成一些任务的效率太低，无法很好地发挥 AI 的能力。而 FastGPT——一款基于 LLM 大语言模型的知识库问答系统，可以完美地解决上述问题。它提供了开箱即用的数据处理、模型调用、RAG 检索、可视化 AI 工作流编排等能力，帮助我们轻松构建复杂的 AI 应用。目前该项目在 Github 上已经拥有

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM

1.MaxKB MaxKB = Max Knowledge Base，是一款基于 LLM 大语言模型的开源知识库问答系统，旨在成为企业的最强大脑。它能够帮助企业高效地管理知识，并提供智能问答功能。想象一下，你有一个虚拟助手，可以回答各种关于公司内部知识的问题，无论是政策、流程，还是技术文档，MaxKB 都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等等官方网址： 1.1 简介 1. 开箱即用：支持直接上传文档、自动爬取在线文档，支持文本自动拆分、向量化、RAG（检索增强生成），智能问答交互体验好； 1. 无缝嵌入：支持零编码快速嵌入到第三方业务系统，让已有系统快速拥有智能问答能力，提高用户满意度； 1. 灵活编排：内置强大的工作流引擎，支持编排 AI 工作流程，满足复杂业务场景下的需求； 1. 模型中立：支持对接各种大语言模型，

只需三步，本地打造自己的AI个人专属知识库

一、引言本文会手把手教你如何部署本地大模型以及搭建个人知识库，使用到的工具和软件有 * Ollama * Open WebUI * Docker * AnythingLLM 本文主要分享三点 * 如何用Ollama在本地运行大模型 * 使用现代Web UI和本地大模型"聊天" * 如何打造完全本地化的知识库：Local RAG 读完本文，你会学习到 * 如何使用最好用的软件Ollama部署本地大模型 * 通过搭建本地的聊天软件，了解ChatGPT的信息是如何流转的 * RAG的概念以及所用到的一些核心技术 * 如何通过AnythingLLM这款软件搭建完全本地化的数据库二、ollama的安装以及大模型下载 2.1 安装ollama 官方下载地址：当安ollama之后，我们可以通过访问如下链接来判断ollama是否安装成功 http://127.0.0.1:11434/ 2.2 使用ollama运行本地大模型当安装完成ollama之后，我们就可以在命令行中运行如下命令既可以 ollama run [model name]

【AI大模型】5分钟手把手系列(二)：本地部署Graphrag

背景大型语言模型（LLM）的前沿研究中，一个核心挑战与机遇并存的领域是扩展它们的能力，以解决超出其训练数据范畴的问题，如目前比较火热的AI Agent的解决方案，使得LLM有了自己的分析决策能力，并能通过调用Tool来获取外部最新的数据信息，或者使用开源模型，均可使得LLM有获取最新数据的能力来解决用户提出的问题，但在更多的场景下，用户需要咨询的信息是无法从公开的网络中进行获取，甚至大部分问题可能是某些公司内部业务的领域知识或者是企业的私有数据等，这时候就需要用到在RAG方案来增强这样的AI场景处理效率。 RAG（Retrieve Augment Generation，检索增强）目前，RAG是大语言模型搜索增强的主要方案之一。它允许大语言模型在从固定的数据库中抽取相关内容的基础上生成答案，从而限制随意发挥，提升答案的可靠性。可以说，RAG是目前各类大模型落地项目不可缺少的实用技术组件。目前集团内外基于AI知识库问答的功能，大部分使用了RAG技术。 GraphRAG （ Graph-based Retrieval Augmented Generation，基于知识图谱的检

大模型

【大模型教程】基于LangChain RAG的AI小助手制作

AI assistant 利用RAG技术，我开发了一个AI机器人，该机器人可以读取md文本作为知识库，简单快捷。 Github地址请【按此】 RAG是什么大型语言模型（LLMs）是在一个大型但固定的数据语料库上进行训练的，这限制了它们对于私人或最新信息的推理能力。检索增强生成（RAG）已经成为一种流行且强大的机制，用于扩展LLM的知识库，通过从外部数据源检索的文档来通过上下文学习来支持LLM生成。技术栈 * LLM 服务器: Ollama * 模型: mistral:latest * Language Model Integration Framework: LangChain * Web framework for API: FASTAPI How it works? 环境配置 * pip install -r requirements.txt * 获取你的 langchain API Key（在这里），并将其配置在