大模型 - 极客日志 (Page 24)

llama3实战微调，还不会大模型微调的看过来！手把手教会你大模型微调

本教程基于RockyLinux8版本，著于2024年5月21日。机器单机4090Ti 24G显存。训练时候GPU使用23G左右。 1. 下载中文模型下载训练好的llama3-8B版本中文模型地址：放置在：/data/dataset/model/llama3/8b-chinese-chat 2. 使用llamafactory微调和部署 # 建立存放目录 mkdir -p /data/dataset/project cd /data/dataset/project # 注意版本是： v0.6.1 （不同版本区别还是很大） git clone https://github.com/hiyouga/LLaMA-Factory.git cd /data/dataset/project/LLaMA-Factory-0.6.1 pip install -r

本地部署大语言模型全解析：实用工具与操作指南

在快速发展的人工智能领域，大语言模型（LLMs）正成为各类应用的核心。无论是在智能客服、内容生成，还是在教育与医疗等领域，这些模型的应用潜力巨大。然而，云端服务的高昂费用和数据隐私的担忧，让越来越多的用户希望能够在本地环境中部署这些强大的模型。本文将详细介绍如何利用多款优秀的软件工具，包括 Ollama、LM Studio、GPT4All、LLaMA.cpp、NVIDIA Chat with RTX、Llamafile、ChatTTS、GPT-SoVITS，以及 Stable Diffusion 进行本地部署。一、环境准备在开始部署大语言模型之前，需要确保您的计算机环境满足以下基本要求： 1. 操作系统：Windows、MacOS 或 Linux。 2. 硬件要求：建议至少有 16GB 内存和一块支持 CUDA 的 NVIDIA GPU，以便加速模型推理。

大模型应用开发：LangChain入门指南

什么 langchain ? LangChain是一个用于开发由大型语言模型（ LLMs ）支持的应用程序的框架。从下面开始我们认知常用的 langchain 常用的生态库以及知识点。资源库 langchain 有自己的生态，下面是 langchain 生态的一些常用的资源： * / * / langchain 不仅支持 Python 生态，也支持 TypeScript/JavaScript 生态，意味着开发者可以使用 JS 生态开发 AI 应用。目前的 langchain 的版本是: v0.3+。langchain 集成众多的 llm 和组件，使得 AI 开发变得容易。 langchain 经典架构图 LCEL LCEL 全称 LangChain Expression Language，是一种创建任意自定义链的方法。核心模块和安装 langchain

轻松三步，在普通电脑上部署你的私人AI助手 - LLaMA-3本地安装指南

“ 在你的电脑上运行一个强大的AI助手，它不仅能力超群，还把所有秘密都藏在你的硬盘里。好奇这是如何实现的吗？动动手，三分钟就可以完成LLaMA-3的本地部署！” 01 — LLaMA-3‍‍‍‍ 最近在试验检索增强生成（RAG）的项目，想试试换一个强点的模型试试看效果是否有改观，动手试了一下本地搭建一个私有大模型作为基模型，这次试试LLama3，下次搭阿里通义千问的Qwen2模型。早在4月份，Meta开源了 LLaMA-3（Large Language Model Meta AI 3），在多个关键的基准测试中性能优于业界先进同类模型，其在代码生成等任务上实现了全面领先，能够进行复杂的推理，可以更遵循指令，能够可视化想法并解决很多微妙的问题。主要亮点： * 基于超过 15T token 训练，相当于 Llama 2 数据集的 7 倍还多； * 支持 8K 长文本，改进的 tokenizer 具有 128K token 的词汇量，可实现更好的性能；

构建本地AI客服：利用FastGPT与Ollama打造智能助手

最近找工作，微信上hr问我做一个AI客服聊天这么个东西，所以最近几天就研究了一下这方面，还真给我捣鼓了点成果出来：一个能在本地运行的AI小助手，可以对接自己喜欢的大模型，还能导入知识库（比如员工手册，商品手册，论文等），然后让AI根据知识库来回答自己的问题，成果如下图，知识库是自己随手写的一个文具店商铺的txt文件。在这里写一篇文章给大家分享一下搭建过程。一. 准备工作: 需要准备好linux环境并安装docker-compose （这一步是给使用windows的同学看的，linux环境的同学可以跳过，记得安装一下docker-compose就行） 1. 下载docker-desktop并安装，这样自己的电脑就有dokcer和docker-compose了，命令行里输入docker-compose -v可以查看版本。 1. 开启windows的wsl功能，开启后在powershell中输入wsl -l可以查看版本，说明开启成功 1. 在powershell中输入wsl --set-default-version 2，将WSL2设置为安装新linux发行

大模型

【Win11本地部署】如何自行搭建Ollama AI大模型服务？完整指南

简介 Ollama是一个开源的大型语言模型服务工具，它帮助用户快速在本地运行大模型。通过简单的安装指令，用户可以执行一条命令就在本地运行开源大型语言模型， Ollama极大地简化了在Docker容器内部署和管理LLM的过程，使得用户能够快速地在本地运行大型语言模型。 1. 下载安装Ollama Ollama主页：https://ollama.com/ ，支持macOS, Linux 和 Windows 系统，点击下载按钮，获取OllamaSetup.exe安装程序。双击安装文件，点击「Install」开始安装。目前的Ollama会默认安装到C盘，路径如下：C:\Users\%username%\AppData\Local\Programs\Ollama，并不会让用户自定义选择安装路径。安装完成后，会在电脑右下角出现Ollama图标，可以不用先启动Ollama，先退出做一些必要路径的配置！右键图标，会出现退出的按钮「Quit Ollama」，注意：一定要退出Ollama，否则下边的环境配置无法生效！ 2. 环境配置 - 关闭开机自启动（

【RAG 实践】使用Ollama + AnythingLLM搭建本地知识库：详细指南

什么是 RAG RAG，即检索增强生成（Retrieval-Augmented Generation），是一种先进的自然语言处理技术架构，它旨在克服传统大型语言模型（LLMs）在处理开放域问题时的信息容量限制和时效性不足。RAG的核心机制融合了信息检索系统的精确性和语言模型的强大生成能力，为基于自然语言的任务提供了更为灵活和精准的解决方案。 RAG与LLM的关系 RAG不是对LLM的替代，而是对其能力的扩展与升级。传统LLM受限于训练数据的边界，对于未见信息或快速变化的知识难以有效处理。RAG通过动态接入外部资源，使LLM得以即时访问和利用广泛且不断更新的知识库，进而提升模型在问答、对话、文本生成等任务中的表现。此外，RAG框架强调了模型的灵活性和适应性，允许开发者针对不同应用场景定制知识库，从而满足特定领域的需求。下图是 RAG 的一个大致流程： RAG就像是为大型语言模型（LLM）配备了一个即时查询的“超级知识库”。这个“外挂”不仅扩大了模型的知识覆盖范围，还提高了其回答特定领域问题的准确性和时效性。想象一下，传统的LLM像是一个博学多才但记忆力有限的学者，它依赖于

Qwen2.5-Coder：阿里推出的个性化编程助手工具

阿里的 Qwen2.5-Coder：属于你的编程助手这几天通义千问团队开源更新了 Qwen2.5-Coder ，目前在社区上最大的参数是32B，此次更新主要聚焦于两个核心领域的提升： * 一是扩展了代码训练数据的规模。 * 二是强化了编码能力，同时保持了在数学推理与其他一般性任务中的强劲表现。基于之前开源的 Qwen2.5 系列模型，Qwen2.5-Coder 进一步扩大了训练数据集，覆盖了更多的源代码、文本代码和合成数据，总量达到 5.5 万亿个 token，在更大的代码数据集上面进行训练，也就是说它的代码功能提高了不少，事实上也确实如此，我使用了 32B 的模型实际体验下来，它的代码能力应该在Haiku和4o之间。而根据它官网的介绍，目前它( 32B Instruct )的代码能力是达到了开源模型最先进的水平。下面附上它官网的图给大家看下排行榜的情况 🔗模型链接（魔搭社区）放在这：抱抱脸的链接就不放了，能上抱抱脸的应该都能找到，下载速度太慢就上 hf-mirror 镜像站进行下载。用 ollama 或者

震惊, 我用 DeepSeek R1 部署了一个应用，效果真香!!!

一、背景 2025年1月20日，杭州深度求索人工智能基础技术研究有限公司发布了高性能AI推理模型 DeepSeek R1，标志着国产AI技术的重大突破。该模型在数学、代码和自然语言推理等任务上表现出色，性能与OpenAI的o1正式版相当，且以开源形式向全球开发者开放，遵循MIT协议，支持免费商用。二、DeepSeek R1的核心优势 1. 强化学习驱动的推理能力：R1在后训练阶段应用强化学习技术，无需大量监督微调数据，显著提升推理能力，降低训练成本。 1. 长链推理与模型蒸馏：采用长链推理技术，逐步分解复杂问题，支持模型蒸馏，可将推理能力迁移到小型模型中，满足特定场景需求。 1. 开源与灵活的许可证：遵循MIT License开源协议，允许自由使用、修改和商用，推动AI技术普及与创新。三、性能评测对比 3.1 DeepSeek-R1-Evaluation 对于所有模型，最大生成长度均设置为32,768个标记。对于需要采样的基准测试，我们使用0.6的温度值、0.95的top-p值，并针对每个查询生成64个响应以估算pass@

DeepSeek + Ollama + Open-WebUI 本地化部署到底需要多大显存？

不得不说，本文部分是为了蹭 DeepSeek 的热度😂，很诚实，但并非完全如此。在撰写本文之前，木子已经对 Open-WebUI 与 Ollama 两篇关于 DeepSeek 部份进行了更新。关于 DeepSeek、Ollama 和 Open-WebUI 的本地集成化部署，请参考以下三篇文章： 1. Rocky Linux 9 AI 系列 008 — 使用 Ollama 构建本地大模型 – Rocky Linux： https://www.rockylinux.cn/notes/building-local-large-models-with-ollama.html 1. Rocky Linux 9 AI 系列 009 — Open-WebUI 与 Ollama

Linux从零部署本地AI大模型对接本地知识库全记录

使用到的工具 * docker * oneapi + fastgpt * ollama 安装docker 已安装有docker的话跳过这一步执行命令安装docker（一行一行执行） curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun systemctl enable --now docker 执行命令安装docker-compose（速度会比较慢） curl -L https://github.com/docker/compose/releases/download/v2.20.3/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose chmod

大模型

教你本地化部署与使用一款免费的LLM应用工程化平台

随着LLM应用的不断成熟，特别是在B端企业场景中的逐渐落地，其不再停留在原型与验证阶段，将面临着更高的工程化要求，无论是输出的稳定性、性能、以及成本控制等，都需要实现真正的“生产就绪”；但由于大量的应用基于LangChain、LlamaIndex等框架开发，更多的抽象与封装使得应用难以跟踪与调试。因此，借助一个独立且侵入性较小的工程化平台来捕获LLM应用内部细节，帮助排障、优化与测试是很有必要的。本文将手把手教你使用一个开源的LLM应用工程化平台：Langfuse，与在线且收费的LangSmith不同，它支持完全本地化部署与使用，与应用集成也很简单。 * **快速本地化部署 ** * 与LangChain应用集成 * 与普通LLM应用集成快速本地化部署 Langfuse是一个开源的LLM应用的工程平台，可以帮助开发者及团队进行集中、在线、协作的LLM应用跟踪调试、分析与测试评估。 * **跟踪调试：**跟踪应用执行过程、上下文、LLM调用与成本、用户反馈等 * **提示管理：**集中的Prompt模板创建、维护与版本管理 * *