大模型 - 极客日志 (Page 25)

阿里最强开源大模型本地部署、API调用和WebUI对话机器人

阿里巴巴通义千问团队发布了Qwen2系列开源模型，该系列模型包括5个尺寸的预训练和指令微调模型：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。对比当前最优的开源模型，Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的Llama3-70B等大模型。老牛同学今天部署和体验Qwen2-7B-Instruct指令微调的中等尺寸模型，相比近期推出同等规模的开源最好的Llama3-8B、GLM4-9B等模型，Qwen2-7B-Instruct依然能在多个评测上取得显著的优势，尤其是代码及中文理解上。特别注意：虽然Qwen2开源了，但仍然需要遵循其模型许可，除Qwen2-72B依旧使用此前的Qianwen License外，其余系列版本模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B以及Qwen2-57B-A14B等在内，均采用Apache 2.0许可协议。下载Qwen2-7B-instruct模型文件为了简化模型的部署过程，我们直接下载GGUF文

使用本地大语言模型和Langchain手搓免费的AI搜索问答助手

1 概述大语言模型虽然已经有了很多的背景知识，但针对模型训练之后新产生的内容，或者领域内的知识进行提问，大模型本身通常无法准确给出回应，一个常用的解决方法是，借助检索增强生成（RAG），将能够用于回答问题的相关上下文给到大模型，利用大模型强大的理解和生成能力，来缓解这个问题。本文主要介绍如何借助搜索引擎，获取比较新的内容，并对这部分内容的问题进行回答。首先会简单介绍原理，然后是环境准备，代码介绍，最后会通过Chainlit，构造一个完整的AI搜索问答助手，完全免费。本文所介绍方法，不需要使用付费大语言模型API，整个流程可以在一台笔记本电脑上运行。最终效果如下：可以看出，问到一些比较新的内容时，大模型也能结合网络搜索结果给出准确的回答。 2 基本原理本文所介绍内容，总体依然是RAG，下面是总体处理流程，此流程图参考[此处]修改而来。 AI搜索问答并非现去互联网爬取数据，这样会来不及处理，通常都是借助搜索引擎。从搜过引擎获取到相关文档后，后续的所有流程，就跟一般的RAG完全一致了。 3 环境准备 3.1 操作系统本文使用的所有组件、库，在Wind

让RAG更进一步的利器：教你使用两种出色的Rerank排序模型

在高级RAG的应用中，常常会有一些“检索后处理（Post-Retrieval）”的环节。顾名思义，这是在检索出输入问题相关的多个Chunk后，在交给LLM合成答案之前的一个处理环节。在这个环节中，可以做一些诸如相似度过滤、关键词过滤、chunk内容替换等处理。其中，**Rerank（重排序）**是一种常见的，也是在RAG应用优化中很常见的一种技术处理环节。简单的说，Rerank就是对检索出来的多个chunks（或者nodes）列表进行重新排序，使得其排名与用户输入问题的相关性更匹配，使得更相关、更准确的chunk排名更靠前，从而在 LLM生成时能够被优先考虑以提高输出质量。那么，有了基于向量索引与语义相似度的检索，为什么还需要Rerank？ * RAG应用中有多种索引类型，很多索引技术并非基于语义与向量构建，其检索的结果希望借助独立的Rerank实现语义重排 * 在一些复杂RAG范式中，很多时候会使用多路混合检索来获取更多相关知识；这些来自不同源、不同检索算法的chunks要借助Rerank做重排 * 即使是完全基于向量构建的索引，由于不同的嵌入模型、相

如何在本地部署运行私有的开源大型语言模型（LLMs）汇总！7种大模型的部署方法！

我们如何在本地部署运行私有的开源大型语言模型（LLMs）呢？本文将向您梳理七种实用的方法及如何选择。 1. Hugging Face的Transformers 这是一个强大的Python库，专为简化本地运行LLM而设计。其优势在于自动模型下载、提供丰富的代码片段，以及非常适合实验和学习。然而，它要求用户对机器学习和自然语言处理有深入了解，同时还需要编码和配置技能。 1. Llama.cpp 基于C++的推理引擎，专为Apple Silicon打造，能够运行Meta的Llama2模型。它在GPU和CPU上的推理性能均得到优化。Llama.cpp的优点在于其高性能，支持在适度的硬件上运行大型模型（如Llama 7B），并提供绑定，允许您使用其他语言构建AI应用程序。其缺点是模型支持有限，且需要构建工具。 1. Llamafile 由Mozilla开发的C++工具，基于llama.cpp库，为开发人员提供了创建、加载和运行LLM模型所需的各种功能。它简化了与LLM的交互，使开发人员能够轻松实现各种复杂的应用场景。Llamafile的优点在于其速度与Llama.c

手把手带你打造自己的本地AI个人专属知识库

一、引言本文会手把手教你如何部署本地大模型以及搭建个人知识库，使用到的工具和软件有 * Ollama * Open WebUI * Docker * AnythingLLM 本文主要分享三点 * 如何用Ollama在本地运行大模型 * 使用现代Web UI和本地大模型"聊天" * 如何打造完全本地化的知识库：Local RAG 读完本文，你会学习到 * 如何使用最好用的软件Ollama部署本地大模型 * 通过搭建本地的聊天软件，了解ChatGPT的信息是如何流转的 * RAG的概念以及所用到的一些核心技术 * 如何通过AnythingLLM这款软件搭建完全本地化的数据库二、ollama的安装以及大模型下载 2.1 安装ollama 官方下载地址：[ollama.com/download] 当安ollama之后，我们可以通过访问如下链接来判断ollama是否安装成功 http://127.0.0.1:11434/ 2.2 使用ollama运行本地大模型当安装完成ollama之后，我们就可以在命令行中运行如下命令既可以 olla

大模型

GraphRAG + Ollama 本地部署全攻略：避坑实战指南

—1— 为什么要对 GraphRAG 本地部署？微软开源 GraphRAG 后，热度越来越高，目前 GraphRAG 只支持 OpenAI 的闭源大模型，导致部署后使用范围大大受限，本文通过 GraphRAG 源码的修改，来支持更广泛的 Embedding 模型和开源大模型，从而使得 GraphRAG 的更容易上手使用。 —2— GraphRAG 一键安装第一步、安装 GraphRAG 需要 Python 3.10-3.12 环境。第二步、创建知识数据文件夹安装完整后，需要创建一个文件夹，用来存储你的知识数据，目前 GraphRAG 只支持 txt 和 csv 格式。第三步、准备一份数据放在 /ragtest/

Ollama是什么？安装部署指南

Ollama是什么？一个本地部署运行大模型的工具，一行命令一键启动，支持linux、windows和mac操作系统的安装。 Ollama支撑哪些大模型？访问：https://ollama.com/library，列表下的大模型，它都支持。 Ollama运行大模型的配置？ Ollama只是工具，部署不同的大模型，都对我们本地环境有不同的配置要求（内存大小、CPU、GPU等等），下面举例子： Model（大模型）Parameters（参数）Size（体积）Download（运行指令）Llama 3.18B4.7GBollama run llama3.1Llama 3.170B40GBollama run llama3.1:70bLlama 3.1405B231GBollama run llama3.1:405bPhi 3 Mini3.

离线运行Llama3：本地部署终极指南

4月18日，Meta在官方博客官宣了Llama3，标志着人工智能领域迈向了一个重要的飞跃。经过笔者的个人体验，Llama3 8B效果已经超越GPT-3.5，最为重要的是，Llama3是开源的，我们可以自己部署！本文和大家分享一下如何在个人电脑上部署Llama3，拥有你自己的GPT-3.5+! 很多读者担心本地部署时个人电脑的硬件配置不够，实际上这种担心是多余的，笔者使用的是MacBook M2 Pro (2023款), 主要硬件配置如下： * 10核CPU * 16G内存部署步骤大致如下： * 安装Ollama * 下载Llama3 * 安装Node.js * 部署WebUI 安装Ollama Ollama可以简单理解为客户端，实现和大模型的交互，读者可以前往[ollama.com/download，根据…] 下载之后打开，直接点击Next以及Install安装ollama到命令行。安装完成后界面上会提示ollama run llama2，不需要执行这条命令，因为我们要安装llama3。下载Llama3 打开新的终端/命令行窗口，执行以下命令：

基础篇| 大模型部署框架

01 背景今天我们一起学习大模型部署框架。为什么要有大模型部署框架? 为什么有了推理框架，还要来一个什么部署框架？上节内容我们介绍了有12种大模型推理框架，虽然多，但是现在业界尚不存在各方面都远超其同类产品的推理框架，不同推理引擎在不同平台，硬件和模式下分别具有各自的优势，比如TensorRT有足够多的灵活性，在GPU执行时可以共享上下文，可以使用外部内存用于推理等，OpenVINO有高吞吐率模式，可以CPU与GPU异构设备同时推理。作为应用开发者，为了实现最优效率，如果针对不同环境都写一套代码去适配其最优推理框架，其耗费的学习成本和精力及代码量都将极其巨大。这时候有大模型部署框架用武之地，大模型部署框架作为一种高效、灵活的部署方式，能够大大提高模型训练和部署的效率，降低模型在部署过程中的时间和成本。 02 部署框架对比模型部署框架XinferenceLocalAIOllamaFastChatOpenAI API 接口对齐支持支持支持支持加速推理引擎GPTQ, GGML, vLLM, TensorRT, mlxGPTQ, GGML, vLLM, TensorRTG

2024.7月最新AI大模型一站式系统（支持豆包Doubao-lite-4大模型），AI视频生成系统、AI绘画系统源码、AI智能体、一站式AIGC解决方案

一、人工智能人工智能技术正在迅速发展，AI语言模型、AI绘画、AI视频在多个领域都有广泛的应用。它们不仅在科技创新方面表现出色，还在艺术创作、内容生产和商业应用中展现出巨大的潜力。 AI语言模型可以用于自动化内容生成、智能客服、文本翻译等方面，大大提升了工作效率和用户体验。AI绘画则让艺术创作变得更加便捷和多样化，不仅能够快速生成高质量的作品，还能为设计师和艺术家提供灵感。AI视频制作技术使得视频编辑和特效处理更加智能化和高效，广泛应用于影视制作、广告创意和社交媒体内容创作中。这些AI技术的应用不仅改变了传统行业的运作方式，还开辟了新的商业模式和机会。未来，随着技术的不断进步，人工智能将在更多领域发挥重要作用，为我们的生活带来更多便利和创新。 SparkAi创作系统-新一代 AIGC 系统 SparkAi创作系统是一款基于ChatGPT和Midjourney开发的智能问答和绘画系统，提供一站式 AI B/C 端解决方案，AI大模型提问、AI绘画、AI视频生成（最新发布）、文档分析、多模态识图理解、TTS & 语音识别对话、AI换脸、支持AI智能体应用（支持GPTs应用+

构建专属知识库：利用llama3和langchain技术，基于RAG模型实现个性化知识管理

LLM存在时效性和幻觉问题，在 [如何用解决大模型时效性和准确性问题？RAG技术核心原理]一文中我介绍了RAG的核心原理，本文将分享如何基于llama3和langchain搭建本地私有知识库。先决条件 * 安装ollama和llama3模型，参看 [超越GPT-3.5!Llama3个人电脑本地部署教程] * 安装python3.9 * 安装langchain用于协调LLM * 安装weaviate-client用于向量数据库 pip3 install langchain weaviate-client RAG实践 RAG需要从向量数据库检索上下文然后输入LLM进行生成，因此需要提前将文本数据向量化并存储到向量数据库。主要步骤如下： 1. 准备文本资料 2. 将文本分块 3. 嵌入以及存储块到向量数据库新建一个python3项目以及index.py文件，导入需要用到的模块： from langchain_community.document_loaders import TextLoader # 文本加载器 from langchain.text

大模型

六种策略实现本地高效部署大型语言模型(LLMs)

商业人工智能和大型语言模型 (LLM) 有一个很大的缺点：隐私。在处理敏感数据或专有数据时，我们无法从这些工具中获益。因此，我们需要了解如何在本地运行私人 LLM。开源模型提供了一种解决方案，但它们也有自己的挑战和优势。设定期望值开源软件种类繁多，有数以千计的模型可供选择，从 Meta 等大型组织提供的模型到个人爱好者开发的模型，各有不同。然而，运行这些模型也面临着一系列挑战： * 它们可能需要强大的硬件，须拥有足够的内存和一个 GPU * 尽管开源模型在不断改进，但它们的功能通常仍无法与 ChatGPT 等更完善的产品相提并论，因为 ChatGPT 得益于庞大的工程师团队的支持。 * 并非所有模型都能用于商业用途。不过，正如同谷歌的一份文件所指出的，开源和闭源模型之间的差距正在缩小。 Hugging Face 和 Transformers Hugging Face 相当于机器学习和人工智能的 Docker Hub，提供了大量开源模型。并且，Hugging Face 会定期对模型进行基准测试，并提供排行榜，帮助用户选择最佳模型。