一文带你速通RAG、知识库和LLM!
检索增强生成(Retrieval Augmented Generation,RAG)是一种强大的工具,它通过将企业外部知识整合到生成过程中,增强了大语言模型(LLM)的性能。 RAG本质上是通过工程化手段,解决LLM知识更新困难的问题。其核心手段是利用外挂于LLM的知识数据库(通常使用向量数据库)存储未在训练数据集中出现的新数据、领域数据等。通常而言,RAG将知识问答分成三个阶段:索引、知识检索和基于内容的问答。 企业中使用RAG的主要目的是增强大模型,为大模型提供能力提升,目前主要是以下几方面: * a) 减少大模型在回答问题时的幻觉问题 * b) 让大模型的回答可以附带相关的来源和参考 * c) 消除使用元数据注释文档的需要 RAG的7大关键组成部分 接下来我们一起来看看组成RAG的7大关键组成部分。 第一、自定义知识库(Custom Knowledge) 定制知识库是指一系列紧密关联且始终保持更新的知识集合,它构成了 RAG 的核心基础。这个知识库可以表现为一个结构化的数据库形态(比如:MySQL),也可以表现为一套非结构化的文档体系(比如:文件、图图片、音