大模型 - 极客日志 (Page 12)

AI Agent 框架综述：智能自主性的崛起与多领域应用

AI Agent（）作为一种新兴的框架，正在逐步改变我们对自动化和智能系统的理解与应用。AI Agent不仅能够自主地感知、计划和执行决策，还能在复杂的环境中动态适应和协作，从而实现更高效、更智能的工作流程。一、AI Agent 的核心概念与架构剖析（一）定义与本质特征 AI Agent （）可被视作基于人工智能技术构建的智能实体，具备感知环境、理性决策及自主行动的能力，旨在高效达成预设目标。其核心特质在于自主性，可在复杂多变的环境中独立规划任务路径、灵活调配资源并精准执行操作，有效降低对人类持续干预的依赖。以智能客服 Agent 为例，其能实时解析用户咨询意图，自主检索海量知识库，迅速提供精准解答，在多轮交互中持续优化服务策略，充分展现出自主应变能力。（二）架构组件深度解析 AI Agent的构建离不开一系列关键组件的协同工作，这些组件共同构成了AI Agent的核心能力。 1. 预构建组件：为了简化开发过程，AI Agent通常提供一系列可重用的模块，这些模块涵盖了从数据处理到决策制定的各个方面。开发者可以根据自己的需求，选择合适的模块进行组合，从而快速构

基于 Docling、Ollama、Phi-4 与 ExtractThinker构建企业级文档智能处理

文档处理已成为各个机构日常运营中不可或缺的一部分。从合同审核到客户身份验证，从财务报告分析到交易记录审查，文档智能技术的应用极大地提高了工作效率和准确性。然而，如何在保障数据安全的前提下，充分利用LLMs的强大能力，一直是一大难题。本文介绍一个基于 Docling、Ollama、Phi-4 与 ExtractThinker构建企业级文档智能处理的解决方案。一、ExtractThinker框架概述 ExtractThinker()是一个开源框架，旨在协调OCR（光学字符识别）、分类和数据提取等流程，为LLMs提供强大的支持。它通过将不同的组件集成到一个统一的平台中，使得用户可以轻松地构建自定义的文档智能解决方案。ExtractThinker的核心优势在于其高度的灵活性和可扩展性，用户可以根据自己的需求选择适合的组件和配置，以构建最适合自己的文档智能堆栈。二、选择合适的模型：文本模型与视觉模型在搭建文档智能处理栈的初始阶段，精准判定所需模型类型至关重要。对于本地部署方案而言，纯文本模型因其广泛的可用性和相对宽松的限制条件，常常成为首选。例如，在处理大量常规文本文件时，纯文本模

大模型（LLM）工程师实战之路（含学习路线图、书籍、课程等免费资料推荐）

新春佳节，蛇年大吉！愿您在新的一年里，生活如蛇行般灵动自如，事业似蛇舞般活力四射。蛇年，愿您福运缠身，财源广进，家庭和睦，幸福安康！今天给大家推荐一些大模型（LLM）工程师相关的免费学习资料，先收藏起来哦 1. 运行LLM 运行LLM可能由于硬件要求较高而变得困难。根据你的使用场景，你可能希望通过API（如GPT-4）简单地调用模型，或者在本地运行模型（）。在任何情况下，额外的提示工程和引导技术都可以改善并约束模型的输出，以适应你的应用程序。 * LLM API：API是部署LLM的一种便捷方式。这一领域分为私人LLM（如OpenAI、Google、Anthropic、Cohere等）和开源LLM（如OpenRouter、Hugging Face、Together AI等）。 * 开源LLM：Hugging Face Hub是寻找LLM的好地方。你可以直接在Hugging Face Spaces中运行其中一些模型，或者下载并在本地应用中运行，例如通过LM Studio或使用llama.cpp或Ollama通过命令行运行。

10分钟读懂AI大模型，通俗易懂，小白也能轻松读懂！AI大模型看这一篇就够了

因为产品经理可以不懂技术，这就导致在了解新技术特别困难，下面我会用极简的方式介绍什么是AI大模型。不懂代码、不懂数学、不懂数据库，也能了解大模型。一、名词解释无论是配置模型还是使用，都会遇到一些大模型相关的特有名词，所以需要先了解这些名词是什么意思才能更好的运用它。 1.1 参数参数是指模型的大小，一般来说参数越大，模型的能力越强。大模型的参数单位一般用“B”来表示，1B代表10亿参数。以下面的两张图为例，第一张图是阿里百炼平台的模型广场，另一张图是欧拉玛的模型广场，这里面的模型基本都会按照“名称”+“版本”+“参数”的形式分类。参数的单位基本都是“B”，但是因为有些模型不是通用大模型，而只是适用于某些领域的小模型，所以参数量会比较小，单位为“K”或“M”。单位包括：K（千）、M（百万）、B（十亿）、T（万亿）。阿里云百炼欧拉玛（

简单3步，80岁老奶奶也会本地部署DeepSeek（建议偷偷学）

DeepSeek能干事情越来越多，但是也常常面临无法联网，或者拥堵的糟糕体验。如果能将DeepSeek部署在自己电脑里面，那就可以训练自己的专属AI资料库，想干啥就干啥，那岂不是很爽！理想很美好，现实太骨感！不少朋友都无法跑通全链路，更有粉丝过来求助。所以，我花了一天的时间研究了超简单的3步骤方案，现在免费分享给大家，看完你也能部署DeepSeek最强模型（就凭这一点，都值得你点赞转发给朋友）可能还有人丈二和尚摸不着头脑，为啥要部署在本地呢？我来告诉你，在本地运行 AI 模型具有以下优势： 🌟隐私：数据保留在你的设备上 — — 不存在共享敏感信息的风险； 🌟成本： DeepSeek R1 可免费使用，无需订阅费或使用费； 🌟控制：无需外部依赖即可进行微调和实验。话不多说，直接上教程，只需3步即可完成✅ 第一步，下载⬇️安装Ollama 在本地运行DeepSeek R1，你要使用到Ollama。这是一种专门为用户在自己的设备上运行AI模型而设计的工具。 https://ollama.com/download 第二步，获取 DeepSeek

大模型

把 DeepSeek 部署在你的电脑上，保姆级教程，建议收藏

本地电脑部署主要适用于以下5种场景：第一、设备性能较强，配备独立显卡，能够支撑高效运行。第二、需要处理敏感数据，对数据安全性有较高要求，以防泄露。第三、需要与本地工作流程紧密结合，应对频繁或复杂的任务处理。第四、日常频繁使用，且 API 调用成本较高，本地部署有助于降低成本。第五、希望在开源模型基础上，进行个性化定制和优化。 1、DeepSeek R1 模型部署2步搞定本部分内容将重点阐述如何在本地环境下利用 Ollama 来部署 DeepSeek R1。后续章节将详细讲解如何将 DeepSeek R1 与 Open-WebUI 系统进行集成，让交互界面更美观。第一、安装 Ollama 请访问 Ollama 的官方网站，根据你的操作系统选择合适的版本，下载 Ollama应用程序并进行安装。安装完成后，打开命令行界面并输入 ollama 命令。

大模型日报｜今日必读的 13 篇大模型论文

大家好，今日必读的大模型论文来啦！ 1.PowerInfer-2：智能手机上的快速大型语言模型推理上海交通大学团队提出了一个专为在智能手机上高速推断大型语言模型（LLM）而设计的框架——PowerInfer-2，该框架尤其适用于规模超过设备内存容量的模型。 PowerInfer-2 的关键之处在于将传统的矩阵计算分解为细粒度神经元集群计算，从而利用智能手机中的异构计算、内存和 I/O 资源。具体来说，PowerInfer-2 采用多态神经元引擎，可针对 LLM 推断的各个阶段调整计算策略。此外，它还引入了分段神经元缓存和细粒度神经元集群级流水线，有效地减少和隐藏了 I/O 操作造成的开销。 PowerInfer-2 的实现和评估证明，它有能力在两款智能手机上支持多种 LLM 模型，与 SOTA 框架相比，速度最多提高了 29.2 倍。值得注意的是，PowerInfer-2 是首个在智能手机上以 11.68 token/s 的生成速度为 TurboSparse-Mixtral-47B

LLM模型从入门到精通：一文盘点市面上LLM资源

LLM(Large Language Model, 大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务，包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。其主要功能和特点如下：「架构特点：」 LLM主要基于Transformer架构，该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。Transformer通过自注意力机制（Self-Attention）来捕捉文本中的长距离依赖关系，无需像循环神经网络（RNN）那样逐词递归处理，从而实现了并行计算，大大提高了训练和推理速度。典型的LLM结构包括： * Encoder-Decoder结构：如用于机器翻译的模型。Encoder将输入文本编码成一个固定长度的上下文向量，Decoder 则依据该上下文向量生成目标语言的文本输出。 * Encoder-only结构：如BERT等。主要用于文本理解任务，

AI大模型实战，一文搞定大模型核心架构，超详细

在人工智能技术高速发展的今天，AI大模型的应用范围不断拓宽。从自然语言处理到技术研发、从教育场景到企业服务，AI大模型正在逐步改变我们的工作和生活。然而，随着需求的多样化和任务复杂性的增加，如何高效地调用和管理多个AI大模型，成为了企业和开发者面临的一大挑战。本文将深入剖析基于Ollama的AI大模型问答调度架构，探讨其核心设计、功能亮点，以及在业务场景中的应用优势，帮助您全面了解这一系统如何在复杂多变的场景中实现快速、准确的问答服务。一、核心架构解析：从分布式设计到实时通信基于Ollama的问答调度架构设计充分考虑了高并发任务的复杂性和多样化需求。通过分布式节点设计、实时通信机制和多功能客户端模块的协同工作，该架构实现了高效、智能的任务处理。 1.1 分布式节点设计：灵活的模型负载管理架构的核心由多个分布式节点组成（节点1、节点2……节点N）。 * 节点内部功能：每个节点都集成了一个或多个AI大模型（如Llama、Qwen等），并通过内部HTTP协议提供高效的模型调用能力。 * 负载均衡：分布式节点的设计为任务的动态分配提供了弹性。当某一节点达到负载上

太炸裂了，Ollama跑本地模型已成为历史，现在都在使用这个工具，而且还能集成本地知识库

AI的发展速度真是超出我们的想象，遥想几个月前，我还在使用Ollama跑本地大模型，最近有另一款可以跑本地大模型的工具迅速崛起，在GitHub上已有70.3K Stars，相信不久就会超越Ollama，除了可以本地运行大模型之外，还可以当作本地知识库使用，查询本地的文档信息结合大模型进行回答，真可谓太方便了。更重要的是，完全免费，可商用，这个工具就是：GPT4ALL。地址文末免费领取！下载安装GPT4ALL 大家可以在上面的地址下载后进行傻瓜式安装，只需下一步下一步的点即可，无门槛。（官网） ----------- 下载模型安装后打开页面如下图所示：（工具主页）我们可以先对模型进行搜索，然后去选择下载一个模型，他会给我们列出来模型的基本信息，包括模型大小，运行时需要多大内存，参数是多少，多少位进行的量化，属于什么类型的。（搜索模型）这里我们选择一个最小的下载，搜索后下载一个【Qwen2-0.5B-Instruct-GGUF】。（如果下载不了，请考虑科学上网）（下载模型）下载成功（模型下载成功） ----------- 与模型对话

开源RAG UI：构建清晰、强大且易于定制的用户界面体验

kotaemon：一个开源的干净且可定制的RAG UI，用于构建和定制自己的文档问答系统。既考虑了最终用户的需求，也考虑了开发者的需求。 kotaemon为想要在他们的文档上进行问答（QA）的最终用户，以及想要构建自己的RAG流程的开发者提供了一个功能性的RAG UI。 +----------------------------------------------------------------------------+```| 最终用户：使用`kotaemon`构建的应用程序的用户。|```| （您使用的应用程序类似于上面的演示示例） |``| +----------------------------------------------------------------+ |```| | 开发者：使用`kotaemon`构建应用程序的人。| |````| | （您的项目中某处有`import kotaemon`） |

大模型

Ollama v0.4 可运行 Llama 3.2 Vision 啦

Llama 3.2 Vision 现已可在 Ollama 中运行，提供 11B 和 90B 两种规模。入门指南下载 Ollama 0.4，然后运行以下命令： ollama run llama3.2-vision 要运行更大的 90B 模型： ollama run llama3.2-vision:90b 要将图像添加到提示中，拖放图像到终端，或在 Linux 中将图像路径添加到提示中。注意：Llama 3.2 Vision 11B 至少需要 8GB 的 VRAM，90B 模型至少需要 64GB 的 VRAM