打造本地大模型地基,PVE 配置显卡直通

打造本地大模型地基,PVE 配置显卡直通

本文将详细介绍如何在虚拟化平台 Proxmox Virtual Environment(PVE)配置显卡直通,将宿主机上的物理显卡直接分配给 AI 虚拟机使用。

1. 环境介绍

1.1 硬件环境

  • 服务器: 科脑 X99-D4、2*32G DDR4 内存、Intel E5-2683 v4
  • 显卡:NVIDIA P104-100
  • BIOS:开启 VT-x/VT-d 类似的虚拟化扩展

本文选择纯矿卡 NVIDIA P104-100 作为演示,配置方法同样适用于其他型号显卡。

1.2 软件环境

  • 虚拟化平台:Proxmox Virtual Environment 8.0.4
  • AI 虚拟机: ubuntu 22.04

本文选择 ubuntu 22.04 作为演示,配置方法同样适用于其他操作系统。

2. 配置 PVE 开启显卡直通

2.1 开启 IOMMU 功能

  • 配置 Grub 配置文件,vi /etc/default/grub
ini
复制代码
# 修改 GRUB_CMDLINE_LINUX_DEFAULT 配置为
​
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt initcall_blacklist=sysfb_init pcie_acs_override=downstream"
​
#注意:pve 7.2 以前版本使用
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt video=efifb:off,vesafb:off pcie_acs_override=downstream"
说明:
  • intel_iommu=on 开启IOMMU
  • iommu=pt 让内核驱动设备性能更高,并且防止Linux将不能直通的设备直通
  • initcall_blacklist=sysfb_init 替代老版本中的 video=efifb:off,vesafb:off
  • pcie_acs_override=downstream 用于将iommu groups拆分,方便一些板载设备的直通。
  • 更新 GRUB
typescript
复制代码
update-grub
​
# 正确的结果如下
root@pve9:~# update-grub
Generating grub configuration file ...
Found linux image: /boot/vmlinuz-6.2.16-8-pve
Found initrd image: /boot/initrd.img-6.2.16-8-pve
Found linux image: /boot/vmlinuz-6.2.16-3-pve
Found initrd image: /boot/initrd.img-6.2.16-3-pve
Found memtest86+x64 image: /boot/memtest86+x64.bin
done
  • 加载对应的内核模块
javascript
复制代码
echo vfio >> /etc/modules
echo vfio_pci >> /etc/modules
echo vfio_iommu_type1 >> /etc/modules
# echo vfio_virqfd >> /etc/modules # pve8 不需要配置
  • 重启 PVE 系统
复制代码
reboot
  • 验证是否成功 启用IOMMU
ini
复制代码
dmesg | grep -E "DMAR|IOMMU"
​
# 正确的关键结果如下
root@pve9:~# dmesg | grep -E "DMAR|IOMMU"
[    0.000000] Warning: PCIe ACS overrides enabled; This may allow non-IOMMU protected peer-to-peer DMA
[    0.142816] DMAR: IOMMU enabled
[    1.036519] DMAR: Intel(R) Virtualization Technology for Directed I/O
  • 验证 VFIO 模块
perl
复制代码
dmesg | grep -i vfio
​
# 正确的结果如下
root@pve9:~# dmesg | grep -i vfio
[    3.759097] VFIO - User Level meta-driver version: 0.3
  • 验证是否支持 中断重映射
ini
复制代码
dmesg | grep 'remapping'
​
# 正确的结果如下
# intel
[    0.175675] DMAR-IR: Queued invalidation will be enabled to support x2apic and Intr-remapping.
[    0.177198] DMAR-IR: Enabled IRQ remapping in x2apic mode
​
# 但是我的环境比较特殊,即使 BIOS 里开启了 X2APIC,也会报错,所以启用了 2.3 小节的 允许不安全的中断设置。不影响显卡的直通使用。
root@pve9:~# dmesg | grep 'remapping'
[    0.390774] DMAR-IR: Enabled IRQ remapping in xapic mode
[    0.390775] x2apic: IRQ remapping doesn't support X2APIC mode

2.2 开启显卡直通

  • 屏蔽默认驱动
bash
复制代码
# 直通 NVIDIA 显卡,请使用下面命令
echo "# NVIDIA" >> /etc/modprobe.d/blacklist.conf 
echo "blacklist nouveau" >> /etc/modprobe.d/blacklist.conf 
echo "blacklist nvidia" >> /etc/modprobe.d/blacklist.conf 
echo "blacklist nvidiafb" >> /etc/modprobe.d/blacklist.conf
echo "blacklist nvidia_drm" >> /etc/modprobe.d/blacklist.conf
echo "" >> /etc/modprobe.d/blacklist.conf
​
# 直通 AMD 显卡,请使用下面命令
echo "# AMD" >> /etc/modprobe.d/blacklist.conf
echo "blacklist amdgpu" >> /etc/modprobe.d/blacklist.conf
echo "blacklist radeon" >> /etc/modprobe.d/blacklist.conf
​
# 本文服务器 NVIDIA 和 AMD 显卡各有一块,因此都执行

2.3 其他有用的配置

  • 允许不安全的中断
bash
复制代码
## 其他参数配置
# 允许不安全的中断
echo "options vfio_iommu_type1 allow_unsafe_interrupts=1" > /etc/modprobe.d/iommu_unsafe_interrupts.conf
  • 为 NVIDIA 卡添加稳定性修复和优化
bash
复制代码
echo "options kvm ignore_msrs=1 report_ignored_msrs=0" > /etc/modprobe.d/kvm.conf
# 忽略异常,防止虚拟机异常导致宿主机崩溃
#   ignore_msrs             :   忽略异常
#   report_ignored_msrs     :   是否报告异常

2.4 更新内核引导文件

  • 更新内核引导文件
sql
复制代码
update-initramfs -k all -u
​
# 正确的执行结果如下
root@pve9:~# update-initramfs -k all -u
update-initramfs: Generating /boot/initrd.img-6.2.16-8-pve
Running hook script 'zz-proxmox-boot'..
Re-executing '/etc/kernel/postinst.d/zz-proxmox-boot' in new private mount namespace..
No /etc/kernel/proxmox-boot-uuids found, skipping ESP sync.
update-initramfs: Generating /boot/initrd.img-6.2.16-3-pve
Running hook script 'zz-proxmox-boot'..
Re-executing '/etc/kernel/postinst.d/zz-proxmox-boot' in new private mount namespace..
No /etc/kernel/proxmox-boot-uuids found, skipping ESP sync.
  • 重启系统
复制代码
reboot

3. 创建虚拟机验证测试

3.1 创建虚拟机并添加显卡

在 PVE 系统中创建 ubuntu 虚拟机,过程略。

添加 NVIDIA P104-100 显卡到虚拟机。

  • 选择要添加显卡的虚拟机
  • 「硬件」->「添加」,选择 PCI 设备
www.zeeklog.com  - 打造本地大模型地基,PVE 配置显卡直通
www.zeeklog.com  - 打造本地大模型地基,PVE 配置显卡直通
  • 选择对应的显卡设备,并勾选所有功能
www.zeeklog.com  - 打造本地大模型地基,PVE 配置显卡直通
www.zeeklog.com  - 打造本地大模型地基,PVE 配置显卡直通
  • 配置完成后,点击「添加」按钮,最后启动虚拟机。

3.2 虚拟机内部验证

虚拟机启动后需要安装显卡驱动,本文仅为了演示 PVE 开启显卡直通功能。至于如何在虚拟机里安装显卡驱动,后续会有专文介绍。

显卡驱动安装完成后,执行 NVIDIA 自带的管理命令,查看显卡信息。

sql
复制代码
ubuntu@ubuntu:~$ nvidia-smi 
Sat May  4 09:42:36 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA P104-100                On  |   00000000:00:10.0 Off |                  N/A |
| 72%   35C    P8              6W /  180W |       2MiB /   8192MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

以上,就是今天分享的内容,后续我会分享更多关于大模型、Ollama 的内容。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

www.zeeklog.com  - 打造本地大模型地基,PVE 配置显卡直通
www.zeeklog.com  - 打造本地大模型地基,PVE 配置显卡直通

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

Read more

前端防范 XSS(跨站脚本攻击)

目录 一、防范措施 1.layui util  核心转义的特殊字符 示例 2.js-xss.js库 安装 1. Node.js 环境(npm/yarn) 2. 浏览器环境 核心 API 基础使用 1. 基础过滤(默认规则) 2. 自定义过滤规则 (1)允许特定标签 (2)允许特定属性 (3)自定义标签处理 (4)自定义属性处理 (5)转义特定字符 常见场景示例 1. 过滤用户输入的评论内容 2. 允许特定富文本标签(如富文本编辑器内容) 注意事项 更多配置 XSS(跨站脚本攻击)是一种常见的网络攻击手段,它允许攻击者将恶意脚本注入到其他用户的浏览器中。

详细教程:如何从前端查看调用接口、传参及返回结果(附带图片案例)

详细教程:如何从前端查看调用接口、传参及返回结果(附带图片案例)

目录 1. 打开浏览器开发者工具 2. 使用 Network 面板 3. 查看具体的API请求 a. Headers b. Payload c. Response d. Preview e. Timing 4. 实际操作步骤 5. 常见问题及解决方法 a. 无法看到API请求 b. 请求失败 c. 跨域问题(CORS) 作为一名后端工程师,理解前端如何调用接口、传递参数以及接收返回值是非常重要的。下面将详细介绍如何通过浏览器开发者工具(F12)查看和分析这些信息,并附带图片案例帮助你更好地理解。 1. 打开浏览器开发者工具 按下 F12 或右键点击页面选择“检查”可以打开浏览器的开发者工具。常用的浏览器如Chrome、Firefox等都内置了开发者工具。下面是我选择我的一篇文章,打开开发者工具进行演示。 2. 使用

Cursor+Codex隐藏技巧:用截图秒修前端Bug的保姆级教程(React/Chakra UI案例)

Cursor+Codex隐藏技巧:用截图秒修前端Bug的保姆级教程(React/Chakra UI案例) 前端开发中最令人头疼的莫过于那些难以定位的UI问题——元素错位、样式冲突、响应式失效...传统调试方式往往需要反复修改代码、刷新页面、检查元素。现在,通过Cursor编辑器集成的Codex功能,你可以直接用截图交互快速定位和修复这些问题。本文将带你从零开始,掌握这套革命性的调试工作流。 1. 环境准备与基础配置 在开始之前,确保你已经具备以下环境: * Cursor编辑器最新版(v2.5+) * Node.js 18.x及以上版本 * React 18项目(本文以Chakra UI 2.x为例) 首先在Cursor中安装Codex插件: 1. 点击左侧扩展图标 2. 搜索"Codex"并安装 3. 登录你的OpenAI账户(需要ChatGPT Plus订阅) 关键配置项: // 在项目根目录创建.