优质文章学习记录

智元 D1 强化学习sim-to-real系列 | Robot Lab 基于 Isaac Lab 的机器人强化学习使用(四)

智元 D1 强化学习sim-to-real系列 | Robot Lab 基于 Isaac Lab 的机器人强化学习使用(四)

1. 项目简介 Robot Lab 是一个基于 NVIDIA Isaac Lab 构建的机器人强化学习扩展库,专注于为各类机器人提供标准化的强化学习训练环境。该项目允许开发者在独立的环境中进行开发,而无需修改核心 Isaac Lab 仓库。对应ISaac lab 使用需要你参考并学习。然后可以参考Isaac Sim|操作界面指南,ISAAC SIM安装与软件实践学习(二)—用户界面与工作流程,Nvidia Isaac Sim图形界面 入门教程 2024(3)学习操作。最全的资料还是我们之前讲到的isaacsim官方教程以及isaaclab翻译版本 NVIDIA的机器人平台主要由两大核心组件构成,它们之间是层级关系:基础仿真平台Isaac Sim,以及构建于其上的机器人学习应用框架Isaac Lab。要精通 Isaac Sim,必须理解其分层架构中的五个核心概念。Isaac Sim 是什么? 它是一个通用的机器人模拟器,提供了高保真的物理引擎(PhysX)和照片级的渲染技术(

Vivado 使用教程

Vivado 使用教程

目录 一、创建工程 二、创建文件 三、编写代码 四、仿真验证 五、配置管脚 六、生成Bitstream文件并烧录 一、创建工程 1.左边创建(或打开)工程,右侧可以快速打开最近打开过的工程。 2.来到这一步,命名工程并设置工程的存放路径(这里以D触发器为例) 3.选择RTL点击next。会来到添加文件环节(可以在这里添加.v等文件,不过后面再添加是一样的)直接点击next。 4.选择芯片型号(根据开发板选,这里随便选的),完成后点next会弹出信息概要,finish完成。         二、创建文件 完成上述步骤会进入当前界面: 1.工程管理器add sourse添加(创建)设计文件,创建文件后选择Verilog语言并命名。 2.定义端口(可选),若在这定义后,

飞书 × OpenClaw 接入指南:不用服务器,用长连接把机器人跑起来

你想在飞书里用上一个能稳定对话、能发图/收文件、还能按规则在群里工作的 AI 机器人,最怕两件事:步骤多、出错后不知道查哪里。这个项目存在的意义,就是把“飞书接 OpenClaw”这件事,整理成一套对非技术也友好的配置入口,并把官方文档没覆盖到的坑集中写成排查清单。 先说清楚它的角色:OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu,功能更完整、维护也更及时。这是好事,说明飞书 + AI 的接入已经走通。这个仓库并不是要替代官方插件,而是继续为大家提供: * 新用户:从零开始的新手教程(15–20 分钟) * 老用户:从旧版(独立桥接或旧 npm 插件)迁移到官方插件的保姆级路线 * 常见问题答疑 & 排查清单(最常见的坑优先) * 进阶场景:独立桥接模式依然可用(需要隔离/定制时再用) 另外,仓库也推荐了一个新项目

FPGA实现MIPI协议全解析 + MIPI协议完整时序规范

FPGA实现MIPI协议全解析 + MIPI协议完整时序规范

一、MIPI协议核心基础认知 百度网盘链接:https://pan.baidu.com/s/1rDsLAXGj8WbX82teSkhuIw?pwd=1234 提取码: 1234 包含FPGA系统学习资料,免费分享 1. MIPI协议定义与核心特点 MIPI(Mobile Industry Processor Interface,移动产业处理器接口)是由MIPI联盟制定的高速串行差分接口协议,最初为手机、平板等移动设备设计,目前广泛应用于FPGA/嵌入式的图像采集(摄像头)、显示驱动(液晶屏)、高速数据传输 场景。 核心特点: ✅ 采用差分信号传输,抗干扰能力强、EMI电磁辐射小; ✅ 支持高低速双模切换,兼顾高速大数据传输和低速控制指令传输; ✅ 串行传输,引脚数量极少(对比并行RGB的几十根引脚,MIPI仅需时钟+1~4路数据差分对),硬件设计简洁; ✅ 传输速率高:单lane(数据通道)速率可达1Gbps~

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践 * 0. 前言 * 1. 基于扩散模型的文本生成图像 * 2. 将文本输入编码为嵌入向量 * 3. 条件 UNet 模型中的文本数据融合机制 * 4. 使用 Stable Diffusion 模型生成图像 * 相关链接 0. 前言 在本节中,我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程,实现从"纯噪声+文本"生成图像,而不仅是从纯噪声生成。 1. 基于扩散模型的文本生成图像 在扩散模型的 UNet 模型训练流程中,我们仅训练模型从含噪图像中预测噪声。为实现文生图功能,需使用以下架构,将文本作为额外输入注入 UNet 模型: 这样的 UNet 模型称为条件 UNet 模型 ,或者更精确地说,是文本条件 UNet

无人机避障——Mid360+Fast-lio感知建图+Ego-planner运动规划(胎教级教程)

无人机避障——Mid360+Fast-lio感知建图+Ego-planner运动规划(胎教级教程)

电脑配置:Xavier-nx、ubuntu 18.04、ros melodic 激光雷达:Livox_Mid-360 结果展示:左边Mid360+Fast-lio感知建图,右边Ego-planner运动规划 1、读取雷达数据并显示 无人机避障——感知篇(采用Livox-Mid360激光雷达获取点云数据显示)-ZEEKLOG博客 看看雷达数据话题imu以及lidar两个话题  2、读取雷达数据并复现fast-lio  无人机避障——感知篇(采用Mid360复现Fast-lio)-ZEEKLOG博客 启动fast-lio,确保话题有输出   由于此处不需要建图,因此不打开rviz,launch文件如下修改: <launch> <!-- Launch file for Livox MID360 LiDAR --> <arg name="rviz&

DeepSeek-R1-Distill-Llama-8B实战:从安装到代码生成全流程

DeepSeek-R1-Distill-Llama-8B实战:从安装到代码生成全流程 还在为部署大模型反复折腾CUDA版本、编译依赖、显存报错而心力交瘁?想体验真正能解题、能写代码、能自主推理的轻量级模型,却卡在第一步?别再翻文档、查报错、重装系统了。本文带你用最省心的方式,在普通笔记本上跑起DeepSeek-R1-Distill-Llama-8B——它不是玩具模型,是实测在AIME数学竞赛、LiveCodeBench编程评测中稳超GPT-4o-0513的8B级蒸馏成果,且只需16GB内存+消费级显卡即可流畅运行。 这不是理论推演,而是你打开终端就能复现的完整链路:从零安装Ollama,一键拉取镜像,三步完成首次推理,再到生成可直接运行的Python函数、调试真实项目代码、甚至写出带单元测试的模块。全程不碰config文件,不调参数,不改源码,所有操作都在命令行和浏览器里完成。 1. 为什么选DeepSeek-R1-Distill-Llama-8B? 1.1 它不是“又一个8B模型”,而是有明确能力边界的推理专家 很多8B模型标榜“全能”,实际一问数学就胡说,一写代码就漏语

Bug记录:vscode中copilot登录github时报错——尚未完成授权此扩展使用 GitHub 的操作。

Bug记录:vscode中copilot登录github时报错——尚未完成授权此扩展使用 GitHub 的操作。

尝试了很多网上的方法无果,还是选择寻求deepseek的帮助,如下: 在VS Code中遇到“尚未完成授权此扩展使用 GitHub 的操作”错误时,可以按照以下步骤解决: 1. 重新启动授权流程 * 在VS Code中,按下 Ctrl+Shift+P 打开命令面板。 * 输入 GitHub: Sign In 并选择该命令。 * 按照提示在浏览器中完成授权流程。如果浏览器未自动打开,手动访问显示的链接并输入提供的验证码。 2. 清除GitHub的旧授权 * 登录GitHub,进入 Settings → Applications → Authorized OAuth Apps。 * 找到并撤销与 Visual Studio Code 或 GitHub for VSCode 相关的授权。 * 返回VS Code,重新尝试登录。 3. 退出并清除VS

Llama Factory+Qwen2.5-VL视觉语言模型实战教程

Llama Factory+Qwen2.5-VL视觉语言模型实战教程 视觉语言模型(Vision-Language Model, VLM)是当前多模态AI领域的热门方向,尤其适合自动驾驶场景中对图像和文本联合理解的需求。本文将手把手教你如何使用Llama Factory框架微调Qwen2.5-VL模型,快速构建一个能理解交通场景、回答驾驶相关问题的AI助手。这类任务通常需要GPU环境支持,目前ZEEKLOG算力平台提供了包含该镜像的预置环境,可快速部署验证。 为什么选择Llama Factory+Qwen2.5-VL组合? * Llama Factory:一个开源的轻量级大模型微调框架,提供: * 可视化训练界面 * 支持LoRA/QLoRA高效微调 * 内置多种对话模板和数据格式 * Qwen2.5-VL:通义千问团队开源的视觉语言模型,优势包括: * 支持中英文多轮对话 * 可处理图像和文本的联合输入 * 7B参数量适合消费级GPU微调 提示:该组合特别适合需要快速验证多模态任务效果的中小团队,实测在24GB显存的GPU上可完成全参数微调。 环境准备与

Stable Diffusion + kohya_ss 的安装教程

Stable Diffusion + kohya_ss 的安装教程

工具简介 * Stable Diffusion (SD): 开源的文本到图像生成模型,支持通过提示词生成高质量图像,内置自动标注功能(如BLIP、DeepBooru等)。 * kohya_ss (KS): 基于SD的轻量级微调工具,支持LoRA、DreamBooth等训练方法,优化显存占用与训练效率。 一.SD的安装 对于SD大家可以通过github链接来下载 https://git-scm.com/ Automatic 1111:https://github.com/AUTOMATIC1111 这里提供的链接,下载的SD是最基础的,如果大家想要让他有其他的扩展功能就需要下载相关的插件(后面会写一个关于下载插件的教程请大家持续关注)。 1.准备 Conda 环境 1.1 创建并激活 Conda 环境 # 创建名为 sd-webui 的环境(Python 3.10 推荐,需匹配仓库要求) conda

2026年上半年主流AIGC长文本写作软件实测:5款头部工具优缺点全解析与场景适配指南

2026年上半年主流AIGC长文本写作软件实测:5款头部工具优缺点全解析与场景适配指南

摘要 进入2026年上半年,大语言模型(LLM)的底层算力与上下文处理能力均实现了显著跨越。对于广大内容创作者而言,AIGC已不再是停留在概念层面的辅助工具,而是深度嵌入“网文连载、短剧编剧、漫剧分镜”等商业变现链路的核心生产力设施。 然而,不同模型因其训练语料分布、算法架构及商业定位的差异,在实际的“长文本工业化生产”中呈现出截然不同的优缺点。本文基于2026年上半年的真实工程测试环境,选取了目前开发者社区与创作者圈层中讨论热度最高的5款头部AI写作软件(DeepSeek、Kimi、豆包、GPT-4o、炼字工坊),进行详尽的优缺点横向解析,旨在为致力于通过文字变现的从业者提供一份严谨的工具选型拓扑图。 一、 测试方法论与环境声明 本次横测摒弃了单一的“短文本问答(QA)”模式,全面采用“长线商业化叙事”作为测试基准。 * 测试场景:包含百万字长篇网文大纲构建、3000字单章正文连贯生成、短剧剧本情绪卡点设计、以及多模态(文本到图像封面)工作流整合。 * 核心观测指标:逻辑连贯性(Logical Consistency)、文本去AI化程度(AI-Trace Bypass)

AI辅助编程工具(三) - Github Copilot

AI辅助编程工具(三) - Github Copilot

三、Github Copilot 简单来说,GitHub Copilot 是由 GitHub 和 OpenAI 共同开发的人工智能编程助手。它基于 OpenAI 的 GPT-4 等大模型,并在海量的开源代码库上进行过训练。 它的工作原理: 它不只是一个简单的“自动补全”工具。它会读取你的代码上下文——包括你刚刚写的变量名、光标所在的文件、甚至是项目中其他相关文件的代码——然后实时预测你接下来想写什么。 对于前端开发者而言,它最迷人的地方在于:它懂 React、懂 Vue、懂 Tailwind CSS,甚至懂你那不规范的代码风格。 3.1 GitHub Copilot 安装与使用 安装前的准备 在开始之前,你需要确保拥有以下条件: 1. GitHub 账号:如果没有,请先去 GitHub