素材网站推荐国内网站 专做国外视频

张小明 2026/1/5 9:14:39
素材网站推荐,国内网站 专做国外视频,北京建网站的价格,某网站建设方案《A Deep Reinforcement Learning Approach Using Asymmetric Self-Play for Robust Multirobot Flocking》2025年发表在IEEE Transactions on Industrial Informatics一、文章背景多机器人集群控制#xff08;简单说就是让一群机器人协同移动#xff09;在物流、搜救这些实际…《A Deep Reinforcement Learning Approach Using Asymmetric Self-Play for Robust Multirobot Flocking》2025年发表在IEEE Transactions on Industrial Informatics一、文章背景多机器人集群控制简单说就是让一群机器人协同移动在物流、搜救这些实际场景里很有用核心是让机器人凑在一起不碰撞还能顺利到达目标地。但现实环境没那么简单不仅有固定障碍物还有会主动干扰的 “敌对机器人”比如故意撞过来破坏队形而且机器人之间还不能通信只能靠自己看到的局部信息做决策。现有方法存在明显局限传统集群控制方法如人工势场法、模型预测控制依赖对环境和智能体的精确、全面建模导致实际应用成本高在复杂动态场景中可行性受限无法应对未预定义的对抗性干扰近年来兴起的深度强化学习DRL方法虽凭借强特征提取和决策能力成为替代方案但现有 DRL-based 集群框架大多仅能处理静态障碍物或行为固定、路径简单的动态障碍物缺乏对环境不确定性的鲁棒性且难以扩展到任意数量的机器人集群未充分考虑对抗性环境中 “智能体 - 干扰体” 的动态交互策略泛化能力不足。为了解决传统方法的不足 文章提出来了基于不对称自玩 的 DRL 框架核心思路就是让机器人在对抗中练本事用不对称自玩让集群机器人和可学习的敌对干扰体一起训练干扰体越练越聪明机器人也能跟着提升应对复杂干扰的能力比单纯面对固定规则的干扰更有效。分两阶段训练第一阶段让两者同步练积累不同水平的干扰策略第二阶段让机器人对着这些积累的干扰策略再练提升泛化能力避免只会应对一种干扰。加辅助训练模块让机器人学会预测下一步的环境变化减少对未知环境的迷茫提升适应力。用注意力机制不管机器人数量多少都能快速聚焦关键信息比如哪个队友近、哪个干扰体威胁大解决了机器人数量变化带来的适配问题。二、核心方案文章的核心技术方案是ASFCAsymmetric Self-play-empowered Flocking Control框架基于深度强化学习DRL融合不对称自玩、注意力机制和辅助训练模块针对性解决动态对抗环境下的多机器人集群控制问题。ASFC 遵循 “集中式训练、分布式执行” 范式核心目标是让无通信能力的机器人仅通过局部观测在静态障碍物 动态对抗干扰体的环境中实现 “避碰、队形保持、高效抵达目标” 三大任务。技术方案围绕 “提升鲁棒性、泛化性、扩展性” 展开分为五大核心模块。1两阶段不对称自玩训练通过 “机器人与可学习干扰体的对抗训练” 提升策略智能分两阶段实现鲁棒性与泛化性的双重优化设计目的让机器人在 “不断升级的对抗压力” 中学习避免仅适应单一干扰模式同时积累多样化干扰策略以提升泛化能力。阶段 1同步训练干扰体智能提升机器人集群与干扰体集群同步训练两者目标对立机器人需保持队形避碰干扰体主动撞击机器人以破坏集群。每间隔个训练回合将当前干扰体的网络参数策略保存到 “干扰体模型池 W”积累不同智能水平的干扰策略。训练环境15m×15m 场景5 个机器人 5 个干扰体 2 个静态障碍物机器人初始化于边缘区域目标为场景中心对称点。阶段 2对抗模型池泛化能力强化机器人不再与实时训练的干扰体对抗而是从模型池 W 中采样干扰体策略组成 “对抗团队” 进行训练。采样机制① 智能体级采样个干扰体可组合种干扰团队为模型池数量提升环境多样性② 加权采样根据干扰体模型的历史累积奖励调整采样概率优先选择更强的干扰策略实现 “课程学习”从易到难。训练环境扩展为 25m×25m 场景8 个机器人 6 个干扰体 5 个静态障碍物进一步提升任务复杂度。核心优势相比单一阶段训练机器人能适应 “不同强度、不同模式” 的动态干扰泛化能力显著提升。2) 动作与价值学习网络核心架构采用双注意力机制解决 “机器人数量扩展性” 和 “局部 - 全局信息融合” 问题分为动作生成演员网络和价值评估评论家网络两部分设计目的让框架适配任意数量的机器人集群同时让机器人在无通信条件下间接利用全局信息优化决策。1动作学习特征级注意力输入机器人的局部观测自身状态、目标相对位置、三通道局部网格图、周边机器人 / 干扰体状态。具体流程特征嵌入通过卷积神经网络CNN处理局部网格图 多层感知机MLP处理向量型输入拼接得到 “自身特征”。特征级注意力聚合以为查询Query对周边机器人特征和干扰体特征计算注意力权重聚合关键信息其中是归一化注意力权重通过 Softmax 计算用于聚焦 “威胁最大的干扰体” 或 “距离最近的队友”。动作生成将与拼接为特征输入两层 MLP 组成的演员网络通过 Softmax 采样离散动作线性 角速度组合。干扰体动作学习网络架构与机器人一致但观测范围为全局可获取所有机器人 / 干扰体状态动作空间略调整线性速度上限 0.38m/s机器人为 0.5m/s。2价值学习智能体级注意力设计目的在执行阶段无通信但训练阶段让机器人聚合全局信息提升价值评估的准确性。具体流程局部总特征机器人 i 的局部特征与集群特征自身与集群中心的相对距离 / 角度拼接为。全局信息聚合通过智能体级注意力计算其他机器人 j 的特征重要性聚合全局信息价值生成将与拼接输入两层 MLP 组成的评论家网络输出状态价值。优化算法采用 PPOProximal Policy Optimization算法分别优化演员网络和评论家网络学习率。3辅助训练模块环境动态学习设计目的让机器人学习环境状态转移规律减少对未知环境的不确定性提升适应能力。核心功能基于当前局部特征和执行动作预测下一时刻的局部网格图。实现方式解码器结构由 MLP 多层反卷积层组成输入为和输出为预测的三通道网格图尺寸与输入一致。监督信号由模拟器提供真实的下一时刻网格图采用交叉熵损失优化预测精度总损失融合将辅助损失与 PPO 的策略损失、价值损失、熵损失加权融合联合优化4奖励函数设计任务导向优化通过差异化奖励引导机器人与干扰体的行为确保任务目标达成1机器人奖励函数目标抵达奖励鼓励机器人向目标移动抵达目标区域距离获得固定奖励未抵达时根据距离变化给予增量奖励。队形保持奖励仅当机器人与集群中心距离 且航向偏差 时给予组合奖励中心保持奖励 航向一致奖励)。避碰惩罚碰撞时给予强惩罚与干扰体距离 或与障碍物距离 时按距离平方的倒数给予梯度惩罚。2干扰体奖励函数核心逻辑鼓励干扰体主动接近并碰撞机器人同时避免自身碰撞无关物体。5观察与动作空间设计基础环境交互1观察空间机器人观察局部范围自身状态线性 / 角速度、目标相对位置距离 / 角度、三通道局部网格图近 3 个时刻分别标记自由空间 / 静态障碍物 / 机器人 / 干扰体、周边机器人 / 干扰体的相对状态距离 / 角度 / 航向差。干扰体观察全局范围自身状态、全局网格图、所有机器人 / 干扰体的全局状态观测维度高于机器人。2动作空间离散化设计动作由 “线性速度 角速度” 组合而成共 36 种可选动作。机器人线性速度 {0, 0.15, 0.3, 0.5} m/s角速度 {-2, -1.2, -0.8, -0.3, 0, 0.3, 0.8, 1.2, 2} rad/s。干扰体线性速度 {0, 0.15, 0.3, 0.38} m/s角速度与机器人一致。三、实验结果以下为论文中的实验图表实验结果中的ASFC的采样行为还证明了机器人能够在保持预期群聚行为的同时避开各种干扰体的影响。这是ASFC和基线方法在三种不同场景中的表现 体现了ASFC更优越的泛化能力四、总结论文主要提出两阶段不对称自玩范式提升鲁棒性设计双注意力机制保障扩展性通过辅助模块降低环境不确定性且经仿真与物理实验验证了框架的优越性。论文采用方法达到了以下效果避碰能力强能躲开固定障碍物和主动干扰的敌对机器人队形稳能保持集群中心、和队友方向一致效率高少走弯路快速到达目标地适配性好不管机器人数量怎么变都能用泛化性强面对不同类型的干扰随机动、有策略动等都能应对还能在真实机器人上落地使用不是只停留在模拟里。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

男女做那个什么的视频网站wordpress 简介主题

在日常视频处理或老旧内容迁移工作中,我们有时需要将网页动画常用的SWF视频格式转换为更兼容旧设备或特定播放环境的RM视频格式。通过将SWF视频格式转换为RM视频格式,可以有效提升文件在这些环境中的兼容性和可播放性。 接下来,我们将详细介绍…

张小明 2025/12/31 13:56:30 网站建设

龙城网站建设百润网站建设

LobeChat 的 API 接口在哪里?开发者如何与它“对话” 在如今这个大模型遍地开花的时代,越来越多的开发者不再满足于仅仅使用现成的 AI 聊天界面。他们更希望把强大的语言能力嵌入到自己的系统中——比如企业内部的知识助手、自动化客服流程,或…

张小明 2025/12/31 13:56:27 网站建设

做网站被网警找网站建设在哪个会计科目核算

Langchain-Chatchat问答系统灰度期间服务健康检查 在企业级AI应用逐步落地的今天,一个看似简单的“智能客服”背后,往往隐藏着复杂的系统架构与严苛的稳定性要求。尤其当这套系统承载的是金融、医疗或法律领域的私有知识时,任何一次服务中断、…

张小明 2025/12/31 13:56:24 网站建设

北京建设网站圣辉友联为传销做网站

前端 ES6 与 ESNext 特性全解析 ES6(ECMAScript 2015)作为JavaScript发展的重要转折点,带来了诸多革命性特性,显著提升了开发效率。此后,ES7、ES8等后续版本以及ESNext持续推动着JavaScript的演进。 ES6(…

张小明 2025/12/31 13:56:21 网站建设

如何搭建自己的网站服务器计算机前端开发工资多少

JAVA老炮儿的CMS文档神器:KindEditor全能插件(680元搞定!) 兄弟,作为刚接企业官网外包的JAVA程序员,我太懂你现在的处境了——客户要新闻发布模块支持Word/Excel/PPT/PDF导入Word粘贴,还要保留…

张小明 2025/12/31 13:56:18 网站建设

浙江联科网站建设广州南沙建设交通网站

Vite-Vue3-Lowcode:可视化拖拽开发平台的完整入门指南 【免费下载链接】vite-vue3-lowcode vue3.x vite2.x vant element-plus H5移动端低代码平台 lowcode 可视化拖拽 可视化编辑器 visual editor 类似易企秀的H5制作、建站工具、可视化搭建工具 项目地址: ht…

张小明 2025/12/31 13:56:14 网站建设