任务概览¶
本项目是一个专门用于评估智能体探索和导航能力的基准,它以具有挑战性的清理室内的所有纸团任务为中心,要求智能体在有多个房间、每个房间中有多个障碍物的复杂室内环境中收集散落在地面上的纸团。纸团的位置和数量是随机的,同时智能体的初始位置也是随机的,当智能体访问完成整个室内空间并清理所有纸团后(成功),或者智能体移动步数大于上限后(失败),任务结束。
任务场景如下图所示:
图 1. 任务环境
主要挑战¶
- 探索与覆盖:环境拓扑复杂,存在房间之间的门、通道约束,智能体需要在未知、多房间、多障碍的环境中高效探索并确保空间覆盖完整,需权衡“探索未知区域”与“返回未清理区域”的策略。
- 感知与目标识别:随机分布的纸团在部分可观测环境下对感知与定位提出挑战,智能体需在视觉混乱场景中准确检测、建图并维护目标状态。
- 规划与决策:在随机初始位置和动态感知反馈下,智能体需动态规划路径与动作序列以实现任务最优完成,当目标与空间状态变化时,需具备实时重新规划能力。
任务实施¶
- 本基准构建于 TongSIM 仿真平台之上,提供可配置的真实室内环境用于智能体的训练与评估。
- 强化学习环境遵循 Gymnasium 接口规范进行封装,确保与主流强化学习工具链的兼容性。
- 基线智能体基于
Stable-Baselines3框架进行训练,可实现不同算法间的可复现性能对比。此外,系统支持 人类接入测试,允许人类参与者与环境交互,用于定性评估和行为对比分析。