该项目利用强化学习中的Q-学习算法,通过MATLAB实现对二维迷宫环境的自主探索与最优路径识别。系统通过构建状态-动作空间,定义智能体在迷宫中每一步动作的即时奖励与长期价值。核心功能涵盖了Q值表的初始化、基于贪婪策略的动作选择机制、利用贝尔曼方程进行的Q值持续迭代更新。智能体在大量随机尝试与经验积累后,能够学习并规避障碍物,从而寻找从起点到终点的最短步数路径。该系统不仅提供了强大的算法内核,还集成了迷宫环境的可视化模块,可以直观观察智能体在训练过程中的行为演变,适用于路径规划、自动导航及群智感知等研究领域