有0-67个状态,从上图是他们可以狀态跳转的方向和关系
我们设定状态6是最终GDAL,目标训练agent能够从状态0,通过若干次的训练他能够知道捷径是什么:0-2-6.但一开始agent是不知道嘚。
源代码每一行都有注释有助于理解。
agent通过保存一个 q-table 用于决策的依据 ,也就是 每次更新和选取最大的情况以及累加q-value,但是q-value的值是 囚为设定的 这一点不一定符合实际 我们通过把q-value的值的变更 用神经网络替代 拟合到目标最优q-value ,可以提高agent的智能和可塑性
forward 就是前馈的意思 ,代表 执行一次 神经网络的计算
以上学习来自南昌理工ARPG游戏深度强化学习兴趣小组如有问题欢迎一起交流学习!
有0-67个状态,从上图是他们可以狀态跳转的方向和关系
我们设定状态6是最终GDAL,目标训练agent能够从状态0,通过若干次的训练他能够知道捷径是什么:0-2-6.但一开始agent是不知道嘚。
源代码每一行都有注释有助于理解。
agent通过保存一个 q-table 用于决策的依据 ,也就是 每次更新和选取最大的情况以及累加q-value,但是q-value的值是 囚为设定的 这一点不一定符合实际 我们通过把q-value的值的变更 用神经网络替代 拟合到目标最优q-value ,可以提高agent的智能和可塑性
forward 就是前馈的意思 ,代表 执行一次 神经网络的计算
以上学习来自南昌理工ARPG游戏深度强化学习兴趣小组如有问题欢迎一起交流学习!