我QQ8920,55536 能不能加我给我一个QQ号分享一下海贼王的资源

有0-67个状态,从上图是他们可以狀态跳转的方向和关系
我们设定状态6是最终GDAL,目标训练agent能够从状态0,通过若干次的训练他能够知道捷径是什么:0-2-6.但一开始agent是不知道嘚。

源代码每一行都有注释有助于理解。

agent通过保存一个 q-table 用于决策的依据 ,也就是 每次更新和选取最大的情况以及累加q-value,但是q-value的值是 囚为设定的 这一点不一定符合实际 我们通过把q-value的值的变更 用神经网络替代 拟合到目标最优q-value ,可以提高agent的智能和可塑性
forward 就是前馈的意思 ,代表 执行一次 神经网络的计算


以上学习来自南昌理工ARPG游戏深度强化学习兴趣小组如有问题欢迎一起交流学习!

有0-67个状态,从上图是他们可以狀态跳转的方向和关系
我们设定状态6是最终GDAL,目标训练agent能够从状态0,通过若干次的训练他能够知道捷径是什么:0-2-6.但一开始agent是不知道嘚。

源代码每一行都有注释有助于理解。

agent通过保存一个 q-table 用于决策的依据 ,也就是 每次更新和选取最大的情况以及累加q-value,但是q-value的值是 囚为设定的 这一点不一定符合实际 我们通过把q-value的值的变更 用神经网络替代 拟合到目标最优q-value ,可以提高agent的智能和可塑性
forward 就是前馈的意思 ,代表 执行一次 神经网络的计算


以上学习来自南昌理工ARPG游戏深度强化学习兴趣小组如有问题欢迎一起交流学习!

我要回帖

更多关于 登录我的QQ 的文章

 

随机推荐