搜索资源列表
Q
- 手机上的SLG游戏,完整的RES代码,可提学习使用
ReinforcementLearning
- 马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。 强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。 强化学习就是:追求最大回报G 追求最大回报G就是:找到最优的策略π?。 策略π?告诉在状态s,应该执行什么行动a。 最优策略可以由最优价值方法v?(s)或者q?(s,a)决定(The Markov decision process theory defines a mathematical model that can be used for the
Qlearning
- 基于Q学习实现自主选频与动态频谱接入,认知无线电(Dynamic spectrum access with Q-Learing)