题目内容

在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越( _______),采用当前q函数值最大的动作的概率越( _______)。

A. 小;大
B. 大;大
C. 大;小
D. 小;小

查看答案
更多问题

在强化学习过程中,( _______)表示随机地采取某个动作,以便于尝试各种结果;( _______)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

A. 探索;探索
B. 利用;利用
C. 探索;利用
D. 利用;探索

强化学习基本要素有哪些( _______)。

A. 状态、动作、奖励
B. 状态、动作、折扣因子
C. 动作、折扣因子、奖励
D. 状态、奖励、探索策略

“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。

A. 采样函数
B. 策略学习与优化
C. 价值函数
D. 动作-价值函数

痛风的首发症状是

A. 尿路结石
B. 间质性肾炎
C. 痛风石
D. 高尿酸血症
E. 突发性跖趾关节疼痛

答案查题题库