查看: 191|回复: 1

在reinforcement learning中当有多种reward时一般如何处理呢?

[复制链接]

1

主题

2

帖子

11

积分

新手上路

Rank: 1

积分
11
发表于 2020-2-11 14:09:06 | 显示全部楼层 |阅读模式
(1)不特指某种RL,value-based或者policy gradient都可能遇到这个问题;
(2)多种reward可能是互相矛盾的 需要trade off(比如精度和召回);
(3)另外有个问题很好奇 是不是reward也分为因为当前(或者最近)action而获得的instant reward,以及整个trajectory对应的全局reward,它们之间是不是也存在需要平衡的地方?
(4)RL中对于reward的选择是不是非常关键呢?

回复

使用道具 举报

1

主题

33

帖子

125

积分

注册会员

Rank: 2

积分
125
发表于 2020-2-11 15:05:16 | 显示全部楼层
1 reward是强化学习中的核心概念,是价值函数的输入。而价值函数相当于agent的“价值观”,代表着agent学习目的(goal)。

2 出现多个reward的时候,我的理解是要选择其一来训练agent,也就是反映agent学习意图的那个reward。如果同时选择多个reward来训练agent,或可导致agent“精神分裂”,价值观混乱,达不到学习目的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录

本版积分规则

快速回复 返回顶部 返回列表