强化学习调参经验
指数加权平均(polyak averaging):$\tau$是加权平均系数,它相当于一个超学习率,非常敏感,增大0.01就有可能会使训练发散。一般要保证$(1-\tau)^{n}$大约在10%左右,n是一个epoch的episodes数。总之要让Actor的Loss在100个epoch内爆炸到$(1-\gamma^T)/(1-\gamma)$的大小,其中$\gamma$是discount,T是一个episode最大时间步,Critic Loss也会跟着爆炸,之后它们会慢慢减小
Replay Buffer的大小可以小一点,几百个episodes就够了,这样可以防止记住错的reward
gamma的大小可以看着每个episode step的Q值来调,如果在出现reward前后变化得过快,则应调大gamma
batchsize应根据Critic Loss的不稳定性调,如果Critic Loss波动过于剧烈,则应调大batchsize,但不应引起训练速度过慢
评论已关闭