2020年11月

安装花生壳客户端启动sudo phddns enable登陆hsk.oray.com/console/manage/并在账号列表中添加SN码使用SN码和默认密码登陆http://b.oray.com并绑定账号,增加映射,使用相应模板,并填入对应内网IP,使用动态端口即可

展开阅读

指数加权平均(polyak averaging):$\tau$是加权平均系数,它相当于一个超学习率,非常敏感,增大0.01就有可能会使训练发散。一般要保证$(1-\tau)^{n}$大约在10%左右,n是一个epoch的episodes数。总之要让Actor的Loss在100个epoch内爆炸到$(1-\gamma^T)/(1-\gamma)$的大小,其中$\gamma$是discount,...

展开阅读