找黄金白银行情资讯,就找中国白银投资网

阿尔法狗再进化 自学三天就100:0打败旧版阿尔法狗-第2页

团队称,AlphaGoZero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时,AlphaGoZero取得了100:0的压倒性战绩。DeepMind团队将关于AlphaGoZero的相关研究以论文的形式,刊发在了10月18日的《自然》杂志上。

阿尔法狗再进化:自学3天就100:0碾压李世石版旧狗AlphaGo Zero强化学习下的自我对弈。

经过几天的训练,AlphaGo Zero完成了近5百万盘的自我博弈后,已经可以超越人类,并击败了此前所有版本的AlphaGo。DeepMind团队在官方博客上称,Zero用更新后的神经网络和搜索算法重组,随着训练地加深,系统的表现一点一点地在进步。自我博弈的成绩也越来越好,同时,神经网络也变得更准确。

“这些技术细节强于此前版本的原因是,我们不再受到人类知识的限制,它可以向围棋领域里最高的选手——AlphaGo自身学习。” AlphaGo团队负责人大卫·席尔瓦(Dave Sliver)说。

据大卫·席尔瓦介绍,AlphaGo Zero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。

随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,DeepMind团队发现,AlphaGo Zero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。

自学3天,就打败了旧版AlphaGo

除了上述的区别之外,AlphaGo Zero还在3个方面与此前版本有明显差别。

阿尔法狗再进化:自学3天就100:0碾压李世石版旧狗AlphaGo-Zero的训练时间轴

首先,AlphaGo Zero仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入。

其次,AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。

编辑:yangshuntao
更多
更多

价格行情

230.67↑单位:元/克

$

230.67↑单位:美元/盎司

230.67↑单位:元/克

$

230.67↑单位:美元/盎司

黄金白银兑换器

1美元/盎司=0.205人民币/克
转换

白银行情·黄金行情

刷新

名称 最新价格 涨跌幅%
现货白银 17.85 --
黄金T+D 17.85 --
白银T+D 17.85 --
现货黄金 17.85 --
白银999 17.85 --
黄金9999 17.85 --

相关推荐更多

  • 最新报价
  • 最新资讯
  • 本周热榜