<dl id='rjV7Q'></dl>

      <acronym id='wkgr'><em id='xp'></em><td id='F9'><div id='lD'></div></td></acronym><address id='YHKz'><big id='8nJwi'><big id='apcS'></big><legend id='g9'></legend></big></address>

      <code id='go'><strong id='mibT'></strong></code>

        陈静:为什么AlphaGo从一开始就向Go学习?

        水文科学2019-12-10 21:52:15隆下巴浏览:1421

        陈静:为什么AlphaGo从一开始就向Go学习?

        数据卡来源:观察家网络1. AlphaGo从头开始,了解算法框架的新版本和评级点的性能,2017年10月18日,发布了备受期待的AlphagGo in Nature。 Deepmind开发了一个名为AlphaGoZero的新版本,该版本仅使用一种策略通过价值调整后的神经网络下棋。从休闲散步开始学习游戏,不需要人工游戏。新的强化学习策略非常有效,在短短三天内,AlphaGoZero就能击败AlphaGoLee的100%,这在2016年3月引起了全世界的轰动。经过21天的学习,它达到了师父的力量(师父于2017年5月3-0赢得了第一个人类科杰)。40天后,它可以以90%的胜率击败冠军,成为最强大的围棋程序。另外,AlphaGoZero的计算过程通过神经网络直接指示叶节点的增益率。

        它不必快速移动,并且可以节省大量的计算资源。只需要4个TPU(AlphaGoLee为48个)。从Goratings得分实际上,AlphaGoZero可以与Master进行比较,仅超过300分。这对应于这篇文章发表的那一天,第一个人类“科杰”第9节的3667分与38岁的当红主播孟泰玲的3426分之间的差额。两个人肯定在两者之间存在差距。的力量,但仍然存在差异。该报纸出版了83部AlphaGoZero游戏,其中包括20部大师级游戏。

        师父也赢得了第11场比赛的胜利。新版本的AlphaGo已从头开始成功培训。这个结果远远超出我的预期。

        我认为行业中的许多人都感到震惊。我原本希望对Master的算法进行解码,以了解他为什么会粉碎人类大师。 AlphaGo退缩,以为Deepmind Go无法学习。

        剩下的任务是在《自然》中发布算法主版本的详细信息。

        腾讯的AI和其他AI可以找到发展方向,以克服当前的实力不足。新版本最初在5月的Wuzhen Go会议上发布,将于6月发布,供开发人员参考。

        从零知识中学习是一个有趣的想法。

        2016年3月,人机战胜李世石后,狂风袭来。人们期望这种版本的“洞穴中的洞穴”会问世。但是,似乎没有任何进展,乌镇也没有提及。几个月来,新论文还没有出来。

        Unshakable显然已经进入了开发瓶颈,并且一直对人类以及DeepZenGo和CGI丢失。拼命使用AlphaGo的任何AI都需要Deepmind来介绍新的想法和细节。八月份,我在玩《星际争霸》时没有关于AlphaGo的文章。我从零知识开始学习,并学习人类视频。两种方法都不好。在这一点上,我认为让AlphaGo从零知识中学习可能不是很成功。被困在局部陷阱中的人类象棋可以提供“高起点”,而高AI仍需要人类“首先推动”。

        实际上,Deepmind团队认为仅在“自然”级别上撰写Master的文章还不够。

        新论文的标题是“精通无人类知识的游戏”,这个主题的升华就足够了。

        师父已经用人类象棋训练了初始策略网络,尽管学习后人类的影响力很小,但是人类的知识仍然具有影响力。对于那些不了解Go或不关心算法细节的人,Master比AlphaGoLee更强大:被击败的Ke Jie和Li Shishi是顶级玩家。主人的创新也必须被理解。 AlphaGoZero是从头开始的真正培训。整个学习过程与人无关。都是自学的。这个哲学意义仍然很大。在人类或其他版本中,仅检查国际象棋的力量绝非易事。二。算法的实际突破是可以实现主版本AlphaGoLee的技术很难掌握,因此需要进行真正的更改。神经网络的架构必须改变很多,学习过程必须取得突破。 AI,DeepZenGo和其他AI开发的开发处于这一阶段,无法打破AlphaGoLee的水平,摆脱困境并偶尔迷失于人们,这与高手差距很大。但是,如果母版开发成功,则再次尝试AlphaGoZero是合乎逻辑的。如果可以成功训练,那应该是相对较快的事情。实际上,顶尖论文发表不到半年。回想起来,这是自然的演变。 Deepmind团队本应该在5月之后看到成功的希望,所以他们进一步开发了AlphaGoZero。

        尽管新论文被推迟了,但它再次震惊了整个行业。还可以看出,Deepmind“ Nature”论文2016中描述的密集学习过程使整个训练流水线变得复杂,有必要训练多个神经网络系数,并且开发新版本需要花费几周的时间。利用此培训路线从根本上加强学习,它应该没有多大意义,因此没有取得任何进展。但是,师父的自学过程取得了重大突破:他已经为人类游戏训练了两个月。

        经过仅仅一周的改进,学习效率和可达到的强度上限有了长足的进步。

        在此基础上,我们将从头开始重新介绍它。可以取得重大突破。因此,Deepmind的真正技术突破应该在开发大师时实现。 AlphaGoZero是师父的技术成就的延续,但似乎哲学和社会意义更为重要。 Master和AlphaGoZero的成功是基于机器的学习算法的巨大发展的结果和证明。训练所需的比赛数量很少。AlphaGoLee的水平达到了490万局。截止到2017年3月,该游戏已经进行了30亿场游戏。力量仍然没有太大的进步,主要原因应该是扩大学习技术的差距。我在2017年1月9日的文章“从AlphaGo升级到Master后对算法框架的分析”中做了一个猜测:Masters Value的网络质量无疑突破了临界点,带来了巨大的收益,极大地减少了思考时间,增加了搜索深度,并提高了战斗力。新的AlphaGo团队原型,其架构可能更简单,所需的CPU数量比基于复杂MCTS的框架要低,并且更接近象棋搜索框架。

        AlphaGo的价值网络是完全由机器生成的,并且编码任务比Chess AI的人为编写的情境评估功能要简单。如果价值网络的评估足够准确,则从理论上讲,叶节点网络的权重可以增加到1.0,这相当于完​​全删除搜索框架中的MCTS模块。它与传统搜索算法完全相同。在这一点上,Go-KI在理论上将完全打败人们,因为人们可以使用的机器可以并且可以更快更好地做到。 Go AI的开发过程可以分为两个步骤。情境评估功能的第一阶段非常薄弱,必须引入MCTS及其自然弱点。价值创造网络的第二阶段带来了突破,再次,MCTS逐渐从搜索框架中删除,并返回到传统的搜索算法。通过引入新论文来衡量,这一假设已得到充分证实。 Master和AlphaGoZero的体系结构非常简单,仅需要4个TPU。叶节点的AlphaGoZero不必推出数字,而直接使用价值网络(已与策略网络合并)来确定获胜率。它等于“价值网络的权重增加到1.0”。主服务器是否具有卷展栏并没有明确声明应从实际性能中将其删除。当然,新版本中的搜索框架称为“ MCTS”,因为每个分支都有随机的尝试,但这并不是什么新鲜事物,并且与传统搜索的区别并不大。对于Go2006年引入MCTS算法的唯一真实特征是从叶节点获取叶的数量,而不是使用难以实现的评估功能。这种疯狂的大规模最终模拟更多地让人感到绝望,但也使机器非常疲劳。但是,Master和AlphaGoZero都已经成功地训练了具有非常清晰的值的网络,从而停止了推广。通过有效地精简价值链,Master和AlphaGoZero的裁决非常准确,使其功能更强大,影响深远。如何训练这个价值网络是Deepmind的独特能力。

        可以说,新论文最有价值的部分就是这一部分。从Master开始,AlphaGo的网络结构应该发生巨大变化。进入AlphaGoZero并将价值和战略网络整合为一体也就不足为奇了。在第一篇文章中,很明显,价值和战略网络的结构完全相同,但是系数不同。他们共享一个网络并不奇怪。如果需要不同的输出,则前面板的功能应相同,并且应分离不同的系数。

        更改主网络结构后,Deepmind可能发现可以训练许多磁盘功能。只需将驱动器输入简化为黑白即可。 AlphaGoZero的密集学习过程应类似于大师的学习过程:这是成功摆脱陷阱的过程,并且继续超越人类的想象力。硕士研发,作为先驱,它证明了这条路可以使用,并且可以使得分提高1000点。

        AlphaGoZero本质上类似于Master。新报纸中的AlphaGoZero看起来很漂亮。您所需要的只是一个网络,该网络会告诉机器要去哪里,并为您提供这种情况的胜率。印版输入为黑白,不需要任何人的知识。强化学习包括两个步骤。搜索的结果比神经网络的直觉所希望的要好。它可以用来训练战略选择点。很自然地将结果返回给多个法院以更正胜率。但是要达到这个美丽的结果,您必须勇于探索。刚开始,AlphaGo并不是很顺利,我意识到这可能会更容易。本文还有另一种推测:当前的AI,DeepZenGo和其他AI优势都接近AlphaGoLee,但是在生与死中常常存在缺陷。

        由于它与人类对手的力量几乎没有关系,因此不容易出错。基本上,我打败了我自己,这个错误的原因在于发布模块,因为发布策略是由人工游戏训练的,并且可能会手动添加代码。它的目的是迅速结束终结,但是当涉及到生与死时,这种快速终结不是很可靠,要死,要死。但是,要实现不会出错的部署非常困难并且应该是一项不可能完成的任务。 Master和AlphaGoZero的方法是打破这种不可靠的部署,并让神经网络直接传递结果。

        如果神经网络指示的获胜率结果存在问题,则可以通过培训解决。此修复程序比程序员更容易解决推出代码错误。三。机器和人类对Go的适应性差异很大。

        Master和AlphaGoZero的突破表明,在非常高的水平上,必须考虑瓶颈的原因。象棋可以提供“高起点”,但是经过一两天的训练后机器就会赶上来,“先发优势”并不多。显然,人类游戏中存在一些“有害成分”,它们可能导致AI的学习过程。如果AI无法找到根除这些“人类病毒”的方法,那么培训将成为瓶颈。如下图所示,借助人类象棋的零知识增强学习的力量迅速赶上了。

        从围棋的角度来看,他的规则几乎是所有游戏中最简单的。规则是两个句子都可以,脾气暴躁,禁止同样(抢劫的起源)。即使是输赢的规则,例如紧贴,也是由人类强加的。围棋游戏可以是定义明确的游戏,而不必输赢规则。像Arkanoid这样的Atari游戏就是这样,目标是获得更高的分数。 Go游戏的目标可能是填补更多席位,结果可能是黑色183、184、185,并且不需要明确地讲到黑色增益和黑色负片。在黑白游戏中,会有一个“平衡”结果,上帝知道这可能是黑色184白色177或黑色184.5白色176.5(复活)。

        这是一个很好的游戏问题,它是AI最受欢迎的游戏,它掌握了强化学习的方法。规则太简单了,太简单了。归根结底,强大的Go-AI应该是自然的,因为开发仅基于原始规则,不需要进一步的信息。除了中国规则规定的7.5分标签外,AlphaGoZero应该已经实现了这一目标。也许AlphaGo将来不会考虑细节,而Black and White将直接优化土地数量。停止尝试获取百分比。也许您可以训练更好的AI。如果您有优势,就不会屈服。如果您处于不利地位,您将不会自杀。这次,Master和AlphaGoZero在游戏结束时非常有趣,有时会尖叫并杀死他们。

        AlphaGoZero的国际象棋改进过程非常顺利,表明Go的精美规则所创建的数学空间非常漂亮。神经网络可以快速掌握Go空间的属性并表现得很好。人们以前没有考虑过这种类型的神经网络和围棋空间的适应性,因为他们自己感到非常困难,并且不希望神经网络学习得很好。由于Go的绝对客观性,AlphaGoZero也可以从头开始成功训练。Go规则是如此自洽,以至于无需人工干预即可轻松调整结果,并直接解决“学习样本”这一大问题。人工智能机器学习的一个大问题是需要大量样本,但是在实际生活中有时只需要少量样本,有时手动标记非常麻烦。当然,这里有围棋游戏AlphaGoZero的任务是找到正确的学习方法,而不是示例问题。人们既不能自己制作大型游戏,也不能像AI那样快速轻松地改善大脑。 AI完全抵消了单位时间的学习效率。因此Go是一款更适合AI学习的游戏。人类学习方法可能仍然适合人类。

        但是AI学习方法更强大。对于在Go中如此自然和绝对客观的游戏,从哲学上讲,消除人类影响应该是彻底的。

        从围棋规则来看,日文和韩文的AI规则简直难以理解,甚至无法定义。未来肯定会消亡。人类游戏是客观的,但游戏的解释是主观的。主观的东西可能会出错,所以要非常小心。人类知识系统也是如此。

        客观世界的功能独立于人类,人类对客观世界的解释是主观的,可能导致错误的结果。因此,有时有必要返回客观世界来执行原始观察,而不是进入所谓的“在虚假知识系统中”。注意事项和调查:客观上没有得到证明,一切都已完成。经济学是雄辩的,实践中的失败是行不通的。柯洁对微博的感受并没有强调人类的知识是无用的。不如零知识。实际上,master和AlphaGoZero之间的实际距离是从算法级别出发的。不太大两个等级之间的300分之差可能不是师父开始学习人类游戏的结果。

        这是更复杂的网络体系结构和更小的培训过程细节的结果。师父实际上找到了一种跳出人类知识陷阱的方法。因此,可以说人类知识可能有问题,但是不要说如果您学习人类知识就不能达到很高的水平。注意旧知识系统的问题并取得突破。

        而且,人类无法与机器相提并论:以零知识疯狂是不可能的,而且没有体力。现实的唯一选择是向年长者的经验学习。也许AlphaGo的意思是您拥有丰富的知识,可以学习和测试自己。也可以从其他人那里借用它,但是有必要接受实践测试并敢于怀疑突破性刻板印象。四。 AlphaGoZero的实际表现尽管AlphaGoZero与国际象棋无关,但玩家可能会为它确实非常人性化而感到高兴。培训在几个小时内非常类似于一个人。也是在拐角处,这方面的判断与人民相符。而且它比冠军更像是人类玩家,而且看起来更公平。师父不知道他为什么喜欢这些奇怪的补救措施。这个游戏很难理解。这给人民带来了更大的痛​​苦。

        AlphaGoZero与Master的比赛结果是19:1,我相信AlphaGoZero击败Master的策略不是要怪,而是要使用积极的技巧来应对。然后师父击败正义力量的策略就会失败。

        人们应该错了,输给师父。也许是因为师父后来训练以提高获胜率,并摆脱了旧版本的剑法,相同版本的黑白相同的力量是怪怪的权利,所有的力量都维持了半场胜利。当我推AlphaGoZero时,我失去了平衡,并被正义的手段压制。图为AlphaGoZero将黑色握在母板上。师父的势头是54只苍蝇吃了黑三。在计算主人和国际象棋玩家以及解释游戏时,腾讯围棋通常具有与人类玩家的程序相匹配的强大能力来解释游戏。

        三个黑人儿子应该被吃掉,他们应该考虑放弃他们。但是AlphaGoZero不相信这一点。黑色AlphaGoZero在左下角进行了白色比赛。在这种打击中,主人是被动的。

        这表明Master的计算并不一定是没有错误的,而是随着它们的深入而逐渐被抓住。这个计算很长发生错误也是可以理解的。

        这也表明Master和AlphaGoZero可能会由于算法原理而受到计算错误的影响,并且仍有改进的空间。有一阵子,我担心师父的极限游戏,并认为围棋的终极秘诀可能是那种无法理解的死亡。 AlphaGoZero对于主人是白色的。这是双方之间的普遍情况。

        白色的AlphaGoZero被困在野外,师父的中央形象被打碎并像纸浆一样打败了。 AlphaGoZero是自卫的。利润份额位于129肋骨后面的黑人支持了这种情况,但最终,利润率始终较低且失败了。应该说,AlphaGoZero的游戏还是比较自然的,尽管中产阶级显然很复杂。

        但是与主人相比,我不太了解恐惧。对于人类棋手来说,AlphaGoZero更贴心:就像是最高级别的人类棋手。这是一本应该清晰但始终正确的象棋,与人的手不同。主人的自卫频谱是难以理解和不合理的。

        如果你不动,那你就会做事,步步高升,开始极限游戏。人们很头晕。 Go-KI应该仍在开发中,自我玩耍很容易就死定了,实力也会有所差距。 Go的状态空间仍然很大,因此应该有一个更强大的一级开发版本。

        就像国际象棋一样,人工智能仍在进步。当然,Master和AlphaGoZero的游戏需要人类大师使用AI的背景数据进行解释。 AlphaGoZero是不需要任何人类技能的AI播放器,可以为人们提供不同的国际象棋样式,这使游戏更加令人兴奋。

        Deepmind的这篇论文提供了一种优美而简洁的开发方法。模仿成功更容易,并且越来越多的高级知识分子将取得突破。。

          <i id='zcGW'></i>