央广网

Alpha go最新版本:只通过概率计算和自学自练达成自我超越

2017-10-19 17:29:00来源:央广网

  央广网北京10月19日消息 据中国之声《新闻晚高峰》报道,去年三月,谷歌人工智能团队开发的Alpha go围棋程序和人类围棋世界冠军李世石进行了一场举世瞩目的人机大战,最终李世石败下阵来,引发人类世界一片哗然。今年五月Alpha go的升级版本又击败了中国顶尖棋手柯洁,这时大家已经有所预料甚至习以为常。然而就在最近,Alpha go的最新版本Alpha go zero又有了巨大突破,它实现了不通过向人类学习,只通过概率计算和自学自练就达成自我超越,完胜曾经战胜过李世石的初代Alpha go。

  Alpha go项目首席研究员大卫·席尔瓦说,“Alpha go zero是世界上最强大的围棋程序,胜过以往所有的Alpha go版本,尤其值得一提的是,这个版本对阵战胜过世界冠军李世石的Alpha go版本,成绩是100比0。我可以代表我们团队说,我们对它的表现感到惊喜,它最终超过了我们的所有预期,它的胜率一直上升,直到过了40天左右,我们发现它击败了过去所有版本的Alpha go,成为世界上最强大的围棋程序。”

  大卫·席尔瓦介绍,初代Alpha go是以自身的强大计算能力作为基础,再通过学习海量人类棋谱来练就超强棋力,当初Alpha go打败李世石就用了3000万盘比赛作为训练数据。而如今的最新版本Alpha go zero,已经基本不再需要学习人类经验就能自学成才,它学习的是490万盘自己和自己对弈的比赛数据。“过去所有版本的Alpha go都从利用人类数据训练开始,它们被告知人类高手在这个地方怎么下,在另一个地方又怎么下,Alpha go zero不使用任何人类数据,而是自我学习,完全从自我对弈中学习。人们一般认为机器学习就是关于大数据和海量计算,但是我们从Alpha go zero中发现,算法比所谓计算或数据可用性更重要,事实上我们在Alpha go zero上使用的计算比过去Alpha go版本上使用的少一个数量级,但是它的性能更强大。因为我们使用了更多的原理和算法。这个系统完全从零开始训练,从随机招式开始,建立于基本原理,来弄清怎样从零学围棋,不依赖于任何人类知识、人类数据、人类案例、人类特征或者是人类的介入。”

  在得知Alpha go zero的成就之后,中国棋手柯洁在微博上写下了这样一句话:一个纯粹、纯净自我学习的Alpha go是最强的,对于Alpha go的自我进步来讲,人类太多余了。正如柯洁所说,从一年半以前Alpha go的第一次人机大战到现在,时间刚过去短短一年半,但是在围棋领域里人类已经远远被人工智能甩在了身后。

  而大卫·席尔瓦则表示,Alpha go团队的目标其实并不只是一个会下围棋、能击败人类的程序,他们想要把Alpha go在围棋领域的突破,移植到其他领域里,让人工智能更好的帮助人类,为人类造福。“从零学习对于Deep Mind团队的目标和雄心而言非常重要,如果你可以实现从零学起,你就拥有了可以从围棋移植到其他任何领域的媒介,你从所处的细分领域中解放出来,通过一个可以应用在任何地方的普通算法。对我们而言,打造Alpha go zero不是为了用来击败人类,而是为探寻研究科学的意义,和让一个程序能够自我学习知识是什么。我们开始发现Alpha go zero不仅仅是重新发现人类偏好的模式和开口,它还会审视这些并进行更多的自主探索,最终放弃那些偏好,来自主做出人类还不知道或无法实现的变化。所以我们可以说,在非常短的时间内Alpha go zero理解了人类数千年累积的对围棋的认知,并且进行分析,开始审视这些知识,自主探索出更多的东西。有时候它的选择超越并带来了一些人类现阶段尚未发现的东西,产生出在许多方面富有创造力的、新奇的知识。对于Alpha go zero已经达到的水平我们非常激动,最让我们激动的是看它能在现实世界里走多远,我们已经看到一个程序可以在像围棋这样的复杂并且具有挑战性的领域里达到很高水平,这意味着我们能够开始着手为人类解决最困难、最有影响的问题”

编辑: 倪艳楠
关键词: Alpha;go;升级版本;突破