新一代AlphaGo Zero讓人類連做對手的資格都沒有？

出品：科普中國

制作：繆子文化王軒

監制：中國科學院計算機網絡信息中心

2017年10月19日，谷歌子公司DeepMind發布了AlphaGo的新版本。很多人知道AlpoaGo是一個人工智能程序，卻不知道它其實是一個家族，早期戰勝韓國選手李世石的是AlphaGo Lee。在烏鎮擊敗世界冠軍柯潔的是AlphaGo Master。本次發布的是AlphaGo Zero，它經過3天的訓練便以100：0的戰績擊敗了他的哥哥AlphoGo Lee，經過40天的訓練便擊敗了它的另一個哥哥AlphoGo Master。

AlphaGo Zero最大特點

本次發布的AlphaGo Zero與之前版本相比，最大的區別在于，它不再依靠人類的指導來成長，即之前的AlphaGo Lee是依賴于人工錄入的大量棋譜來幫助其學習如何下棋，說白了，它是在人的指導下學習，可以理解為是人類千年圍棋經驗教出的學生。

而AlphaGo Zero使用了強化學習算法，即不再依賴任何棋譜，編程人員輸入圍棋基本規則后，不再進行任何教導，完全由其自己進行摸索，總結走棋方法，相當于人工智能完全按照自己的方法學習。AlphaGo Lee完敗于摒棄了人類經驗的AlphaGo Zero，這說明人類的經驗可能誤導了AlphaGo Lee，進而限制了它的發展。

AlphaGo Zero的行棋方式在開局和收官階段，與人類選手有較大的相似之處，而盤中的行棋風格的確與人類選手和之前版本的AlPhaGo有較大不同，而正是這種不同讓其可以在100次與AlphaGo Lee的交戰中立于不敗，換個說法，如果當初AlphaGo Lee沒有拜人類為師，而是向機器學習，那么對于擁有更強計算能力的AlphaGo Lee來說，勝負還未可知。

除了零經驗學習外，AlphaGo Zero的另一大特點是將之前版本AlphaGo的兩個神經網絡融為一體，在之前版本的AlphaGo上，如何走棋是由“策略網絡”和“價值網絡”兩個神經網絡來計算如何行棋的，即首先由“策略網絡”利用之前累積的經驗，判斷在當前棋型下哪些位置適合行棋，之后由“價值網絡”對在這些位置行棋后的種種可能進行模擬，計算勝率，最終選擇出行棋位置。

而AlphaGo Zero將二者融為了一體，對之前兩個網絡的特征提取等模塊進行了共用，可以在計算出可能行棋的位置時便給出相應的“勝率”，大幅提高效率，減少了訓練所需的時間。這也是AlphaGo Zero在訓練了三天就打敗了訓練了幾個月的AlphaGo Lee的主要原因之一。

人工智能不僅是計算機科學領域發展的制高點，在所有行業都具有無限潛力和應用價值，目前世界各國普遍看好，人工智能技術將成長為下一次技術革命契機。即便最終人工智能沒有達到革命級別的顛覆程度，AI已經在逐漸改變我們的生活。

以往人工智能的進步都是建立在軟件與硬件同步發展的基礎上，神經網絡算法最早在上個世紀中葉就被提出，然而受限于計算能力，神經網絡算法一直發展緩慢。

之后隨著硬件計算速度的不斷提高，已有的軟件算法不斷被實現并改進，改進的算法對硬件要求更高，從而進一步促進了硬件的發展，而AlphaGo Zero的出現完全建立在算法更新的基礎上。

前一版本的AlphaGo需要在48個TPU(谷歌專為加速深層神經網絡運算能力而研發的芯片，一塊成本即達500萬美元)上進行幾個月學習，而AlphaGo Zero只需要4個TPU加上幾天的時間便可完成學習。這種零經驗學習能力非常適合在蛋白質折疊和其它缺少樣本的醫療領域進行應用，可以很好地解決因缺少試驗樣本而導致研究進展緩慢的問題。未來的相關研究中完全可以輸入規則后利用AlphaGo Zero的能力進行模擬，最后利用有限的樣本進行驗證即可。

AlphaGo逐漸升級之路

故事講到這里，實在不得不佩服谷歌深厚的技術實力與精明的商業頭腦。AlphaGo從誕生伊始，就得到了deepmind團隊的精心包裝，仔細回想起來，可謂是“城里套路深”。

從最初戰勝低段位職業棋手開始預熱或者說炒作，到戰勝人類頂尖高手李世石，AlphaGo的登場已經足夠華麗。不過4比1的比分還是給了人類一線希望，這僅有的勝局中，李世石劍走偏鋒，直接把AlphaGo逼出了“大腦短路”的癥狀，可見此時AlphaGo雖已經足夠強大，但尚不完美。此后各路人類高手開始臥薪嘗膽，精研AlphaGo的套路，寄希望于重新捍衛人類尊嚴。

隨后，今年年初，一個神秘的“master”在圍棋界頂級棋手的對戰平臺上取得了60勝0負的驕人戰績，這位master到底是何方神圣，是人是妖可謂是賺足了吃瓜群眾的眼球。直到華麗的60勝達成，謎底才最終揭曉。

此后便是吸引了全世界目光的烏鎮對決，AlphaGo Master把柯潔打到毫無還手之力。雖然柯潔已經表現出了真正的人類最強者戰力，卻仍然被AlphaGo完全壓制，只要出招有任何一點閃失，立刻會陷入AlphaGo“最小優勢勝”策略的陷阱，再無翻身余地。

烏鎮對決之后，人類在圍棋領域已經徹底甘拜下風，別說柯潔一人，五大高手聯手作戰比柯潔輸得更快，AlphaGo一時風光無限。

如今，烏鎮硝煙剛要散盡，谷歌又搞了個大新聞出來！人工智能在摒棄人類經驗后，用三天時間自學的AlphaGo Zero打敗了人類幾千年的經驗。AlphaGo的進化版打敗了原始版，不禁叫人想起《鐵甲鋼拳》里叫人熱血賁張的機甲肉搏，一個AI輸給另一個更牛的AI，中國AI戰勝美國AI，這很有可能是未來棋類競技中的真實場景。

在電影《異形：契約》中，人類創造了機器人“大衛”，而大衛認為自己比創造它的人類更加高級，反而去研究異形，殺害人類。電影《I Robot》中采用的劇情設定也是基于機器人不斷進化，進而以更優秀的邏輯打敗了限制他們的定律，試圖奪取地球控制權的故事。

人工智能技術近年的發展速度之迅猛，確實令人瞠目，就連我退休的老娘，都開始在朋友圈轉發各種博人眼球的“AI統治地球論”，雖然可能最后她還是不知道AI到底是什么意思。

這種論調認為，也許就在不久的某一天，人工智能將不再是一個執行者的定位，它將成為一個優秀的領導者，而人類的地位也將變成用來代替機器人，完成機器人不方便執行的工作，如同文章開頭所說，人工智能的進化遠遠領先于人類，而人類淪落為試驗對象。

AI統治地球：幻想&有可能？

那么，AI的實力果真已經進化到了那樣的地步？AI統治地球到底只是幻想還是確有可能呢？

各位讀者可能也注意到了，近幾年來新聞中出鏡率頗高的人工智能技術突破往往以游戲作為切入點。從傳統的棋牌類游戲（象棋、圍棋、德州撲克）到電子游戲（星際、Dota），軟件開發精英們似乎總是偏愛與人類生活關系并不密切的游戲。

那么問題來了，為何AI的開發常常以游戲為切入點呢？AlphaGo之父，谷歌旗下DeepMind公司CEO哈薩比斯給出了這樣的答案：“游戲是測試AI算法的完美平臺，這里有無限的訓練數據，不存在測試偏差，能夠實施并行測試，并且還能記錄每個可以量化的進展”。翻譯成人話就是，花錢少，風險小。

AlphaGo在圍棋項目上獨步天下，乃至孤獨求敗到要左右互搏是不爭的事實，可是人類生存需要面臨的工作絕非下圍棋一件事這么簡單。圍棋不過是無數人類游戲中的一種，而且在這些眾多的游戲中，圍棋的位置還真的談不上是皇冠上的明珠，只是在完全信息博弈游戲這個領域里，圍棋是公認的明珠罷了。

至于什么是完全信息博弈游戲，我們可以參考之前發布過的文章《AI吊打Dota2人類高手？你可能又被標題黨坑了》（https://p.baidu.com/daily/view?id=82494）

“完全信息博弈游戲：在這類游戲中，每一個參與者都擁有所有其他參與者的特征、策略集及得益函數等方面的準確信息的博弈（尷尬而不失禮的翻譯：己方的生命值，武器系統，技能系統等相關信息都被博弈對手所完全掌握，反之亦然。當然，這里并不是說你將要使出的招法在出招之前就能被對方預知，而是說你只能使出招式表中的招法。對手即便知曉你的全部出招可能，出什么招，何時出仍然是你根據場上形勢隨機應變，相時而動的）。”

那么非完全信息博弈游戲呢，當然是與上面的完全信息博弈游戲相反，舉一個例子，《星際爭霸》。玩過類似即時戰略游戲的讀者都知道，這種游戲中，敵人的實時狀態我們是不能完全掌握的，且不說屏幕只能顯示當前視野，戰爭迷霧（war fog）的存在也讓敵我雙方的狀態都變得撲朔迷離，你在老家干什么事兒，敵人不跑過來打一架是無從知曉的。

這么來看，圍棋AI能夠處理的局面還是局限性太強了，且不說各種即時戰略游戲，我們化繁為簡，舉幾個日常生活中大家都熟悉的例子。

麻將，中國國粹之一。打麻將的時候，假設我們四方對戰，三位人類高手加上強大AI，局面會怎樣呢？

AI固然擁有驚人的計算能力和記憶能力，每一張打出的牌都記得清清楚楚，每一口牌的成胡幾率都算得明明白白，可是AI還是保證不了每一局都能取得勝利。為什么？另外三家的牌扣在那里，AI獲得的信息實在太有限了，無法掌控戰場的完全態勢，也就無法發揮壓倒性的計算能力。

吹牛是北方的小朋友經常打的一種撲克游戲，當然也適合大人孩子一起玩兒，氣氛非常歡樂。這個游戲中，自己扔出幾張扣著的牌，告知對方這是三張六或者一對勾等等。對方選擇相信，就開始由對方出牌，規則同樣是扣著出牌然后報數字和張數。對方選擇不信就要翻開你扣著的牌，如果你的牌與你聲稱的數字和張數吻合，對方就要拿走這幾張牌，如果不符，你就得收回這幾張牌。最后先把手中牌全部出完即為勝利。

這樣的游戲規則之下，AI無法完全掌握對方手中到底有怎樣的牌，也很難算出對方撒謊的概率，反倒是人類可以通過察言觀色來判斷對方話的可信程度，AI的計算能力反而無所適從。

類似電影《終結者》系列中擁有自主智能并致力于絞殺人類的AI“天網”在目前看來仍然只是狂想。“謀略”二字深刻地反映出人類智慧的高度，運籌帷幄、縱橫捭闔、兵不厭詐目前還是人類的專利。即便AlphaGo不斷在圍棋領域搞大新聞，我們也沒有惶恐的必要。

相反，不斷提升的AI性能、不斷擴展的應用領域，最終的結果還是造福人類。人工智能的發展方向以及人類與人工智能的未來終究還是人類，而不是AI所要思考的問題。