從空城計到阿爾法狗，博弈論如何滲透我們的生活？

橫跨數學、經濟學和人工智能等諸多范疇的博弈論，是一門極富挑戰性而又美輪美奐的交叉科學。物理學家朗道曾感慨本身生不逢時，包羅他在內的一流科學家，在那時都只能研究二三流的問題。現在耕作在博弈論范疇的學者則幸運很多，這里不僅有一堆一流的問題有待研究，并且還有很多主要問題尚未被發現。

撰文 | 劉魯川（南邊科技大學金融系傳授）

2016年，有那么一只“狗”大鬧天宮，這在整小我類社會引起了軒然大波。它就是阿爾法狗（AlphaGo），是谷歌（Google）旗下公司DeepMind 在人工智能與博弈論交叉研究上的一個佳構。這只狗不僅在昔時以4:1擊敗了圍棋宿世界頂級選手李宿世石，次年又讓位列宿世界第一的柯杰淚灑棋盤。圍棋是一個最具挑戰性的聰明游戲，而人工智能博弈在圍棋上戰勝了人類頂級棋手，無疑標記著一個極新時代的到來。此刻就讓我們一路領會一下人工智能博弈背后的科學：博弈論（Game theory）。

說到博弈論，我們不禁會聯想到那些布滿機謀聰明的汗青故事。好比戰國期間的田忌跑馬、孫臏獻計，都是以己方相對優勢的組合策略去戰勝絕對優勢的對方。這是博弈理論中最佳對策（best reply）的一個典范。在三國演義中，諸葛亮唱的那出嚇退司馬懿大軍的空城計，更是在不合錯誤稱信息情況下實踐行為博弈的傳奇。

1、博弈論范疇的科學巨人和他們的學說

現代博弈論的降生是以四十年月數學巨匠馮·諾依曼（John von Neumann）和經濟學者摩根斯坦（Oskar Morgenstern）的巨著《博弈理論與經濟行為》的出書為標記的。馮·諾依曼可謂是一位文藝回復式的科學“綜”師。他不但是二十宿世紀最偉大的數學家，仍是博弈論和計較機之父。他成立了量子力學的正義化系統。博弈論學科的成立也是一個汗青的必然。第二次宿世界大戰等國際政治匹敵不僅催生了原槍彈，也直接鞭策了計較機、博弈論、暗碼學等新興學科的成長。博弈論這門聰明游戲的科學，從它降生的一天起頭，就玩得有些大。它的學術范疇一向十分活躍，群星閃爍，不乏神奇。已先后有十幾位科學家因為他們在博弈論及其應用范疇上的卓越當作就，而拿到了諾貝爾經濟學獎。

John von Neumann。1944年，馮·諾依曼與摩根斯坦合著的《博弈理論與經濟行為》出書，標記著現代博弈論的降生。

我們必需要講到是一位數學奇才：納什（John Nash）。他二十幾頁的博士論文給出了策略博弈中的一個根基解概念，這就是后來以他的名字來定名的納什平衡理論（Nash equilibrium）。在這里平衡的理念就是，在一個非合作博弈中，一旦所有玩家的行為達到了一個平衡狀況，那么此中任何一個理性玩家都不會愿意零丁改變他的策略。因為任何零丁的改變，都不會給他帶來任何的益處。平衡概念是博弈論以及現代經濟學理論的一個最根基的思惟。

納什因為其偉大的工作，當作為了第一批拿到諾貝爾經濟學獎的博弈論科學家。有一部好萊塢大片叫《斑斕的大腦》（A beautiful mind，又譯“斑斕心靈”）就是講他的故事。片子實際與虛幻連系，十分都雅。My God, 博弈論還能拿奧斯卡。九十年月我在美國石溪大學讀研究生。石溪是博弈論科學家經常匯聚的一個中間，從九零年起每年城市舉辦國際博弈論大會。每逢大會，這個范疇的科學家和學生云集，博弈論的巨匠們也會參加。昔時在會場上，不難看到納什這個“斑斕的大腦”在四處浪蕩。

“斑斕的大腦”John Nash。納什因為“在非合作博弈理論中對平衡的開創性闡發”，與John Harsanyi 和 Reinhard Selten 一路獲得1994年諾貝爾經濟學獎。

另一位博弈論的宗師沙普利（ Lloyd Shapley ）更是一位有故事的人。合作博弈論有以他名字定名的價值理論Shapley Value，給出了可讓渡資本分派的一個必備準則。他提出的隨機博弈（stochastic game）問題是博弈理論范疇中的頂級難題之一，引一代又一代天才科學家為其折腰。我的導師尼曼（Abraham Neyman）就是這個范疇的領航者。他與我的另一位教員莫頓斯（Jean-Francois Mertens）在八十年月解決一個困擾這個范疇二十多年的開放問題。（不由得要暗里埋怨一下，莫頓斯的課是我所有上過的課中最虐人的，沒有之一。）

前面所提到的AlphaGo可以算是人工智能在解決隨機博弈問題上的一個實踐了。沙普利與羅斯（Alvin Roth）在2012年分享了諾貝爾經濟學獎，則是因為他在資本匹配理論方面的偉大工作。他與合作者蓋爾（David Gale）設計了一套算法證實了兩維不變匹配必然存在。他們的“婚配”理論模子建議，無論男女哪方，誰先本家兒動追求，誰最后的成果就會更有利些。博弈論的理論研究居然還能帶出感情自由的燦艷火花來，真是令人嘆為不雅止。

沙普利與中國也很有淵源，二戰時代他曾作為美軍專家駐守重慶，專門破譯日軍的加密電報。而在他今后的學術生活生計中也指導培育了多名中國粹者，美國加州大學的秦承忠傳授就是出自他的門下。開掛的人生天然要有紛歧般的性格。據說昔時瑞典皇家學院打德律風通知他榮獲了諾貝爾經濟學獎，而他的第一反映倒是詰責來德律風的人，他是一個數學家，為什么要拿經濟學的獎。

Lloyd Shapley因為“關于不變匹配與市場設計實踐的理論”，與Alvin Roth 一路獲得了2012 年諾貝爾經濟學獎。| 照片：U. Montan / The Nobel Foundation

我們的教員奧曼（Robert Aumann）是一個會講故事的人，滑稽詼諧，無論何等艱深的理論在他口中都釀成了雅俗共賞的藝術。上他的課如同在聽音樂會，使人心靈沉醉。奧曼的風采，與他是科學和宗教的雙重巨匠不無關系，在他那邊，人類的理性與天主是如斯的接近。人類在思慮，天主在微笑。奧曼蓄著銀白色的大胡子，那是他科學前賢的標記。

奧曼與納什、沙普利等是現代博弈論的學術魁首，他與沙普利配合成長了合作博弈論中的價值理論。他提出的配合常識學說（Common knowledge）是博弈論的一個哲學根本，“我知你知，你知我知你知，我知你知我知你知……” 真可謂道可道很是道，玄之再玄。有后人評說，司馬懿之所以沒敢入諸葛亮的空城，是因為他失落進了與孔明的共識怪圈，就沒能出來。（你信嗎？歸正我信了。）

奧曼在反復博弈（repeated game）范疇作出了奠定性的工作。我們都知道，在階下囚困境博弈中，合作并不是納什平衡。但基于奧曼的理論，只要反復博弈的次數足夠大，階下囚的合作也可所以平衡點。這就是有名的佚名心猿意馬理（Folk Theorem）。我在當學生時沉迷于奧曼的相關均衡理論（Correlated equilibrium），那些如太陽黑子般的宿世外影像，卻可以指導人們發生出更豐碩多彩的聯系關系的經濟行為，如貿易波動等。相關平衡不僅是納什平衡概念的理論成長，并且其概念的簡單性又讓它避免了納什平衡計較上的復雜性，真是美妙。

因為他在博弈論的卓越建樹，奧曼在2005年獲得了諾貝爾經濟學獎。他帶領編著了博弈論百科全書，并成立了以色列決議計劃科學與理性中間和美國石溪博弈論中間等學術機構，創作發明了現代博弈論學派扶植的平臺。

Robert Aumann 因為“經由過程博弈論闡發加強了我們對于沖突與合作的理解”，與Thomas Schelling 一路獲得了2005年諾貝爾經濟學獎。| 照片：D. Porges / The Nobel Foundation

2、博弈論的學科布局：數學與經濟學的交匯

簡單來說，博弈論是一門研究聰明個別彼此感化與決議計劃的科學，是數學、經濟學和人工智能等學科交叉的科學。博弈論作為數學的一個分支范疇，可以把它與運籌學來類比。運籌學有兩個根基使命：優化和分派。我們在中學都學過求極值的問題。簡單地說，博弈論就是多元的優化和分派的推廣，是研究在多元彼此感化的系統中個別或群體決議計劃的科學。然而與運籌學不盡不異的是，博弈論也關顧博弈介入者的理性、聰明、行為，以及信息情況。也有與行為科學訂交叉的進化博弈論分支。博弈論分為非合作博弈（策略博弈）和合作博弈兩大范疇。讓我們經由過程介紹博弈論在經濟學上的成長，來領會它的根基學科框架。

今世博弈論一問宿世就與經濟學聯系在一路，馮·諾依曼和莫根斯坦那本開山巨著就以這個標題問題來定名。若是拿經濟學與物理學比擬較的話，那博弈論就是經濟學理論中的“量子力學”。博弈論和一般平衡理論（general equilibrium）是當今經濟學理論的根基說話和范式。從微不雅的視角來看，在我們的經濟系統中存在分歧的經濟個別，它們不僅具有自我行為，同時也在交互感化著。無論是小我，仍是社區；無論是公司企業，仍是當局部分，我們都可以把它們的行為簡化當作一個模子：

為了個別本身的目標，做出本身的行為決議計劃。

而這些經濟個別的最終好處不僅與自身的行為有關，并且也取決于其他個別的行為。例如華為在手機市場上的營利不僅來自于公司自身的研發、出產和發賣上的作為，還要看蘋果、三星和國內敵手的動作。若是不研究敵手，不不雅大局，我們所謂的“勤奮致富”就形同于瞽者摸象。競爭就是在系統中與其他個別交互感化中為達到最大好處的最優行為。研究經濟個別的競爭行為是微不雅經濟學的范圍，也是經濟學中的非合作博弈理論。非合作博弈最根基的解決方案，就是上面介紹的納什平衡。

金融學中有一難題，是套利的極限。套利是操縱本錢市場中資產價錢錯配的機遇，采納金融買賣手段來套取營利的勾當。若是有一天，你發現周邊有兩個農貿市場都在賣同樣一種蘋果，但價錢卻不盡不異。你可標的目的伴侶借些錢，買了廉價的蘋果去另一市場高價出售，還了伴侶的錢后，留在兜中的錢就是你的套利了。（奉求，不要再標的目的我推銷了。我這里的蘋果已經吃不用了。）

市場有用性假說認為，市場上幾乎不會存在這種套利機遇，因為一旦有套利機遇，無數投契者就會簇擁而至，套利機遇也就會隨之而消逝。但實際并非如斯，市場上套利機遇仍是到處可見。施萊佛（Andrei Shleifer）和威斯尼（Robert Vishny）應用博弈理論模子詮釋了這個套利極限的問題。他們認為，專業基金辦理人受制于投資人對業績表示的要求，而不克不及無前提地在任何市場前提下完當作套利操作。

除了競爭，在經濟社會中人們也會追求合作。

一個社會收取了各類稅項，這些財富資本若何從頭分派呢？

一個城市扶植了一個機場，若何來讓航空公司去分攤機場的扶植和營運當作本？

更一般的，什么樣的合作形式最有用？社會資本若何分派最合理？這些就是合作博弈論研究的焦點問題。

沙普利和奧曼的價值理論為社會資本的分派供給了一個必備的根本準則：一個經濟個別可以介入社會中各類分歧的集體（coalitional game），而這個個別最后可以獲得的資本應該取決于它對所有社團邊際進獻（Marginal contributions）的統計平均值。哇，分派決議于進獻，老沙他們挺社會本家兒義的。而沙普利又與蓋爾為互補資本設置裝備擺設成立了不變匹配的理論，那么浪漫的工具，留給你們本身去探討吧。

人類分派資本和決議組織帶領的常用手段是選舉表決，我們叫它平易近本家兒。選舉表決的平易近本家兒體例真是完美的嗎？法國發蒙活動的魁首孔多塞（Condorcet）指出，當有三個備選對象時，平易近本家兒體例可能會掉效。選舉表決也許不克不及決議出大師公認的魁首。這就是聞名的孔多賽悖論。他的思惟后來被成長當作阿羅不成能道理（Arrow impossible theorem），它是社會選擇（Social choice）范疇的基石。

我們做金融的最經常接觸到的就是金融資產和金融市場。“市場訂價”（Mark to market）也常我們被用來作為一個行業信條。那什么樣的市場更有用？更能精確地反映資產的價值？這就是博弈論中機制設計（Mechanism design）研究的問題。市場中有公開拍賣（Open auction）和封鎖拍賣（Sealed auction）。

公開拍賣的體例有多種。荷蘭式拍賣是源自于荷蘭鮮花市場由高到低的叫價，買者可一口承接。我們在藝術品拍賣會看到的是所謂英式拍賣，競拍者由低標的目的高地競相出價，拍品最后由最超出跨越價者購得。

噴鼻港當局也常用封鎖拍賣體例出讓地盤。在封鎖拍賣中，讓出價最高者購得拍品是天然了，但讓他付什么樣的代價，倒是學問了。直覺上似乎是，贏家出的最高價，就應該支付最高價吧。實則非也。我們要讓最超出跨越價的贏家以第二超出跨越價的價錢來采辦拍品，這叫第二價拍賣（Second price auction）。你能理解為什么在封鎖拍賣中第二價拍賣最有用嗎？競拍者的出價會更會接近他本身對拍品的真實估值，這樣的市場設計能讓買家說真話。

3、博弈論與人工智能：一枚硬幣的兩面

馮諾依曼與人工智能之父圖靈的交集可追溯到他們在美國普林斯頓大學的學術生活生計，那時，他們一個是大牌傳授，一個是天才學子。他們兩位又同是計較機科學的奠定者。博弈論與人工智能如同是一枚硬幣的正反兩面。一個要研究聰明個別的彼此感化與決議計劃，一個是要使人類智能機械化。當我們想讓計較機和機械去像人類一樣進修、思慮和行為，現實上就是在讓機械對其自身、敵手和情況進行認知和聰明博弈。人工智能也就是要把博弈論機械化。

若是要把人工智能改稱為“人工博弈論”（Artificial game theory），必定會有人否決。“Come on, 作博弈論的一邊玩游戲去。我們還在忙著看圖識字呢！” 一個博弈論和機械進修交叉連系的典范是強化進修（Reinforcement learning）。讓我們用最前面所提到的那只AlphaGo 來演繹強化進修的概念吧。

作為人工智能的本家兒體，AlphaGo 與人類棋手進行圍棋棋戰，它的方針就是經由過程最佳策略來取告捷利。顯然，它的最佳策略不僅要遵照圍棋的法則，還要針對敵手的行為和策略。在強化進修中，AlphaGo 起首要成立一個由每個階段的獎勵旌旗燈號（reward signal）與評價函數（value function）所組成的方針評價系統，經由過程評估場合排場的勝率來指導決議計劃。第二部門是成立它的策略函數（Policy function），可以或許按照敵手的行為和棋局的闡發發生出合理的對策。

在博弈中跟著棋局的轉變，AlphaGo從它的策略函數中發生使方針評估勝率最大的策略。AlphaGo是經由過程進修其自我生當作的大量盤局，來形當作它的方針評價系統和策略函數的。這就是關于那只 AlphaGo 強化進修的簡約版故事。[其手藝包羅深度神經收集（Deep neural network）和蒙特卡羅樹搜刮（Monte Carlo tree search）等手藝，已超出本文的內容。] 強化進修在經濟和金融方面的應用前景是顯而易見的。

盡管我們欠好把人工智能完全等同于人工博弈論，但搞計較機的人愛玩游戲倒是不爭的事實。人工智能科學有一個龐大的游戲場，這就是算法博弈論（algorithmic game theory）。圖靈獎科學家姚其智和米卡利（Silvio Micali）是這一范疇的領甲士物。

算法博弈起首存眷博弈理論中的計較問題，有什么樣的算法可求解？算法是否可有用地在計較機上實現出來？鄧小鐵等華人學者在納什平衡計較復雜性的研究上做出了卓越的進獻。比來德州撲克博弈專家薩德豪姆（Tuomas Sandholm）和他的合作者布郎（Noam Brown）在多人撲克的智能博弈上又取得了沖破性的進展。

算法博弈論的另一條成長偏向來歷于計較機范疇的分布式計較。它的一個根基問題是若何協調非中間節制的分布式的計較資本。在一個分布式系統中，若是有些結點上呈現了問題，這個系統還可以正常工作嗎？這就是聞名的拜占庭將軍問題（Byzantine failures）。當前很是活躍的區塊鏈手藝也是算法博弈與暗碼學等范疇的交匯。作為暗碼學與算法博弈巨匠的米卡利，比來推出了他的區塊鏈（blockchain）項目Algorand，備受業界的存眷。

算法博弈蓬勃成長的一個本家兒要動力還來自于它在互聯網經濟糊口中的普遍應用。從谷歌、百度網頁上的告白拍賣，到滴滴出行、Airbnb共享平臺的機制設計，從人體器官移植的配匹，到今日頭條等資訊的個性化保舉，算法博弈都是支撐它們的焦點根本手藝。今天，博弈論正以極新的體例走進我們糊口的方方面面。

4、結篇寄語

盡管博弈論中的一些問題和它的樸實思惟或許可以追源到遠古，但當今博弈論學科的成長卻日新月異、風華正茂。博弈論學科橫跨數學、經濟學和人工智能等諸多范疇，是一門極富挑戰性而又美輪美奐的交叉科學。昔時聞名物理學家朗道曾感慨本身生不逢時，那時包羅他在內的一流科學家，在物理學范疇，也只能研究二三流的問題。當今博弈論范疇，不僅有一堆一流的問題有待研究，并且還有好些主要問題尚未被發現。這也是為什么，博弈論范疇碩果累累、群星璀璨。近年來它也當作為諾貝爾經濟學獎得本家兒的搖籃。在博弈論的學術范疇，我們華人科學家也是人才濟濟，當作就斐然。好比周林傳授因其在博弈理論研究上的卓越工作，于2009年入選宿世界計量經濟學學會會士（Fellow）（這里并不試圖對華人學者在博弈理論范疇的工作進行周全的介紹）。

博弈論也是一門適用性學科，它的根基原則和策略方式早已當作為現代政治糊口、經濟勾當、金融投資、貿易決議計劃和組織辦理等范疇必備的行為規范和實踐手段。諾貝爾經濟學獎得本家兒羅斯曾倡導，經濟學者也是工程師。他本人就在身體力行，是博弈論在社會資本匹配應用實踐上的先行者。

今天，跟著博弈論與人工智能的交匯，以及算法博弈的長足成長，博弈論正從科學的殿堂大步走出，匯入工程手藝的廣漠海洋，在各個方面辦事于我們的糊口。

年青的伴侶們，讓我們一路來領會和進修這門研究和實踐聰明游戲的學科——博弈論。

閱讀建議

國際上博弈論的專業教材和雜志文獻十分豐碩，這里保舉幾本國外文獻的中譯原本作為我們入門進修的教程。

學科科普

《納什平衡與博弈論》湯姆?齊格弗里德 (作者), 洪雷 (譯者), 陳瑋 (譯者), 彭工 (譯者)

學科應用

《策略思維——商界、官場及日常糊口中的策略競爭（巨匠細說博弈論）》阿維納什·K·迪克西特 (作者), 巴里·J·奈爾伯夫 (作者)；

《妙趣橫生博弈論：事業與人生的當作功之道》迪克西特(Dixit A.K.) (作者), 奈爾伯夫(Nalebuff B.J.) (作者)

學科專業

《博弈論根本 (今世經濟學教科書譯叢) 》羅伯特·吉本斯 (作者), 岑嶺譯 (譯者), 魏玉根校 (譯者)

作者簡介

劉魯川，南邊科技大學商學院金融系傳授。中國運籌學會博弈論分會理事。曾先后為噴鼻港城市大學商學院經濟和金融學助理傳授和客座傳授。也曾就職于華爾街高盛集團，曾為高盛亞洲風險本家兒管和噴鼻港期貨買賣所高盛公司代表。美國紐約州立大學經濟學博士，海說神聊京理工大學物理學理學學士。今朝本家兒要研究樂趣：博弈論、人工智能與金融科技。

特別提示

《返樸》，科學家領航的好科普。國際聞名物理學家文小剛與生物學家顏寧配合出任總編纂，與數十位分歧范疇一流學者構成的編委會一路，與你配合求索。存眷《返樸》介入更多會商。二次轉載或合作請聯系fanpusci@163.com。