什麽是遊戲倫？

囚犯的困境

達利理論中的壹個小故事

要理解納什的貢獻，首先要知道什麽是非合作博弈問題。目前幾乎所有的博弈論教材都會講到“囚徒困境”的例子，每本書裏的例子都差不多。

博弈論畢竟是數學，或者說，是運籌學的壹個分支。談論經典和學說，自然少不了數學語言，在外行人看來不過是壹大堆數學公式。好在博弈論關註的是日常經濟生活，不能不吃煙花。這個理論其實是從象棋、撲克、戰爭等帶有競爭、對抗、決策性質的問題中借用來的術語。聽起來有點玄乎，但實際上有著重要的現實意義。博弈論大師看經濟社會問題就像下棋壹樣，往往在博弈中有深刻的道理。所以，從日常生活中的瑣事入手，以身邊的故事為例進行講解，並不枯燥。壹天，壹個富人在家裏被殺，他的財產被盜。在這起案件的調查過程中，警方抓獲了兩名犯罪嫌疑人斯卡菲和納庫爾斯，並從他們的住處找到了被害人家中的失物。但他們否認自己殺了人，辯稱是先殺了有錢人，然後他們只是偷了東西。於是民警將兩人隔離，分別放在不同的房間審訊。地方檢察官會和每個人單獨談話。公訴人說，“因為妳有盜竊的確鑿證據，可以判妳壹年有期徒刑。”但是我可以和妳做個交易。如果妳單獨承認謀殺，我只會判妳三個月監禁，但妳的同夥會判十年監禁。如果妳拒絕坦白，被伴侶舉報，妳會被判十年有期徒刑，他只會被判三個月有期徒刑。但是，如果妳們都坦白，那麽妳們都將被判處五年監禁。“Scalfi和Nacoors應該怎麽做？他們面臨著壹個兩難的境地——坦白還是否認。很明顯，最好的策略是雙方都否認，結果大家都只判壹年。但由於兩人處於隔離狀態，無法表白。根據亞當的說法。根據斯密的理論，每個人都是從利己的目的出發，他們選擇坦白是最好的策略。因為如果妳坦白，妳可以期待三個月的短期監禁，但前提是妳的伴侶否認，這顯然比妳自己否認的10年監禁要好。這種策略是損人利己的。不僅如此，表白還有更多好處。如果對方坦白否認，就要坐牢10年。太不劃算了！所以，在這種情況下，還是應該選擇坦白。就算兩個人同時坦白，最多也只判五年，總比判10年強。所以兩者合理的選擇是坦白，原本對雙方都有利的策略(否認)和結局(判1年有期徒刑)都不會出現。這樣兩個人都選擇了弗蘭克策略而被判五年的結果叫做“納什均衡”，也叫非合作均衡。因為，每壹方在選擇策略時，並不存在“共謀”(勾結)，他們只是選擇對自己最有利的策略，而不考慮社會福利或任何其他對手的利益。換句話說，這個策略組合是由所有參與者(也稱為當事人和參與者)的最佳策略組合組成的。沒有人會為了給自己爭取更大的利益而主動改變策略。”囚徒困境”具有廣泛而深刻的意義。個人理性和集體理性的沖突，每個人對自身利益的追求，導致壹個“納什均衡”，這也是壹個對所有人都不利的結局。兩人都是在坦白否認的策略中先想到自己，所以必然要服長刑期。只有都先想到對方，或者互相勾結(勾結)，才能得到最短監禁的結果。”納什均衡“先給亞當？斯密的“看不見的手”原則受到挑戰。根據斯密的理論，在市場經濟中，每個人都是從利己的目的出發，最終整個社會達到利他的效果。讓我們回顧壹下這位經濟聖人在《國富論》中的名言:“通過追求(個人)私利，他常常比他實際想做的更有效地促進社會利益。“從‘納什均衡’引出壹個‘看不見的手’原理的悖論:從利己出發，結果不是利己，既不是利己，也不是利己。這是兩個囚犯的命運。從這個意義上說，納什均衡提出的悖論實際上動搖了西方經濟學的基石。所以，從納什均衡中，我們也可以悟出壹個道理:合作是有利的“利己策略”。但它必須符合以下黃金律:妳希望別人如何對待妳，妳就如何對待別人，但前提是別人也這樣做。那就是中國人說的，“己所不欲，勿施於人”。但前提是妳不要對我做妳不想讓我做的事。其次，“納什均衡”是非合作博弈均衡。現實中，非合作情況比合作情況更普遍。那麽“納什均衡”對馮來說是對的嗎？諾伊曼和摩根·斯特恩合作博弈論的大發展甚至可以說是壹場革命。

搜索:博弈論和納什均衡

博弈論對人類的基本假設是人類是理性的(或自私的)。壹個理性的人意味著他選擇具體策略的目的是為了自己利益的最大化。博弈論研究理性人如何選擇策略。

約翰·納西編著的博弈論經典故事《囚徒困境》說明了非合作博弈的成立及其均衡解，故稱“納什均衡”。

所有的遊戲問題都會遇到三個要素。在囚徒的故事中，兩個囚徒是玩家，也稱為參與者；當事人做出的選擇策略是承認殺人事實，最後兩人都在中間獲得了判決。如果兩名囚犯中有壹人承認謀殺，另壹人否認，那麽懺悔者將獲得減刑，否認者將獲得最嚴厲的死刑。在納什的故事中，兩人都承認了犯罪事實，所以兩個犯人得到了中間結果。

同樣，我們也可以從“自私基因”理論中看到“納什均衡”的體現。

在互聯網的原始叢林中:最優策略是如何產生的？

第壹，博弈中最優策略的產生

在開始研究合作之前，羅伯特·阿克塞爾羅德設定了兩個前提:第壹，每個人都是自私的；第二，沒有權力幹涉個人決策。換句話說，個人可以完全按照自己的興趣做決定。在這個前提下，合作要研究的問題是:第壹，人為什麽要合作；第二，人們什麽時候合作，什麽時候不合作；第三，如何讓別人配合妳。

社會實踐中合作的問題很多。比如國與國之間的關稅報復，對他國產品提高關稅有利於保護本國經濟，但國與國之間提高關稅會提高產品價格，失去競爭力，損害國際貿易的互補優勢。在對策中，由於雙方都追求自身利益的最大化，導致群體利益受損。博弈論用著名的囚徒困境描述了這個問題。

a和B各代表壹個人，他們的選擇完全無法區分。合作選C，不合作選D。如果AB選擇C合作，他們各得3分；如果壹方選C，另壹方選D，選C的得0分，選D的得5分。如果AB選D，雙方都得1分。

顯然，對小組來說最好的結果是雙方都選C，各3分，* * * 6分。如果壹個選C，壹個選D，總分為5分。如果兩個人都選D，總的來說會得2分。

這個矩陣被對策學者用來描述個體理性和群體理性的沖突:當每個人都追求個體利益最大化時，群體利益受損，這就是囚徒困境。矩陣中，對於A，對手選擇C時，選擇D得到5分，選擇C只有3分；當對手選擇D時，他選擇D得到1分，選擇C得到0分，所以無論對手選擇C還是D，對A來說，D得到的分都是最多的。這是單方面的優勢策略。當兩個優策略相遇，即A和B都選擇D，結果是各1分。這個結果在矩陣中不是最佳的。困境在於，當每個人都采用自己的優勢策略時，解是穩定的，但不是帕累托最優的。這個結果反映了個體理性和群體理性的矛盾。從數學上講，這個壹次性決策矩陣沒有最優解。

如果遊戲進行多次，只要玩家知道遊戲的次數，就壹定會在最後壹次采取背叛對方的策略。在這種情況下，沒有必要每壹局都合作。所以在很多已知次數的遊戲中，沒有人會合作。

如果遊戲在多人之間進行，次數未知，玩家會意識到，當他們繼續合作並達成默契時，每人會得到3分，但如果繼續不合作，每個人總會得到1分。這樣，合作的動機就顯露出來了。對於很多遊戲來說，未來收入應該比當前收入多壹個折現率W，W越大，未來收入越重要。當多人遊戲繼續，W比較大，也就是未來足夠重要時，最優策略與其他人采取的策略有關。假設某人的策略是第壹次合作，然後只要對方壹次不合作，他就永遠不合作。當然，配合這樣的對策才是上策。如果有人總是不管對方的策略而合作，那麽他的不合作策略總是得分最高的。對於總是不配合的人，只能采取不配合的策略。

阿克塞爾羅德做了壹個實驗，邀請了很多人參與遊戲。評分規則和前面的矩陣壹樣，遊戲什麽時候結束是未知的。他讓每位參賽者將得分最高的策略寫入電腦程序，然後讓程序在單循環賽中互相對戰，找出得分最高的策略。

第壹輪遊戲涉及14個程序，加上Axelrod自己的壹個隨機程序(即以50%的概率選擇合作或不合作)，運行了300次。結果得分最高的程序是加拿大學者羅柏寫的《針鋒相對》。這檔節目的特點是第壹局采用合作的策略，以後每壹步都跟著對方的策略走。上次妳合作，這次我合作。上次妳不配合，這次我也不配合。阿克塞爾羅德還發現，得分最高的程序有三個特點:壹是從不先背叛，即“善良”；第二，要報復對方的背叛，不是壹直配合，就是“氣人”；第三，別人背叛妳壹次，妳不能無休止的報復。以後只要人家改合作，妳也要合作，就是“包容”。

為了進壹步驗證上述結論，Ai決定邀請更多的人再次進行遊戲，並公布第壹次結果。第二次，收集了62個節目，加上他自己隨機的節目，又進行了壹次比賽。結果第壹名還是“針鋒相對”。艾對這場博弈的結論是:第壹，“以牙還牙”仍然是最佳策略。第二，上面說的三個特征還是成立的，因為在排名前15的人中，只有第八位的哈靈頓程序是“不友善”的，而在排名後15的人中，只有1始終配合著“友善”。煩躁和耐受也得到證明。另外，好的策略還必須有壹個“清晰”的特征，能讓對方三五步就認出來。太復雜的對策不壹定好。“針鋒相對”有很好的清晰度，讓對方很快發現規律，不得不采取合作的態度。

第二，合作的過程和規律

“壹報還壹報”的策略在壹個靜態組中得到了不錯的分數。那麽，在壹個動態的、不斷進化的群體中，這種合作者能否出現、發展、生存？群體會朝著合作的方向進化還是朝著不合作的方向進化？如果壹開始大家都不合作，在進化的過程中還能合作嗎？為了回答這些問題，埃利希運用生態學原理分析了合作的進化過程。

假設對策形成的戰略群是世代進化的，進化的規則包括:第壹，試錯。當人們對待他們周圍的環境時，他們壹開始不知道該做什麽，所以他們嘗試這個，嘗試那個，做任何效果好的事情。第二，遺傳。如果壹個人很合作，他的後代會有更多的合作基因。第三，學習。競爭的過程就是互相學習的過程。如果“針鋒相對”的策略好，有人願意學。根據這個思路，埃利希設計了壹個實驗，假設在63個對策中，誰在第壹輪得分高，他在第二輪小組中的比例就越高，而且是他得分的正函數。這樣，種群的結構就會在進化過程中發生變化，從中可以看出種群是向什麽方向進化的。

實驗結果很有意思。“壹報還壹報”最初在人群中占1/63。經過1000代進化，結構穩定時占24%。此外，壹些程序在進化過程中消失了。其中有壹個程序值得研究，那就是原top 15中唯壹“不厚道”的哈靈頓程序。它的對策是先合作。在對方壹直配合的時候，突然拒絕配合。如果對方立即報復，就會恢復合作。如果對方還合作，那就繼續背叛。這個節目壹開始發展很快，但是在除了《針鋒相對》之外的其他節目開始消失的時候就開始走下坡路了。所以用合作系數來衡量，群體越來越合作。

進化實驗揭示了壹個哲學:壹個策略的成功應該建立在另壹方的成功之上。“針鋒相對”在兩個人的對策中，不可能得分超過對方，最多打個平手，但其總分是最高的。它賴以生存的基礎是非常牢固的，因為它讓對方得了高分。哈靈頓計劃不是這樣的。當它得了高分，對方就會得低分。它的成功是建立在別人失敗的基礎上的，失敗者總會被淘汰。當失敗者被淘汰的時候，占別人便宜的勝利者也會被淘汰。

那麽，“以牙還牙”在壹群不是作者的極度自私的人身上還能生存嗎？艾發現，當得分矩陣和未來貼現系數固定時，可以計算出，只要群體中有5%或更多的成員“針鋒相對”，這些合作者就可以生存，只要他們的得分超過群體的整體平均得分，合作群體就會越來越大，最終擴散到整個群體。另壹方面，在合作者占多數的群體中，無論非作者的比例有多大，非作者也不可能自下而上。這說明社會進化到合作的棘輪是不可逆的，群體的合作越來越大。正是憑借這樣壹個鼓舞人心的結論，阿克塞爾羅德突破了“囚徒困境”的研究困境。

在研究中發現，合作的必要條件是:第壹，關系要持久，在壹次性或有限博弈中，對策沒有合作的動力；第二，要對對方的行為做出回報，壹個永遠合作的對策是不會和他合作的。

那麽，如何提高合作呢？首先，要建立持久的關系，即使是愛情也需要建立婚姻契約來維持雙方的合作。火車站的小販為什麽要騙人？工作中為什麽要形成小組制？換防的時候，壹方總要攻壹點，中越前線就是這樣。第二，要增強識別對方動作的能力。如果我們不知道對方是否合作，我們就無法回報他。第三，維護自己的名聲，要報復就壹定要做到，這樣人家就知道妳不好欺負，就不敢不跟妳合作了。第四，能循序漸進完成的遊戲，不要壹次性完成，以維持長久的關系。比如貿易和談判要循序漸進，促使對方采取合作的態度。第五，不要嫉妒別人的成功。“壹報還壹報”就是這樣壹種模式。第六，不要先背叛，免得承擔罪魁禍首的道德壓力。第七，不僅要回報背叛，更要回報合作。第八，不要自作聰明，占別人便宜。

(打橋牌和打麻將的區別)

阿克塞爾羅德在《合作的進化》壹書的結尾提出了幾個結論。第壹，友誼不是合作的必要條件。即使是敵人，只要滿足持續關系和相互回報的條件，也有可能合作。比如第壹次世界大戰時，德軍和英軍在塹壕戰中陷入了長達三個月的雨季。在這三個月裏，雙方達成默契，互不攻擊對方的運糧車和物資，在大反攻中決壹死戰。這個例子表明友誼不是合作的先決條件。第二，遠見不是合作的前提。埃利希舉了生物界低等動物和植物合作的例子來說明這壹點。但是，當有遠見的人類明白了合作的規律，合作進化的進程就會加快。這個時候，遠見是有用的，學習也是有用的。

當遊戲中考慮到隨機幹擾，即由於誤解而導致對策開始背叛對方時，吳建中博士通過研究發現，修正後的“以牙還牙”是指不以壹定概率報復對方的背叛，“以牙還牙”是指以壹定概率主動停止背叛。群體所有成員應對隨機環境的能力越強，“懺悔報應”的效果越好，“寬大報應”的效果越差。

三，阿克塞爾羅德的貢獻和局限性

阿克塞爾羅德通過數學和計算機化的方法研究了如何突破囚徒困境，實現合作，使這壹研究達到了壹個新的水平。他的數學證明無疑是非常雄辯和令人信服的。而且他在計算機模擬中得出的壹些結論是非常驚人的發現。例如，總分最高的人並不是每場比賽都得最高分。(劉邦和項羽的戰爭)

艾石發現的“以牙還牙”策略，從社會學的角度看，可以看作是壹種“互惠利他”。這種行為的動機是個人自利，但其結果是雙方受益，通過互惠利他，可能覆蓋最廣泛的社會生活。人與人之間通過送禮和回禮形成壹種社會生活秩序，這種秩序即使在多年隔絕、沒有語言的人群中也是最容易理解的。例如，當哥倫布登上美洲大陸時，他與印第安人的最初接觸是從交換禮物開始的。壹些看似純粹的利他行為，比如免費贈送禮物，也通過壹些間接的方式得到了回報，比如獲得社會聲譽。研究這種行為將對我們理解社會生活具有重要意義。

當囚徒困境擴展為多人遊戲時，就體現了壹個更廣泛的問題——“社會悖論”或“資源悖論”。人類擁有的資源是有限的。當每個人都試圖從有限的資源中獲得更多時，局部利益和整體利益就發生了沖突。人口問題、資源危機、交通擁堵，都可以用社會悖論來解釋。在這些問題中，關鍵是通過研究制定遊戲規則來控制每個人的行為。

阿克塞爾羅德的壹些結論很容易在中國的古典文化和道德傳統中找到。“壹報還壹報”的思想體現在“以桃報李”和“人不犯我，我不犯人”。但這些東西都不是最優的，因為“針鋒相對”在充滿隨機性的現實社會生活中是有缺陷的。對此，幾千年前，孔子就提出了“以德報德，以德報怨”這樣壹個絕妙的矯正策略。所謂“直”就是正義，是壹種修正的“針鋒相對”，修正了報復的程度。本來要罰妳5分，現在只罰妳3分，就這樣用公平審判結束了壹代又壹代的報復。

但艾對玩家的壹些假設和結論，使得他的研究不可避免地脫離了現實。首先，《合作的進化》這本書隱含了壹個重要的假設，即個體之間的博弈是完全不可區分的。在現實遊戲中，玩家之間是不可能做到絕對平等的。壹方面，對策的實際力度存在差異。雙方互相背叛，可能得不到1分，但強的得5分，弱的得0分。這樣，弱者的復仇就沒有意義了。另壹方面，即使遊戲雙方真的勢均力敵，也可能有壹方有賭徒的心理，認為自己更強，采取背叛的策略來占便宜。Ai的分數矩陣忽略了這種情況，這種賭徒心理恰恰引發了社會上大量的零和博弈。因此，程序可以在此基礎上進壹步改進。

其次，埃利希認為合作不需要期待和信任。這是他經常被質疑的地方。對策根據對手以前的戰術制定自己的戰術，而合作則需要個體認可那些見過面的個體，記住他們互動的歷史，以便做出反應，這就隱含了“預期”行為。在應對復雜的對抗環境時，信任可能是雙方達成合作必不可少的壹環。然而，如何在計算機程序中體現期望和信任仍然需要研究。

最後，重復博弈在現實中很難完全實現。大量壹次性遊戲的存在，導致了很多不合作的行為。而且被對方背叛後，反制的壹方往往沒有機會也沒有力量去報復。比如資本積累階段的違約行為，國家之間的核威懾。在這種情況下，社會要想讓交易成為可能，防止不合作的行為，就必須采用法律手段，用法律懲罰取代個體之間的“針鋒相對”，規範社會行為。這是阿克塞爾羅德的研究對制度學派的重要啟示。