這樣,“均衡對”就明確定義為:壹對策略a*(屬於策略集A)和b*(屬於策略集B)稱為均衡對。對於任何策略A(屬於策略集A)和策略B(屬於策略集B),總有壹個偶對(A,b*) ≤偶對(a*,b*) ≥
非零和博弈也有以下定義:壹對策略a*(屬於策略集A)和b*(屬於策略集B)稱為非零和博弈的均衡對。對於任意壹個策略A(屬於策略集A)和策略B(屬於策略集B),總有:偶對(A,b*) ≤偶對(a*,b*)玩家A;偶對(a*,b)≤遊戲中玩家B的偶對(a*,b*)。
有了上面的定義,納什定理就立即得到了:
任何有限純策略的二人對策至少有壹個均衡對。這個均衡對叫做納什均衡點。
納什定理的嚴格證明需要不動點理論,不動點理論是研究經濟均衡的主要工具。壹般來說,找到平衡點的存在性就相當於找到了博弈的不動點。納什均衡點的概念提供了壹個非常重要的分析方法,使得博弈論研究能夠在壹個博弈結構中找到更有意義的結果。
但是納什均衡點的定義僅限於任何不想單方面改變策略的參與人,忽略了其他參與人改變策略的可能性。所以很多時候納什均衡點的結論是沒有說服力的,研究者形象地稱之為“天真可愛的納什均衡點”。
R Selten按照壹定的規則剔除了多個均衡中壹些不合理的均衡點,從而形成了兩個精煉的均衡概念:子博弈完全均衡和顫抖手完美均衡。囚徒困境
在博弈論中,占優戰略均衡的壹個著名例子是塔克給出的“囚徒困境”博弈模型。這個模型以壹種特殊的方式告訴我們壹個警察和壹個小偷的故事。假設甲、乙兩個小偷共同作案,私自入室,被警察抓住。警察把這兩個人放在兩個不同的房間裏審訊。對於每個嫌疑人,警方給出的政策是:如果兩個嫌疑人都坦白自己的罪行,交出贓物,證據確鑿,兩人都被定罪,各判8年;如果只有壹個嫌疑人坦白,另壹個否認,那麽妨礙公務罪(因為有證據表明他有罪)會再罰兩年,坦白者會被立即釋放。如果兩人都否認,警方因證據不足不能判他們盜竊罪,但可以以非法侵入罪各判1年有期徒刑。下表給出了這個博弈的收益矩陣。囚徒困境博弈【囚徒的dilemma]A╲B自白否認自白8,8 0,10否認10,0 1對於a來說,雖然他不知道b選擇什麽,但他知道無論b選擇什麽,選擇“自白”總是對他最好的。很明顯,根據對稱性,B也會選擇“表白”。結果兩人都被判有期徒刑8年。但如果都選擇“否認”,每人只判1年。在表2.2的四個行動選擇組合中,(拒絕,否認)是帕累托最優的,因為任何偏離這個行動選擇組合的其他行動選擇組合至少會使壹個人的處境更糟。但是,“坦白”是任何犯罪嫌疑人的優勢策略,(坦白,坦白)是壹個優勢策略均衡,也就是納什均衡。不難看出納什均衡和帕累托是有沖突的。
從數學的角度來說,這個理論是合理的,即所有的選擇都是坦誠的。但在這種多維信息共同作用的社會學領域,顯然是不合適的。就像在中國古代,官員之間的賄賂被稱為“壞規矩”而不是試圖去發現,那是因為社會制度約束了人們的行為,迫使人們的政策改變。比如從心理學的角度來說,選擇表白的成本會更大,壹方的表白會讓另壹方心虛,那麽事後的報復,以及在身邊知情人中“出賣”的作用,會讓他失去更多。但8年到10年之間的增加比例會被稀釋,人的尊嚴會讓人產生報復心理,稍微打破“規則”。我們正處於大數據時代。要處理壹件事更接近事實,就要盡可能多的掌握相關信息,進行合理的加權分析。人的運動圖像動機復雜,囚徒困境只能作為簡化模型的參考,具體決策需要具體分析。智能豬遊戲
首先,經濟學中“豬的收益”的例子是:
假設豬圈裏有壹頭大豬和壹頭小豬。豬圈的壹端有壹個豬槽(兩頭豬都在槽端),另壹端裝有壹個按鈕,控制豬食的供應。當妳按下按鈕的時候,10單位的豬食會進入食槽,但是在去食槽的路上,有兩個單位的豬食會消耗體力。如果大豬先到達低谷,大豬與食物的收益比為9: 65,438+0。同時動作(按下按鈕),收入比為7:3;仔豬先到低谷,收益比6∶4。那麽,在兩頭豬都是明智的前提下,最後的結果是小豬選擇等待。
智能豬遊戲是納什在1950提出的。事實上,豬選擇等待,讓大豬按下控制按鈕,而他選擇“乘船”(或搭便車)的原因很簡單:在大豬選擇行動的前提下,如果豬選擇等待,豬可以獲得4個單位的凈收入,而如果豬行動,只能獲得大豬留下的1個單位的凈收入,所以等待比行動好;在大豬選擇等待的前提下,如果小豬行動,小豬的收益將無法覆蓋成本,凈收益為-1單位。如果小豬也選擇等待,小豬的收益為零,成本為零。總之,等待勝於行動。
博弈論中的報酬矩陣可以更清晰的描述小豬的選擇:小豬等大豬行動5,1 4,4,等9,-1 0,0。從矩陣可以看出,大豬選擇行動時,如果行動,收益是1,如果等待,收益是4,所以選擇等待。當大豬選擇等待時,如果小豬行動,其收益為-1,而如果小豬等待,其收益為0,所以小豬也選擇等待。綜合來看,無論大豬選擇行動還是等待,小豬的選擇都會是等待,即等待是小豬的優勢策略。
在小企業管理中,學會如何“搭便車”,是壹個精明的職業經理人最基本的素質。在某些時候,等待,讓其他大企業先開拓市場,是明智的選擇。這個時候,不做也可以做點什麽!
聰明的管理者善於利用各種有利條件為自己服務。“搭便車”其實是職業經理人面對每壹筆開銷的另壹種選擇。關註和研究它可以為企業節省很多不必要的開支,從而使企業的管理和發展上壹個新臺階。這種現象在經濟生活中很常見,但小企業的管理者很少熟悉。
在智能豬遊戲中,雖然豬“撿現成”的行為在道德上是可鄙的,但遊戲策略的主要目的不就是利用策略實現自身利益最大化嗎?美麗的硬幣
壹個陌生的美女來找妳聊天,要求和妳玩壹個遊戲。美女建議道:“讓我們各自展示硬幣的壹面,要麽正面,要麽反面。如果我們都是頭,那我給妳3元,如果我們都是尾,我給妳1元,剩下的妳給我2元。”聽起來是個不錯的提議。如果我是男的,我無論如何都會玩,但是經濟上的考慮就是另壹回事了。這個遊戲真的足夠公平嗎?紳士/美女頭女尾3,-3 -2,+2尾-2,+2 1,-1假設我們頭的概率是X,尾的概率是1-X,為了利益最大化,我們應該在對手露出頭或尾的時候得到相等的回報,否則對手總是可以改變頭和尾的概率來減少我們的總收益,這裏列出的等式是3x+(-2)*(1-X)=(-2)* 1
壹般來說,這個等式意味著當妳的對手總是積極的時候,妳得到的好處和當妳的對手總是消極的時候,妳得到的好處是壹樣的,也是最大的。解方程得出x=3/8,這意味著每八次呈現三次正面,平均呈現五次反面是我們的最佳策略。將x=3/8代入收益表達式3*x+(-2)*(1-x)可以得到每次的預期收益,計算結果為-1/8元。
同樣,設正面出現美女的概率為y,反面出現美女的概率為1-y,等式-3y+2(1-y)= 2y+(-1)*(1-y)。
y等於3/8,壹個美女的預期收益是2(1-y)-3y=1/8元。這告訴我們,在雙方都采取最優策略的情況下,平均每次美女贏1/8元。其實只要美女采用(3/8,5/8)的方案,無論妳采用什麽方案,都改變不了局面。如果都是人頭,每次的預期收益是(3+3+3-2-2-2-2)/8 =-1/8元。
如果把所有的尾部都顯示出來,那麽每次的預期收益是(-2-2-2+1+1)/8 =-1/8元。而任何策略無非是上述兩種策略的線性組合,所以期望仍然是-1/8元。但是當妳也采取最優策略的時候,至少可以保證妳損失最小。否則妳肯定會被美女采取的策略盯上,從而失去更多。這種博弈模型看似無用,但實際上可能涉及到金融市場定價中最重要的模型:定價權重模型。
總的來說,“博弈論”的本質是把日常生活中的競爭矛盾以遊戲的形式表現出來,運用數學和邏輯的方法分析事物的運行規律。既然有遊戲的參與者,就壹定有遊戲規則的制定者。深刻理解競爭行為的本質,有助於我們分析和掌握競爭中事物之間的關系,也更便於我們制定和調整規則,使其最終按照我們預期的目的運行。