生活當中的博弈論思考
關(guān)注他41 人贊同了該文章
整個文章的大綱視圖奉上~
什么是博弈論? 博弈論是指在個人做決策的時候也要考慮對手可能的決策的影響的一種動態(tài)決策學問。
商業(yè)當中的博弈論
兩種視角看待問題 - 第一是用動態(tài)的眼光去看待各種視角,很多東西并不是一成不變的靜態(tài)場景,比如在一個公司當中我們既是公司政策和戰(zhàn)略的執(zhí)行者,也是影響公司發(fā)展的參與者。傳統(tǒng)經(jīng)濟學認為市場都是靜態(tài)的,但現(xiàn)實情況是我們既參與了市場,也改變了市場 - 第二是用博弈的眼光去看待與人合作,做決策之前,要去思考對手可能做出的反應并做出預測。我理解的是對手會有不同的概率做出不同的反應,我們就需要按照每種概率去做相應的備用計劃和反應的方案。
第一部分 什么是合作競爭理論
真實的商業(yè)運作不只是有競爭,爾虞我詐以及搶奪資源,合作也是一個重要的因素。當共同建立一個市場的時候,兩個公司可能是合作關(guān)系;而當分配利益的時候,這兩個公司又是競爭關(guān)系。比如在快車業(yè)務建立并發(fā)展的時候,滴滴和快的就是合作的關(guān)系,它們共同對消費者的行為模式進行數(shù)據(jù)挖掘,優(yōu)化服務,制定出原本不存在的行業(yè)基本規(guī)則;而在市場建立以后,進行市場份額的分配的時候,這兩家公司又是競爭的關(guān)系,雙方會為了市場份額大打出手。因此在商業(yè)的世界里面,那句老話“商業(yè)沒有永遠的敵人,也沒有永遠的朋友,只有永遠的利益”并不是毫無根據(jù)的毒雞湯,恰恰是商業(yè)世界的一個縮影。對于商業(yè)世界,并不是賽道或者是其他競技比賽,并不是只有當上第一名才可以實現(xiàn)盈利,并不需要通過消滅其他對手來使得自己強大起來,相反很多時候合作反而能夠使得雙方共同達到利益最大化,達到協(xié)同效應,也就是1+1>2的結(jié)果。
第二部分 在商業(yè)活動中參與者所扮演的角色:價值鏈十字模型
價值鏈十字模型是分析商業(yè)活動中五個部分所處的位置,直觀地看出彼此之間的相互作用和影響關(guān)系。這五個部分包括了公司、互補者、競爭者、顧客和供應商。如果我們把它畫到圖上,就是以下的結(jié)果。
這個圖可以分成兩個方向看, 縱向
縱向我們更加熟悉一些,原材料從供應商出發(fā),經(jīng)過公司的加工之后再出售給消費者,是一條簡單但完整的商品流程。
橫向
橫向是從商業(yè)的視角上看公司與周圍的商業(yè)參與者的關(guān)系。所謂互補者,是指從消費者的角度上看,消費者同時購買了貴公司所出售的產(chǎn)品以及其他公司的產(chǎn)品比單獨購買貴公司的產(chǎn)品所得到的效益或者說價值更大,那么那個“其他公司”就是你的互補者。書中舉的例子就是麥當勞當中的漢堡和可樂的協(xié)同效應就要比單獨購買漢堡的體驗和價值更好,那么在這里可口可樂就是麥當勞的互補者。相反,購買了你的產(chǎn)品和競爭者產(chǎn)品之后消費者所獲得的價值會降低,比如消費者買了面包以后就已經(jīng)吃飽了,再購買漢堡所獲得的使用價值就會降低,因此面包商和漢堡店就是競爭者。
幾點有趣
對稱。 - 供應商和顧客其實是相同地位的兩個節(jié)點,我們作為雇員,其實是充當人力供應商的角色,因此當發(fā)生勞資糾紛的時候,實際上是公司沒有把員工和顧客放在同樣重要的地位上進行考慮。 - 當你從不同的視角去看待問題的時候,角色會發(fā)生互換。 - 多個十字模型以節(jié)點作為中心可以構(gòu)建出一個大的關(guān)系網(wǎng)絡,我們站在這個大的關(guān)系網(wǎng)絡上面可以從宏觀的視角去看待問題,人際關(guān)系以及及時進行角色轉(zhuǎn)換。
生活當中的策略思維
第一部分:靜態(tài)決策
下棋
其實熟悉強化學習的人都知道AlphaGo跟人類棋手下棋的時候,總是根據(jù)對手下的每一步,利用計算機強大的計算能力去計算自己下的每一步棋,以及對手針對自己的棋一直蔓延到終點所得到的獎勵大小,每次都選取當前狀態(tài)下獎勵最大的那個走法,簡單說,就是AlphaGo算準了你能下的所有可能性,并且知道自己要怎么下才能夠最有可能贏你。這其中就涉及到兩種方法“向前展望,向后推導”,“向前展望”就是思考自己如果做出某個決策之后,對手可能會有什么樣的反應的可能性;而“向后推導”是指針對對手可能的反應以及自己想要取得的目標效果,往后推導,我應該采取什么樣的策略才能達成我的目的。這種方式適用在靜態(tài)決策當中,你和對手分別先出和后出招的情況。
第二部分:動態(tài)決策
剛剛說的是靜態(tài)環(huán)境下你應該如何出招。如果是動態(tài)情況下,也就是你并不知道對手會做什么反應,你需要和對手同時做決策的情況下,那么就是一個動態(tài)決策的過程。這個過程總結(jié)下來說三點 1. 找到自己的優(yōu)勢策略。 2. 避免自己的弱勢策略。 3. 尋找博弈的均衡。
我對這三個步驟的理解是,其實就是有點像彈簧在拉伸之后的回復。也就是先看使自己利益最大化的策略是什么,也就是彈簧最長可以拉多長;接著,思考自己的弱勢策略,也就是自己哪個策略會使得自己最為不利,可以看做是底線,也就是彈簧最小可以壓縮到什么長度,直到你不可以忍受或者是結(jié)局最差;然后思考對方的可能對應你的決策的策略,取一個平衡點,也就是均衡點,叫做納什均衡,也就是針對對方的決策你所做出的決策都是最優(yōu)的,注意這里的前提條件“針對對方所做的決策”,在物理當中就是彈簧的自然長度,這個長度剛剛好。
第三部分:如何防止對手預測我們,如何影響對手
以上說的是決策的方法,但是如果我們的決策都可以被預料到的話,那么科學的決策過程也是沒什么用的。所以我們需要防止對手能夠預測到我們的決策,同時我們又希望通過我們施加影響可以讓對手按照我們預設定地想法去做我們預料到的決策。
防止對手預測到我們的決策
可以用隨機策略干擾對手。比如二戰(zhàn)時候盟軍在歐洲登陸有兩個可以選擇的地方:諾曼底和加來港,采取了故意泄露情報、混淆視聽的方式讓德軍搞不清楚到底是諾曼底還是加來港登陸。
影響對手
威脅和承諾
威脅就是告訴對方,如果你怎么做我就可能會如何做。比如在冷戰(zhàn)時期,面對蘇聯(lián)在一些領(lǐng)域軍事性的挑釁,美國就放出狠話“不排除使用核武器的可能”,這句話一個是能夠起到威懾作用,第二個是留有余地,萬一蘇聯(lián)真的不按照美國的影響走,那么美國也留有余地。 承諾就是釋放出明確的信息,讓對方明確自己的決心。比如在《西虹市首富》當中當王多魚不斷購入夕陽產(chǎn)業(yè)的股票,其實是在資本市場的博弈當中發(fā)出一個明確的信號——“我看好它們的發(fā)展前景”,于是乎,很多人就會按照這個信號去購入這些股票,然后這些股票價格就會漲起來。這其實并非只是電影里面的情節(jié),許多商業(yè)的操作就是有跡可循的。為了讓自己的承諾看起來是會執(zhí)行的,有時候還需要采取一定的行動去釋放這種承諾的堅決。
第四部分:如何達成合作
囚徒困境
經(jīng)典的囚徒困境是如下的表格。
在這個表格當中兩個囚徒其中一個坦白的話,坦白那個就會獲得立即釋放,而抵賴的要判20年(右對角線情況);如果都抵賴,那么就只判刑一年(右下角);如果都坦白的話,就各自判刑5年(左上角情況)。在這種情況下個人利益最大化的策略與群體利益最大化的策略是不同的,很明顯,對于個人來說,肯定是不想被判刑的,于是應該選擇右對角線的情況,而對于我們看到整個宏觀局面的人來看,群體利益最大化是右下角大家都抵賴的情況。但其實囚徒困境每個人的決策會受到幾個條件的影響。 1. 博弈次數(shù)
整個影響因素可以用一個很熟悉的例子來闡述,比如在國內(nèi)很多旅游景點商販都有“宰外地游客”的現(xiàn)象,因為他們本著沒有游客只會來一次,沒有回頭客的理念,不宰白不宰。其實在這里就是買東西就是顧客與商家博弈的過程,相對于旅游景點,在大城市或者是鄉(xiāng)鎮(zhèn)里面定點扎守的老店,更難去宰客,因為顧客可能會在你這邊被騙一次,但是別忘了經(jīng)營一家店是一個長期的過程,是一個多次博弈的過程,顧客頂多只會被騙一次。被騙一次之后,把名聲傳開以后就不會再有顧客來光顧了。
博弈的成本和利益 假設說,現(xiàn)在參與博弈的不是兩個剛認識合伙打劫銀行的囚犯,而是一對認識很久的夫婦,他們感情深厚,寧愿一起坐牢,也不愿意出賣對方,那么他們會選擇共同抵賴而不愿意出賣對方。這也讓我想起了《西虹市首富》王多魚關(guān)于最后是否救夏竹,就是關(guān)于個人的生命危險,300億遺產(chǎn)和夏竹的安危的博弈,其實在現(xiàn)實生活里,這個對人性的考驗是很危險的。我的觀點是,對于王多魚來說,夏竹對他來說成本比錢更大,或者說他更不能接受失去夏竹。同樣的,你可以看到電影《金錢帝國》當中為什么陳奕迅飾演的警員被抓了之后不愿意指認他背后的龐大幕后黑手而獲得減刑?我相信指認之后要么是自身,要么是家人,可能會有生命危險,因此在這種情況下,不指認乖乖服刑反而是代價比較小的做法。
3.博弈的人數(shù)
在囚徒困境當中,假設說不是兩個人的博弈,而是100個人的博弈,那么大家不太可能都抵賴,因為大家會明白,要一百個人都串供,那太難了,對自己的優(yōu)勢策略反而是直接供認。有意思的是,我聽到我老大的一個例子,覺得也是在工作上有啟發(fā),特此分享。比如說產(chǎn)品經(jīng)理對開發(fā)人員提出一個需求,詢問需要完成的時限,那么這個開發(fā)人員肯定不想天天加班的呀,于是會要一個比實際開發(fā)時間所更寬裕的時長,但是對于產(chǎn)品經(jīng)理和全局來說可并不是利益最大化,于是產(chǎn)品經(jīng)理更好的做法其實是把多個程序員集中在一起,開個小會,詢問需要開發(fā)的時間,這樣由于多個程序員“串供”的可能性小,有的說一個星期,有的說4天,有的說5天……所以最終能夠得到一個關(guān)于開發(fā)時間的較為合理的時間,這就是均衡點。
要想避免囚徒困境 增大懲罰力度。比如同樣的,中國式過馬路,實際上也是一群人的博弈,既有遵守交通秩序的人,也有闖紅燈的人。那么實際上就是遵守秩序的你和其他闖紅燈的人博弈的過程,其實是大家都不闖紅燈才是對群體的利益最大化。但是總有人為了個人利益去闖紅燈。看見了別人闖紅燈而你還在太陽下曝曬,那你闖不闖?在這里需要加大懲罰力度,對闖紅燈的個人開出高額罰單,并且嚴格執(zhí)行,只要闖一個那么就執(zhí)行罰單一個,那么就不會有人敢闖紅燈導致其他人效仿的行為。 關(guān)于囚徒困境的一個仿真模擬,可以在《合作的進化》這本書當中找到,這本書說的一個核心觀點就是,在多次博弈的過程中,只有不背叛的“好人策略”才會獲得顯著的生存優(yōu)勢,這并不是在灌輸雞湯,這確確實實在現(xiàn)實當中,只有充當靠譜的人,才會有讓別人和你建立長期合作的關(guān)系,這點不管你是打工的還是領(lǐng)導層都是一個道理,面對上級交代的開發(fā)任務,你可以通過博弈的方式爭取到有利的資源和比較寬裕的時間,但也要有靠譜的心態(tài),在規(guī)定的時間內(nèi)完成開發(fā)任務,最好是稍微完美些,這樣下次上級才會把更加重要的任務交付給你,建立起值得信賴的長期合作。
總結(jié)
最后,如果你什么都沒記住的話,至少要記得這兩句話“思前想后,計劃和做準備的要往前推幾步,做好應對方案”,“成為一個靠譜的人,才會有建立長期合作的可能”。