在“假設(shè)發(fā)生如下事情”之前,祝福我們此生永不發(fā)生這類事情。 假設(shè)你外出時(shí),遭遇綁架,該怎么辦?有一位(國外的)自衛(wèi)專家,給出了三個(gè)應(yīng)對原則:如果你心懷僥幸,他可能將你帶到偏僻的地方,為所欲為,甚至下毒手,然后掩藏他的罪惡痕跡。從一開始,每個(gè)謀殺犯,綁架犯,強(qiáng)奸犯,他們都會用同一句話:“照我說的做,我就不會傷害你。”然而,一旦你照他們說的做,最后受傷最深的,還是你。 這一點(diǎn)似乎有點(diǎn)兒讓人疑惑,萬一受傷呢?被人用刀抵住,拼命掙扎要是不幸丟了命,豈非不識時(shí)務(wù)? 如果他們想在原地殺你,你早就已經(jīng)死了。所以:
他們不想在原地殺你,他們希望帶你去其他地方,或者先干點(diǎn)別的事。 通過打亂他們的計(jì)劃,你會成為他們最恐怖的噩夢。 如果他們不想被抓,不想把事搞得太麻煩,他們可能就會直接逃跑了。 以上三點(diǎn)原則的所有原因,其實(shí)只有一個(gè): 如果你進(jìn)了他的車,或者跟著他們?nèi)チ四硞€(gè)地方,你死定了。(以上經(jīng)驗(yàn)僅供參考,不構(gòu)成本文作者對遇到綁架的具體建議。)好的一手棋,是其令對手有不好的下一手,以及自己有好的下下一手棋。我們姑且不討論,在第1節(jié)里,專家應(yīng)對綁架的三點(diǎn)原則的適用范圍,以及如何根據(jù)情境調(diào)整策略。 就像下棋,一個(gè)人贏,一個(gè)人輸,即使和棋,也只是暫時(shí)的平靜。眾所周知,公平的分法是:一個(gè)人切,一個(gè)人選。假如兩個(gè)孩子都不是孔融,并且都想吃更多蛋糕,這其實(shí)是一個(gè)典型的零和博弈。(請注意,表格里的4個(gè)結(jié)果,都是指切蛋糕的孩子的所得收益。)切蛋糕的孩子貌似掌握了主動權(quán),但他決策的關(guān)鍵點(diǎn),取決于“然后呢?”--即對手的下一步會怎么做。顯然,挑蛋糕的孩子,會追求讓自己的蛋糕最大化,也就是讓對手的蛋糕最小化。對應(yīng)上面的表格,挑蛋糕的孩子總是會選左邊一列,從而導(dǎo)致切蛋糕的得到左邊一列的兩個(gè)較小蛋糕的結(jié)果。讓挑蛋糕的孩子將要留給他的量小的那半塊蛋糕極大化。因此,切蛋糕的孩子只能選擇盡量均分蛋糕,以保證獲得差不多的半塊蛋糕。這個(gè)量,是行中極小值的極大值,被稱為“極大極小”。也許有人會說,這么簡單的道理,為什么要說這么啰嗦?德謨克利特早在公元前300-400年前,就創(chuàng)立了“原子論”,認(rèn)為每一種事物都是由原子所組成的。對比而言,愛因斯坦對原子的理解,才算是科學(xué)。 二者之間的區(qū)別在于:后者可實(shí)驗(yàn),可計(jì)算,可運(yùn)用。作為博弈論的創(chuàng)始人,馮·諾依曼說過:沒有極小極大定理,就沒有博弈論。《囚徒的困境》一書對極小極大定理總結(jié)道:要理解這一點(diǎn),我們需要強(qiáng)調(diào)三個(gè)名詞: 而零和博弈,是敵我雙方輪流決策,由一個(gè)一個(gè)的回合疊加起來。 上述每個(gè)回合,你都有一個(gè)屬于自己的決策節(jié)點(diǎn)。然而,很多人要么忽視了節(jié)點(diǎn),要么放棄了節(jié)點(diǎn)。在每個(gè)回合的決策節(jié)點(diǎn),你其實(shí)是在做一個(gè)選擇。 你有選擇權(quán),對手也有選擇權(quán)。 敵我雙方都試圖讓自己的選擇收益最大化,讓對方的收益最小化。 當(dāng)你被綁架的時(shí)候,對手已經(jīng)出招,現(xiàn)在輪到你走棋了。 (再次強(qiáng)調(diào),本文不構(gòu)成對綁架情境的具體實(shí)戰(zhàn)建議。)這個(gè)時(shí)候,大多數(shù)人會想,我抵抗的話,會有什么后果:會受傷嗎?
會激怒對方導(dǎo)致生命危險(xiǎn)嗎? 然而,從博弈思維來看,你僅僅糾結(jié)于當(dāng)下的一步棋去想,毫無意義。 我如果這樣做,對手會如何回應(yīng)呢?再然后我又該如何應(yīng)對他的回應(yīng)呢? 我將本文開頭那個(gè)專家描述下的場景圖示如下: 如果“你”乖乖上了綁匪的車,如上圖左分支(選擇1)所示,可能導(dǎo)致如下結(jié)果:1、在第四個(gè)回合,你已經(jīng)失去了選擇權(quán); 3、綁架的許多目的是為了錢財(cái),有些歹徒會先撕票再要錢; 4、未經(jīng)核實(shí)的數(shù)據(jù)是,撕票比例高達(dá)10%; 5、據(jù)某地警方的經(jīng)驗(yàn),越是熟人綁架,撕票的可能性越高。所以,處在第二回合的“我”,要考慮的是,第三回合的對手會怎么做,以及自己會有怎樣的第四回合。 《囚徒的困境》引用了卡爾維諾在《寒冬夜行人》一書中的一句話:“你知道,你所能期盼的最好結(jié)果就是避免最壞情況?!?/strong>從一開始,每個(gè)謀殺犯,綁架犯,強(qiáng)奸犯,他們都會用同一句話:“照我說的做,我就不會傷害你。”可是,如果罪犯真的不會傷害你,那么你反抗的時(shí)候他也不會傷害你。而且,即使起初罪犯沒有太想傷害你,但是當(dāng)你失去選擇權(quán)的時(shí)候,他可能會萌發(fā)傷害的念頭。游戲者決不會從他的最佳策略上偏離到對自己造成威脅的策略上去。請看上面的圖,在第三回合,綁匪會極力讓你的收益最小化。 所以,你在第二回合要做的,是“極大化”這些自己可選的“極小值”,尤其是要避免最壞結(jié)果。同時(shí),你要“極小化”對手可選的有利于他的“極大值”。由此倒推,你就會發(fā)現(xiàn),如專家所言,在第二個(gè)回合,你應(yīng)該做的是:馮·諾伊曼對極小極大值定理的證明是復(fù)雜的,“它以一種讀者難以理解的方式結(jié)合了基本概念和拓?fù)涓拍睢薄?/section>約20年后,香農(nóng)利用 Minimax(極小化極大)算法,提出了解決國際象棋問題的設(shè)想。隨后,在AI攻克國際象棋和圍棋的過程中,Minimax(極小化極大)算法扮演著基礎(chǔ)而重要的角色。對于兩個(gè)玩家的對抗游戲,其中任何一個(gè)玩家的決策會依賴于另外一個(gè)玩家之前的決策,且另外一個(gè)玩家總是竭盡所能地想要獲得勝利。 因此,一方會在所有選項(xiàng)中選擇令其自身優(yōu)勢最大的一個(gè),而另一方則會選擇令對手優(yōu)勢最小的一個(gè)。 通過窮舉不同玩家之間的策略,該算法可以構(gòu)建一棵搜索樹,并通過窮舉不同的可能,選擇其中能得到最佳結(jié)果的路徑。 請看下圖右邊的搜索樹的最下面一行,3、12、8這一樣數(shù)字,是“我”期望獲得的可能的利益。對于對手而言,當(dāng)然會選擇讓“我”利益最小的走法,所以,在MIN那一行的B節(jié)點(diǎn),對手會選擇3、12、8中的最小值3。 同理,在C節(jié)點(diǎn),對手選最小的2;在D節(jié)點(diǎn),選最小的2。 而在MAX行,“我”要選擇“3、2、2”這一行極小值當(dāng)中的極大值“3”。 但是,即使是對于棋類這種完美博弈,該算法的計(jì)算復(fù)雜度會呈指數(shù)級增長。因此往往需要引入剪枝策略來簡化搜索的復(fù)雜度。以及,通過多次采樣的蒙特卡洛樹搜索,以減少計(jì)算量。 再往后, UCT 算法將蒙特卡洛樹搜索方法與UCB公式結(jié)合,有效解決了圍棋上的問題。進(jìn)而,基于深度強(qiáng)化學(xué)習(xí), AlphaGo誕生,驚人地?fù)魯×巳祟?,完成了以往被認(rèn)為還需要20-50年才能實(shí)現(xiàn)的任務(wù)。德謨克利特對原子的理解令人贊嘆,然而只有基于愛因斯坦的公式,人類才能造出原子彈,以及安全地利用核能。極大極小原理,給我以下七點(diǎn)啟發(fā):我們可以廣義地來想找個(gè)問題,即使不是在零和博弈的環(huán)境下。 例如說起某某產(chǎn)品經(jīng)理很厲害,可以瞬間將自己變成小白,其實(shí)就是能徹底地站在對方的角度。幾乎所有厲害的商業(yè)公司,核心原則就是“經(jīng)營顧客”。 先想著讓顧客價(jià)值最大化,然后再從中找尋讓自己最大化的策略。我經(jīng)營春藤,有時(shí)候也會和小伙伴們在一線談業(yè)務(wù)。我不是很好的銷售,口才也很一般,但每次談合作效果還不錯(cuò)。自己的也要據(jù)理力爭,不當(dāng)爛好人段永平早年經(jīng)營企業(yè),既不占供應(yīng)商的便宜,也不給批發(fā)商賒貨。不管多好的買家,必須現(xiàn)款現(xiàn)貨。何謂爛好人?就是徹底放棄自己的選擇權(quán),試圖討好對方,感動對方。 所以,很多時(shí)候,爛好人不僅招惡人,甚至催生惡人。例如,你發(fā)現(xiàn)一手棋,能夠讓自己的利益最大化。但是如果被對手識破,那么結(jié)果就會很糟糕。 有時(shí)候,棋手會心存僥幸:要是他看不到,那我就賺了。你就該假設(shè)對方是一個(gè)勢均力敵的對手,你能看到,對手也能看到。當(dāng)然,如果下讓子棋的時(shí)候,要適當(dāng)調(diào)整。以及,在德州撲克等博弈中,或是像剪刀石頭布這類首尾相連的游戲,也需要虛張聲勢。 將街上的每個(gè)司機(jī)都當(dāng)作潛在兇手但是,理論上,每個(gè)司機(jī)都有撞你的“可能性”。對你而言,這個(gè)最壞的結(jié)果可能性很小,后果很嚴(yán)重。“你知道,你所能期盼的最好結(jié)果就是避免最壞情況。”并為你的下一個(gè)、下下個(gè)選擇權(quán)做好鋪墊所謂全局觀,是指你的每個(gè)決策點(diǎn)既是相對獨(dú)立的,又和過去和未來相關(guān)聯(lián)。有些人只管當(dāng)下舒服,而不顧自己的下一手該如何。如果你在一個(gè)球隊(duì)里,隊(duì)友總是給你傳爛球,或者不給你傳球,你一定會罵他爛人。可是在現(xiàn)實(shí)中,現(xiàn)在的“你”,可能經(jīng)常不顧及未來的“你”,不管未來的“你”是否有好的選擇權(quán)。一連串有算法的選擇權(quán),就是一個(gè)人的“人生算法”。是指你要當(dāng)好人,但保留懲罰壞蛋的權(quán)利例如,你徹底放棄懲罰對方的權(quán)利,以換取對方徹底的信任。前提是你相信對方是一個(gè)珍惜榮譽(yù)的人。博弈論只研究對贏感興趣的、有完善的邏輯思維能力的游戲者參與的博弈。只有你相信你的對手(一個(gè)或幾個(gè))既是理性的,又是希望贏的,而你自己在玩的時(shí)候也始終憋著一股勁兒,要力爭為自己取得最好的結(jié)果,這樣的博弈才是博弈論分析的對象。 對博弈論而言,自私的人并不可怕,可怕的是不理性的人。 為什么呢? 一個(gè)自私的人可能做損人利己的事,一個(gè)合作的人可能做利人利己的事情。 但是,一個(gè)不理性的人可能做損人不利己的事情。 博弈論很強(qiáng)大,但是如果你是在和一個(gè)非理性的人“交手”,就很難得出一個(gè)解答。
你的最佳選擇是:
遠(yuǎn)離這類人。 舉例說吧,經(jīng)濟(jì)較發(fā)達(dá)區(qū)域的特點(diǎn)之一是:民眾只算自己的帳,而不去算別人賺多賺少。 倘若不如此,就會出現(xiàn)如下局面:我才賺十塊,你居然賺一千塊,我寧可犧牲自己的十塊毀掉你的一千塊。 這就是損人不利已。 如此一來,博弈論的均衡就無法出現(xiàn)。因?yàn)榉菍那闆r下的“損人不利己”,也就是理性的失去,會摧毀整個(gè)游戲。 (當(dāng)然,經(jīng)濟(jì)是否發(fā)達(dá)有多方面因素,不發(fā)達(dá)地區(qū)也經(jīng)常有“只算自己帳”的傳統(tǒng)。) 記得中學(xué)時(shí)有個(gè)同學(xué)的哥哥當(dāng)年混社會,他說他們那群20歲上下的青年誰都不怕,最怕十四、五歲的孩子,因?yàn)檫@類混小子可能毫無目的不顧后果地沖上來給他們一刀。 博弈論因?yàn)檫@類人而失效。 本文開篇對于綁架者的分析,也是假設(shè)他們是理性的。 但是,如果綁架者不是理性的人呢? 那么,不理性的兇手可能會不顧受害人呼救招來人,在沒有利益的情況下毒手。 最后 歸根結(jié)底,一切在乎“對的人”。 不管是零和博弈,還是雙贏博弈,你都要努力令對方是一個(gè)理性的人。 既要選擇對的隊(duì)友,更要選擇對的對手。 關(guān)于極大極小原理,我們還可以將其智慧拓展為: 狹路相逢勇者勝, 勇者相逢智者勝, 智者相逢德者勝, 德者相逢道者勝。 最后,祝福你我此生一早避開,不必在狹路上遭遇那些損人不利己的混蛋。
|