極大極小原理

月中尋桂QQ 2021-09-07

展開全文

1

在“假設(shè)發(fā)生如下事情”之前，祝福我們此生永不發(fā)生這類事情。

假設(shè)你外出時(shí)，遭遇綁架，該怎么辦？

有一位（國外的）自衛(wèi)專家，給出了三個(gè)應(yīng)對原則：

1、不要跟他去第二個(gè)地點(diǎn)。

如果你心懷僥幸，他可能將你帶到偏僻的地方，為所欲為，甚至下毒手，然后掩藏他的罪惡痕跡。

2、記住，他在撒謊。

不管壞人說多好聽，別相信。

這位專家的觀點(diǎn)是：

從一開始，每個(gè)謀殺犯，綁架犯，強(qiáng)奸犯，他們都會用同一句話：“照我說的做，我就不會傷害你。”
然而，一旦你照他們說的做，最后受傷最深的，還是你。

3、要在原地，用盡一切手段與之搏斗。

這一點(diǎn)似乎有點(diǎn)兒讓人疑惑，萬一受傷呢？

被人用刀抵住，拼命掙扎要是不幸丟了命，豈非不識時(shí)務(wù)？

然而，這位專家的洞見是：

如果他們想在原地殺你，你早就已經(jīng)死了。

所以：

他們不想在原地殺你，他們希望帶你去其他地方，或者先干點(diǎn)別的事。
通過打亂他們的計(jì)劃，你會成為他們最恐怖的噩夢。
如果他們不想被抓，不想把事搞得太麻煩，他們可能就會直接逃跑了。

以上三點(diǎn)原則的所有原因，其實(shí)只有一個(gè)：

如果你進(jìn)了他的車，或者跟著他們?nèi)チ四硞€(gè)地方，你死定了。

（以上經(jīng)驗(yàn)僅供參考，不構(gòu)成本文作者對遇到綁架的具體建議。）

2

以上是一個(gè)生動的博弈場景。

由此引出我的一句“大腦碎片”：

好的一手棋，是其令對手有不好的下一手，以及自己有好的下下一手棋。

我們姑且不討論，在第1節(jié)里，專家應(yīng)對綁架的三點(diǎn)原則的適用范圍，以及如何根據(jù)情境調(diào)整策略。

本文的焦點(diǎn)是：

極大極小原理。

綁架，是一場零和博弈。

就像下棋，一個(gè)人贏，一個(gè)人輸，即使和棋，也只是暫時(shí)的平靜。

雙方?jīng)]有合作的可能。

對于這類博弈，馮·諾依曼提出了“極小極大原理”。

《囚徒的困境》一書，用我們熟悉的分蛋糕來示例。

眾所周知，公平的分法是：一個(gè)人切，一個(gè)人選。

假如兩個(gè)孩子都不是孔融，并且都想吃更多蛋糕，這其實(shí)是一個(gè)典型的零和博弈。

第一個(gè)孩子（切蛋糕那個(gè)）的兩個(gè)策略是：不均分和盡可能均分。
第二個(gè)孩子（挑蛋糕那個(gè)）也有兩個(gè)策略：選較大的那一塊或選較小的那一塊。

如下圖。

（請注意，表格里的4個(gè)結(jié)果，都是指切蛋糕的孩子的所得收益。）

切蛋糕的孩子貌似掌握了主動權(quán)，但他決策的關(guān)鍵點(diǎn)，取決于“然后呢？”--即對手的下一步會怎么做。

顯然，挑蛋糕的孩子，會追求讓自己的蛋糕最大化，也就是讓對手的蛋糕最小化。

對應(yīng)上面的表格，挑蛋糕的孩子總是會選左邊一列，從而導(dǎo)致切蛋糕的得到左邊一列的兩個(gè)較小蛋糕的結(jié)果。

于是切蛋糕的孩子要做的事情，就是：

讓挑蛋糕的孩子將要留給他的量小的那半塊蛋糕極大化。

因此，切蛋糕的孩子只能選擇盡量均分蛋糕，以保證獲得差不多的半塊蛋糕。

這個(gè)量，是行中極小值的極大值，被稱為“極大極小”。

也許有人會說，這么簡單的道理，為什么要說這么啰嗦？

德謨克利特早在公元前300-400年前，就創(chuàng)立了“原子論”，認(rèn)為每一種事物都是由原子所組成的。

然而，這只是一種想法。

對比而言，愛因斯坦對原子的理解，才算是科學(xué)。

二者之間的區(qū)別在于：后者可實(shí)驗(yàn)，可計(jì)算，可運(yùn)用。

作為博弈論的創(chuàng)始人，馮·諾依曼說過：沒有極小極大定理，就沒有博弈論。

《囚徒的困境》一書對極小極大定理總結(jié)道：

在兩個(gè)利益完全相反的人之間出現(xiàn)的有精確定義的沖突，總存在一種理性的解；
所謂理性的解，就是在給定沖突性質(zhì)的前提下，雙方都確信他們不可能期望有更好的結(jié)果了。

3

讓我們回到綁架現(xiàn)場。

即使被綁架者非常被動，但這仍然是一場博弈。

要理解這一點(diǎn)，我們需要強(qiáng)調(diào)三個(gè)名詞：

1、回合；

2、節(jié)點(diǎn)；

3、選擇權(quán)。

回合

許多事情，都是連續(xù)決策的結(jié)果。

而零和博弈，是敵我雙方輪流決策，由一個(gè)一個(gè)的回合疊加起來。

節(jié)點(diǎn)

上述每個(gè)回合，你都有一個(gè)屬于自己的決策節(jié)點(diǎn)。

然而，很多人要么忽視了節(jié)點(diǎn)，要么放棄了節(jié)點(diǎn)。

選擇權(quán)

在每個(gè)回合的決策節(jié)點(diǎn)，你其實(shí)是在做一個(gè)選擇。

你有選擇權(quán)，對手也有選擇權(quán)。

敵我雙方都試圖讓自己的選擇收益最大化，讓對方的收益最小化。

當(dāng)你被綁架的時(shí)候，對手已經(jīng)出招，現(xiàn)在輪到你走棋了。

（再次強(qiáng)調(diào)，本文不構(gòu)成對綁架情境的具體實(shí)戰(zhàn)建議。）

你仍然有選擇權(quán)：

1、放棄抵抗，上對方的車；

2、大聲呼救，拼命反抗。

這個(gè)時(shí)候，大多數(shù)人會想，我抵抗的話，會有什么后果：

會受傷嗎？
會激怒對方導(dǎo)致生命危險(xiǎn)嗎？

然而，從博弈思維來看，你僅僅糾結(jié)于當(dāng)下的一步棋去想，毫無意義。

你應(yīng)該去想：

我如果這樣做，對手會如何回應(yīng)呢？再然后我又該如何應(yīng)對他的回應(yīng)呢？

也就是說：

你要計(jì)算下一步，以及下下一步。
然后，再由此倒退，你現(xiàn)在這一步該如何做選擇。

我將本文開頭那個(gè)專家描述下的場景圖示如下：

如果“你”乖乖上了綁匪的車，如上圖左分支（選擇1）所示，可能導(dǎo)致如下結(jié)果：

1、在第四個(gè)回合，你已經(jīng)失去了選擇權(quán)；

2、對手可以自由選擇讓自己利益最大化的做法；

3、綁架的許多目的是為了錢財(cái)，有些歹徒會先撕票再要錢；

4、未經(jīng)核實(shí)的數(shù)據(jù)是，撕票比例高達(dá)10%；

5、據(jù)某地警方的經(jīng)驗(yàn)，越是熟人綁架，撕票的可能性越高。

所以，處在第二回合的“我”，要考慮的是，第三回合的對手會怎么做，以及自己會有怎樣的第四回合。

《囚徒的困境》引用了卡爾維諾在《寒冬夜行人》一書中的一句話：

“你知道，你所能期盼的最好結(jié)果就是避免最壞情況?！?/strong>

這句話，很好地說明了極小極大原理。

還記得本文開頭專家的第二條建議嗎？

記住，他在撒謊。

從一開始，每個(gè)謀殺犯，綁架犯，強(qiáng)奸犯，他們都會用同一句話：“照我說的做，我就不會傷害你。”

可是，如果罪犯真的不會傷害你，那么你反抗的時(shí)候他也不會傷害你。

而且，即使起初罪犯沒有太想傷害你，但是當(dāng)你失去選擇權(quán)的時(shí)候，他可能會萌發(fā)傷害的念頭。

回到博弈思維：

游戲者決不會從他的最佳策略上偏離到對自己造成威脅的策略上去。

尤其是在零和博弈中，對你有利，對綁匪就不利。

請看上面的圖，在第三回合，綁匪會極力讓你的收益最小化。

所以，你在第二回合要做的，是“極大化”這些自己可選的“極小值”，尤其是要避免最壞結(jié)果。

同時(shí)，你要“極小化”對手可選的有利于他的“極大值”。

由此倒推，你就會發(fā)現(xiàn)，如專家所言，在第二個(gè)回合，你應(yīng)該做的是：

要在原地，用盡一切手段與之搏斗。

4

僅僅明白道理并不夠，我們需要定理。

為什么需要定理？

因?yàn)槎ɡ砜梢孕纬伤惴ā?br>

馮·諾伊曼對極小極大值定理的證明是復(fù)雜的，“它以一種讀者難以理解的方式結(jié)合了基本概念和拓?fù)涓拍睢薄?/section>
約20年后，香農(nóng)利用 Minimax（極小化極大）算法，提出了解決國際象棋問題的設(shè)想。
隨后，在AI攻克國際象棋和圍棋的過程中，Minimax（極小化極大）算法扮演著基礎(chǔ)而重要的角色。
極小化極大算法（Minimax）可被概括為：
對于兩個(gè)玩家的對抗游戲，其中任何一個(gè)玩家的決策會依賴于另外一個(gè)玩家之前的決策，且另外一個(gè)玩家總是竭盡所能地想要獲得勝利。
因此，一方會在所有選項(xiàng)中選擇令其自身優(yōu)勢最大的一個(gè)，而另一方則會選擇令對手優(yōu)勢最小的一個(gè)。
通過窮舉不同玩家之間的策略，該算法可以構(gòu)建一棵搜索樹，并通過窮舉不同的可能，選擇其中能得到最佳結(jié)果的路徑。

請看下圖右邊的搜索樹的最下面一行，3、12、8這一樣數(shù)字，是“我”期望獲得的可能的利益。

對于對手而言，當(dāng)然會選擇讓“我”利益最小的走法，所以，在MIN那一行的B節(jié)點(diǎn)，對手會選擇3、12、8中的最小值3。
同理，在C節(jié)點(diǎn)，對手選最小的2；在D節(jié)點(diǎn)，選最小的2。
而在MAX行，“我”要選擇“3、2、2”這一行極小值當(dāng)中的極大值“3”。
這就是Minimax（極小化極大）算法。
但是，即使是對于棋類這種完美博弈，該算法的計(jì)算復(fù)雜度會呈指數(shù)級增長。
因此往往需要引入剪枝策略來簡化搜索的復(fù)雜度。
以及，通過多次采樣的蒙特卡洛樹搜索，以減少計(jì)算量。
再往后， UCT 算法將蒙特卡洛樹搜索方法與UCB公式結(jié)合，有效解決了圍棋上的問題。
進(jìn)而，基于深度強(qiáng)化學(xué)習(xí)， AlphaGo誕生，驚人地?fù)魯×巳祟?，完成了以往被認(rèn)為還需要20-50年才能實(shí)現(xiàn)的任務(wù)。
德謨克利特對原子的理解令人贊嘆，然而只有基于愛因斯坦的公式，人類才能造出原子彈，以及安全地利用核能。

5
極大極小原理，給我以下七點(diǎn)啟發(fā)：

啟發(fā)一
站在對方的角度想問題，
然后倒推自己的策略
我們可以廣義地來想找個(gè)問題，即使不是在零和博弈的環(huán)境下。
例如說起某某產(chǎn)品經(jīng)理很厲害，可以瞬間將自己變成小白，其實(shí)就是能徹底地站在對方的角度。
幾乎所有厲害的商業(yè)公司，核心原則就是“經(jīng)營顧客”。
先想著讓顧客價(jià)值最大化，然后再從中找尋讓自己最大化的策略。
所以芒格說：要訴諸利益，而不是講道理。
我經(jīng)營春藤，有時(shí)候也會和小伙伴們在一線談業(yè)務(wù)。
我不是很好的銷售，口才也很一般，但每次談合作效果還不錯(cuò)。
我的方法是：
請問你現(xiàn)在最想要的是什么？
我們可以如何幫助你實(shí)現(xiàn)你最想要的。
我們立即可以做的最小化合作是什么。

啟發(fā)二
不占別人便宜，
自己的也要據(jù)理力爭，不當(dāng)爛好人
段永平早年經(jīng)營企業(yè)，既不占供應(yīng)商的便宜，也不給批發(fā)商賒貨。
不管多好的買家，必須現(xiàn)款現(xiàn)貨。
何謂爛好人？就是徹底放棄自己的選擇權(quán)，試圖討好對方，感動對方。
然而，人性是經(jīng)不起考驗(yàn)的。
所以，很多時(shí)候，爛好人不僅招惡人，甚至催生惡人。

啟發(fā)三
將對手想成一個(gè)勢均力敵的對手
以我下圍棋為例，切忌低估對手。
所謂低估對手，就是對他人抱有幻想。
例如，你發(fā)現(xiàn)一手棋，能夠讓自己的利益最大化。但是如果被對手識破，那么結(jié)果就會很糟糕。
有時(shí)候，棋手會心存僥幸：要是他看不到，那我就賺了。
然而，這是不對的。
你就該假設(shè)對方是一個(gè)勢均力敵的對手，你能看到，對手也能看到。
當(dāng)然，如果下讓子棋的時(shí)候，要適當(dāng)調(diào)整。
以及，在德州撲克等博弈中，或是像剪刀石頭布這類首尾相連的游戲，也需要虛張聲勢。
總之：
別欺負(fù)別人，別想著占便宜；
也別因?yàn)闀簳r(shí)領(lǐng)先而得意忘形，別耍過頭。

啟發(fā)四
將街上的每個(gè)司機(jī)都當(dāng)作潛在兇手
這個(gè)想法似乎有些極端。
幾乎沒司機(jī)有動機(jī)要撞你。
但是，理論上，每個(gè)司機(jī)都有撞你的“可能性”。
對你而言，這個(gè)最壞的結(jié)果可能性很小，后果很嚴(yán)重。
這正是極大極小原理的靈魂：
“你知道，你所能期盼的最好結(jié)果就是避免最壞情況。”

啟發(fā)五
珍惜每一個(gè)選擇權(quán)，
并為你的下一個(gè)、下下個(gè)選擇權(quán)做好鋪墊
人生是一連串決策的總和。
所謂全局觀，是指你的每個(gè)決策點(diǎn)既是相對獨(dú)立的，又和過去和未來相關(guān)聯(lián)。
有些人只管當(dāng)下舒服，而不顧自己的下一手該如何。
如果你在一個(gè)球隊(duì)里，隊(duì)友總是給你傳爛球，或者不給你傳球，你一定會罵他爛人。
可是在現(xiàn)實(shí)中，現(xiàn)在的“你”，可能經(jīng)常不顧及未來的“你”，不管未來的“你”是否有好的選擇權(quán)。
一連串有算法的選擇權(quán)，就是一個(gè)人的“人生算法”。

啟發(fā)六
所謂仁慈的獅子，
是指你要當(dāng)好人，但保留懲罰壞蛋的權(quán)利
如題，這一條啟發(fā)，反過來也是適用的。
例如，你徹底放棄懲罰對方的權(quán)利，以換取對方徹底的信任。
前提是你相信對方是一個(gè)珍惜榮譽(yù)的人。

啟發(fā)七
徹底遠(yuǎn)離損人不利已的人
博弈論的假設(shè)是：雙方都是理性的。
博弈論只研究對贏感興趣的、有完善的邏輯思維能力的游戲者參與的博弈。只有你相信你的對手（一個(gè)或幾個(gè)）既是理性的，又是希望贏的，而你自己在玩的時(shí)候也始終憋著一股勁兒，要力爭為自己取得最好的結(jié)果，這樣的博弈才是博弈論分析的對象。
對博弈論而言，自私的人并不可怕，可怕的是不理性的人。
為什么呢？
一個(gè)自私的人可能做損人利己的事，一個(gè)合作的人可能做利人利己的事情。
但是，一個(gè)不理性的人可能做損人不利己的事情。
博弈論很強(qiáng)大，但是如果你是在和一個(gè)非理性的人“交手”，就很難得出一個(gè)解答。
你的最佳選擇是：
遠(yuǎn)離這類人。
舉例說吧，經(jīng)濟(jì)較發(fā)達(dá)區(qū)域的特點(diǎn)之一是：民眾只算自己的帳，而不去算別人賺多賺少。
倘若不如此，就會出現(xiàn)如下局面：我才賺十塊，你居然賺一千塊，我寧可犧牲自己的十塊毀掉你的一千塊。
這就是損人不利已。
如此一來，博弈論的均衡就無法出現(xiàn)。因?yàn)榉菍那闆r下的“損人不利己”，也就是理性的失去，會摧毀整個(gè)游戲。
（當(dāng)然，經(jīng)濟(jì)是否發(fā)達(dá)有多方面因素，不發(fā)達(dá)地區(qū)也經(jīng)常有“只算自己帳”的傳統(tǒng)。）
記得中學(xué)時(shí)有個(gè)同學(xué)的哥哥當(dāng)年混社會，他說他們那群20歲上下的青年誰都不怕，最怕十四、五歲的孩子，因?yàn)檫@類混小子可能毫無目的不顧后果地沖上來給他們一刀。
博弈論因?yàn)檫@類人而失效。
本文開篇對于綁架者的分析，也是假設(shè)他們是理性的。
但是，如果綁架者不是理性的人呢？
那么，不理性的兇手可能會不顧受害人呼救招來人，在沒有利益的情況下毒手。
最后
歸根結(jié)底，一切在乎“對的人”。
不管是零和博弈，還是雙贏博弈，你都要努力令對方是一個(gè)理性的人。
既要選擇對的隊(duì)友，更要選擇對的對手。
關(guān)于極大極小原理，我們還可以將其智慧拓展為：
狹路相逢勇者勝，
勇者相逢智者勝，
智者相逢德者勝，
德者相逢道者勝。
最后，祝福你我此生一早避開，不必在狹路上遭遇那些損人不利己的混蛋。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。