点击查看微信稿件原文
点击上方蓝字关注 Ingress Beijing
美国猩猩,美国猩猩,塑料袋套头牌子活动开始啦,原先只要2888888的牌子,现在只要88888。特工小伙伴们纷纷出门,开始恰烂AP啦!
素有一夜m次郎之称的绿军特工X****0,每天凌晨能把m块po场做满多重。即便如此,他一人之力还是养不起城东n个虎视眈眈的蓝军。然而,蓝军小伙伴们睡到日上三竿,看着外面能把人晒死的大太阳陷入了纠结。晚上吃了AP是最幸福的,然而鉴于大家都很肝,很有可能不到晚上AP就被收完了。简化起见,我们假设蓝军活动分为两个阶段,白天阶段和晚上阶段。
白天阶段,预言家请睁眼,抱歉拿错剧本了……白天阶段,n个蓝军独立同时决定是否出门。如果出门人数小于等于m,则每人分到一块po场来清,如果出门人数大于m,那么大家就在群里石头剪子布随机决定谁去清,总之每人最多一块po场。
如果白天还有剩余,那么进入晚上阶段。晚上阶段剩下的蓝军再次独立同时决定是否出门——如果po场有剩余但不够分,同样按照上述方法猜拳决定。
假定所有的蓝军特工都是同质且风险中性的,白天出门收AP可以获得效用a,晚上出门还能获得一个额外的效用,总效用a+b。如果咕或者是运气不含好没有分到AP的话,那么效用就是0。
已知m,n,a,b,求纳什均衡,并判断每个均衡的稳定性。
因为所有人的策略结构和收益完全一样,因此均衡也是对称的。记均衡策略s=(p1,p2)表示所有人在白天阶段有p1概率出门打po,晚上有p2概率出门打po。为了讨论这个博弈比较有趣的情况,假定n>m>0, a>0, b>0.
首先,我们通过倒推法来分析这个博弈,找到它的纳什均衡。所谓纳什均衡,是指这样一种策略s,在知道其他人采取该策略的情况下,任何一个人没有动机背离它。记E(s,t)表示当你采取策略s,其他人采取策略t时你的收益,那么纳什均衡要求E(s,s)>=E(t,s).
首先p2=1在任何情况下是弱占优的,因为不出门总归是获得0,出了一旦有po场就是赚到(事实上,在需要进第二阶段的情况下是强占优的)。那么接下来分别讨论,在白天阶段会不会把所有的po场用完?
情况一,白天用完了所有的po场。由于n个人用完了m个po场,这意味着在均衡策略下,要求p1>=m/n. 由于晚上没有po,晚上出门的效用只能是0,而白天出门有就是赚到(分析同上),显然严格优于不出门。因此均衡策略p1=1,也就是说所有的人白天都会想出门,这时候大家会随机抽签决定po场归谁。
情况二,白天过后还有些没有用完的po场被留给了晚上。这又可以分为两种情况,所有po都留到了晚上,和部分留到了晚上。
如果所有的po都留到了晚上,那么晚上大家都出门,每人有m/n的概率分到po并获得效用a+b,剩下概率获得0,因此期望效应就是(m/n)(a+b). 由于所有的po都留到了晚上,这意味着任何人在白天只要出门,都至少能分得一个po场并获得效用a——而人们不选择这样做的唯一原因只能是,白天出门获得效用a要小于晚上的期望效用,也就是a<m/n*(a+b) .这意味着,在b/a>(n-m)/m的前提下,存在均衡(0,1)。这个前提条件的含义非常直观:如果晚上天气凉快时候出门的相对额外收益b/a,相比于失去获得po场机会的相对损失(n-m)/m来的大,那么所有人在白天观望。在晚上下场。
另外一种情况是,如果部分po留到晚上。由于n个人在白天用掉了n*p1的po场,剩下n-np1的人到晚上分m-np1>0的po场,也就是说晚上阶段的期望效用是(a+b)(m-np1)/(n-np1). 而白天的时候,这些出门打po的能够获得a。为什么白天的不选择晚上,而晚上的也不选择白天呢?这只能因为晚上出和白天出在这种情况下带来的效用是一样的,他们才会欣甘情愿地觉得两者均可。a=(m-np1)/(n-np1)*(a+b), 解得p=1-(1-m/n)(a/b). 最后,由0<p<1同样得到,这种情况要求b/a>(n-m)/m.
综上所述,这个题目的均衡策略取决于b/a和m/n的相对数值:若b/a<=(n-m)/m,存在唯一的纯策略纳什均衡(p1,p2)=(1,1),我们将会看到所有人都会在白天出门打po。若b/a>(n-m)/m,存在两个纯策略纳什均衡(p1,p2)=(1,1),(0,1),和一个混合策略纳什均衡(p1,p2)=(1-(1-m/n)(a/b),1).
接下来让我们更进一步,讨论一下每个均衡的稳定性。
纳什均衡(p1,p2)=(1,1)显然是稳定的,因为任何其他策略的收益都严格小于纳什均衡,即E(s,s)>E(t,s),这意味着,对于一个已经达成的均衡,如果有人背离了均衡策略,TA自己会逐渐回归到均衡上来,这种均衡被称之为进化稳定策略。进化稳定策略最早用于描述生态学中的群体博弈:当一个种群内的某种性状比例达到均衡的时候,外来的足够小的种群不会影响该均衡。
我们接下来看看在b/a>(n-m)/m时,两个额外的均衡是否稳定:对于(p1,p2)=(0,1),一个小的扰动并不会改变“等到晚上收益更高”这个事实,于是E(s,s)>E(t,s)仍然成立,因而(0,1)是进化稳定策略;但是,对于(p1,p2)=(1-(1-m/n)(a/b),1).,一旦有更多或更少的人在白天阶段选择了外出,那么你也白天出门的收益也会变化,从而使得你不再选择这一混合策略,这个均衡策略就是进化不稳定的。
而我感兴趣的问题在于,如果我们从一个b/a<(n-m)/m的初始状态,逐渐变化到b/a>(n-m)/m,那么新增加的那个进化稳定策略会不会出现,何时出现?
哦对,为什么这个题目特别适合在这里讲呢?因为它有一个专业的名字Hawk-Dove Game,在政治学里经常提到的“鹰派”和“鸽派”就来源于此。然后这个博弈换一种说法就是——
鹰鸽Race。
参考文献:
Telegram – https://t.me/IngressBeijing
Twitter – @ingressbeijing
网站 – https://bjres.net
投稿后请及时联系我们,联系方式:
Telegram – @alexrowe
QQ – 350259971
Niantic Chat Group – YxR8TEU4