一夜m次郎和虎视眈眈的蓝军们

Posted on September 20, 2021

点击查看微信稿件原文

#IngressPaper

点击上方蓝字关注 Ingress Beijing

题目

美国猩猩，美国猩猩，塑料袋套头牌子活动开始啦，原先只要2888888的牌子，现在只要88888。特工小伙伴们纷纷出门，开始恰烂AP啦！

素有一夜m次郎之称的绿军特工X****0，每天凌晨能把m块po场做满多重。即便如此，他一人之力还是养不起城东n个虎视眈眈的蓝军。然而，蓝军小伙伴们睡到日上三竿，看着外面能把人晒死的大太阳陷入了纠结。晚上吃了AP是最幸福的，然而鉴于大家都很肝，很有可能不到晚上AP就被收完了。简化起见，我们假设蓝军活动分为两个阶段，白天阶段和晚上阶段。

白天阶段，预言家请睁眼，抱歉拿错剧本了……白天阶段，n个蓝军独立同时决定是否出门。如果出门人数小于等于m，则每人分到一块po场来清，如果出门人数大于m，那么大家就在群里石头剪子布随机决定谁去清，总之每人最多一块po场。

如果白天还有剩余，那么进入晚上阶段。晚上阶段剩下的蓝军再次独立同时决定是否出门——如果po场有剩余但不够分，同样按照上述方法猜拳决定。

假定所有的蓝军特工都是同质且风险中性的，白天出门收AP可以获得效用a，晚上出门还能获得一个额外的效用，总效用a+b。如果咕或者是运气不含好没有分到AP的话，那么效用就是0。

已知m,n,a,b,求纳什均衡，并判断每个均衡的稳定性。

解答

因为所有人的策略结构和收益完全一样，因此均衡也是对称的。记均衡策略s=(p1,p2)表示所有人在白天阶段有p1概率出门打po，晚上有p2概率出门打po。为了讨论这个博弈比较有趣的情况，假定n>m>0, a>0, b>0.

首先，我们通过倒推法来分析这个博弈，找到它的纳什均衡。所谓纳什均衡，是指这样一种策略s，在知道其他人采取该策略的情况下，任何一个人没有动机背离它。记E(s,t)表示当你采取策略s，其他人采取策略t时你的收益，那么纳什均衡要求E(s,s)>=E(t,s).

首先p2=1在任何情况下是弱占优的，因为不出门总归是获得0，出了一旦有po场就是赚到(事实上，在需要进第二阶段的情况下是强占优的)。那么接下来分别讨论，在白天阶段会不会把所有的po场用完？

情况一，白天用完了所有的po场。由于n个人用完了m个po场，这意味着在均衡策略下，要求p1>=m/n. 由于晚上没有po，晚上出门的效用只能是0，而白天出门有就是赚到(分析同上)，显然严格优于不出门。因此均衡策略p1=1，也就是说所有的人白天都会想出门，这时候大家会随机抽签决定po场归谁。

情况二，白天过后还有些没有用完的po场被留给了晚上。这又可以分为两种情况，所有po都留到了晚上，和部分留到了晚上。

如果所有的po都留到了晚上，那么晚上大家都出门，每人有m/n的概率分到po并获得效用a+b，剩下概率获得0，因此期望效应就是(m/n)(a+b). 由于所有的po都留到了晚上，这意味着任何人在白天只要出门，都至少能分得一个po场并获得效用a——而人们不选择这样做的唯一原因只能是，白天出门获得效用a要小于晚上的期望效用，也就是a<m/n*(a+b) .这意味着，在b/a>(n-m)/m的前提下，存在均衡(0,1)。这个前提条件的含义非常直观：如果晚上天气凉快时候出门的相对额外收益b/a，相比于失去获得po场机会的相对损失(n-m)/m来的大，那么所有人在白天观望。在晚上下场。

另外一种情况是，如果部分po留到晚上。由于n个人在白天用掉了n*p1的po场，剩下n-np1的人到晚上分m-np1>0的po场，也就是说晚上阶段的期望效用是(a+b)(m-np1)/(n-np1). 而白天的时候，这些出门打po的能够获得a。为什么白天的不选择晚上，而晚上的也不选择白天呢？这只能因为晚上出和白天出在这种情况下带来的效用是一样的，他们才会欣甘情愿地觉得两者均可。a=(m-np1)/(n-np1)*(a+b), 解得p=1-(1-m/n)(a/b). 最后，由0<p<1同样得到，这种情况要求b/a>(n-m)/m.

综上所述，这个题目的均衡策略取决于b/a和m/n的相对数值：若b/a<=(n-m)/m，存在唯一的纯策略纳什均衡(p1,p2)=(1,1)，我们将会看到所有人都会在白天出门打po。若b/a>(n-m)/m，存在两个纯策略纳什均衡(p1,p2)=(1,1)，(0,1)，和一个混合策略纳什均衡(p1,p2)=(1-(1-m/n)(a/b),1).

接下来让我们更进一步，讨论一下每个均衡的稳定性。

纳什均衡(p1,p2)=(1,1)显然是稳定的，因为任何其他策略的收益都严格小于纳什均衡，即E(s,s)>E(t,s)，这意味着，对于一个已经达成的均衡，如果有人背离了均衡策略，TA自己会逐渐回归到均衡上来，这种均衡被称之为进化稳定策略。进化稳定策略最早用于描述生态学中的群体博弈：当一个种群内的某种性状比例达到均衡的时候，外来的足够小的种群不会影响该均衡。

我们接下来看看在b/a>(n-m)/m时，两个额外的均衡是否稳定：对于(p1,p2)=(0,1)，一个小的扰动并不会改变“等到晚上收益更高”这个事实，于是E(s,s)>E(t,s)仍然成立，因而(0,1)是进化稳定策略；但是，对于(p1,p2)=(1-(1-m/n)(a/b),1).，一旦有更多或更少的人在白天阶段选择了外出，那么你也白天出门的收益也会变化，从而使得你不再选择这一混合策略，这个均衡策略就是进化不稳定的。

而我感兴趣的问题在于，如果我们从一个b/a<(n-m)/m的初始状态，逐渐变化到b/a>(n-m)/m，那么新增加的那个进化稳定策略会不会出现，何时出现？

哦对，为什么这个题目特别适合在这里讲呢？因为它有一个专业的名字Hawk-Dove Game，在政治学里经常提到的“鹰派”和“鸽派”就来源于此。然后这个博弈换一种说法就是——

鹰鸽Race。

参考文献：

Friedman, D. (1991). Evolutionary games in economics. Econometrica: Journal of the Econometric Society, 637-666.

欢迎关注我们的同步渠道

Telegram - https://t.me/IngressBeijing

Twitter - @ingressbeijing

网站 - https://bjres.net

投稿请发邮件至 tougao@bjres.net

投稿后请及时联系我们，联系方式：

Telegram - @alexrowe

QQ - 350259971

Niantic Chat Group - YxR8TEU4

戳原文访问网站对历史文章进行搜索。

Posted in Wechat

Search

一夜m次郎和虎视眈眈的蓝军们