背叛还是合作是一个难题?

对于人类来说,从原始社会到现代社会,从每个家庭到各个公司、政府和机构,处处都有合作行为。另外,在生物界中,也有很多合作的例子。例如,吸血蝙蝠会把自己的食物分享给那些没找到食物的同伴,一些种类的鸟类和群居昆虫会经常帮助照顾彼此的幼崽,甚至细菌都会彼此合作,来一起抵抗灭掉它们的抗生素。

每个生物个体都为自己着想,那为什么还会出现合作行为呢?很显然,通常这么做会尝到甜头。那在什么情况下,合作会容易出现呢?这个问题值得研究,因为解决它可以帮助人们为企业、政府创建一个促进合作的环境,帮助人们理解生物界中合作是如何进化出来的等等。而研究人员发现,通过博弈论可以为这些问题提供更好的解释。


只有一次博弈就会背叛

提到博弈论,我们首先想到的就是“囚徒困境”,它说的是:警方逮捕了两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开嫌疑犯,不让他们相互沟通,并分别向两个人提供以下相同的选择:若一人认罪并检举对方(“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将坐牢3年;若二人都保持沉默(互相“合作”),则二人都坐牢1年;若二人都互相检举(互相“背叛”),则二人都坐牢2年。

研究人员发现,参与者如果只进行一次囚徒困境的话,那么其最优策略就应该是背叛。现实生活中有很多只发生一次的博弈,而人们的确更愿意去背叛。例如,车站和旅游点等人群流动大的地方,这里的商品和服务不仅质量差,而且还存在假货。因为商家和顾客之间基本上只是博弈一次,顾客基本不太会再次光临,所以商家最理性的选择就是尽可能地赚到钱。同样,在一个陌生人和一个熟人之间,人们可能更愿意背叛陌生人,毕竟之后再也很难见面,选择了背叛可以获得最大利益,且风险最小。


多次博弈要合作

在现实生活中,除过只发生一次的博弈外,更多的是多次博弈,这就需要人们在做每一次决策时,可以根据过去的经验,对未来做出预判。例如,你可能会惩罚曾经背叛过你的人,也可能不会背叛在未来有可能给你带来好处的人。这样,背叛可就不是什么好主意了。因此,处在社区的商店会更诚信,商业区的商店会提供更好的商品和服务,否则就没有回头客了。同样,我们不愿意去背叛熟人。

博弈论模型也证实了这个日常的生活经验。上个世纪70年代,美国政治学家罗伯特·阿克塞尔罗德邀请了许多博弈论专家,来为计算机设计各种策略,在重复的囚徒困境中彼此互相竞争。结果发现,尽管每个策略都是把赢取更多收益当作出发点,但是时间一长,在取得更多利益的策略中,采用合作的次数要多于背叛的次数。

阿克塞尔罗德的研究,可以很好的解释生物界中合作是如何进化出来的。在生物界中,各种各样的博弈会反反复复地发生,虽然每个生物在博弈开始时可能具有不同的策略,但经常选择合作往往会带来更多的利益。通过自然选择,合作可以成为流传下来的最优策略,即使每个生物都自私。

例如,生活在非洲的长尾黑颚猴,遇到危险时会大声尖叫,以此来警告周围的同伴有捕食者靠近。但是,这只大喊大叫的猴子,也等于把捕食者的注意力都吸引到它自己身上了。如果猴子一生只会遇到一次危险情况,这就相当于单次发生的囚徒困境,选择沉默可能对自己是有好处的。但事实上,在猴子整个一生中,这种情况会反复发生,就像重复的囚徒困境一样,那么发出警告就会成为最优策略,平均来说每只猴子会因此获得更多的好处。

“以牙还牙”

在重复的囚徒困境中,你一直合作,而对手却一直背叛,那该怎么办呢?我们来谈谈一种叫做“以牙还牙”的策略,这种策略指的是开始时要采取合作的策略,之后每次做决策则模仿对手在上一阶段的举动。别看内容很简单,但它在阿克塞尔罗德邀请的博弈论专家所进行的竞赛中获得的收益往往是最多的。

“以牙还牙”策略,并不新鲜。也就是我们常说的“恩仇必报”,“以其人之道,还治其人之身”,“出来混,早晚是要还的”等等。而在生物界中,也存在着“以牙还牙”的策略。例如,一对刺鱼巡游时侦察到了附近的捕食者,它们就会采用“以牙还牙”的策略。如果一条鱼决定刺向前方,那么另一条鱼也会采取类似的勇敢行动。如果一条鱼后撤并希望其同伴去冒这个险,那么另一条鱼也会后撤。

“以牙还牙”的策略是鼓励合作的出现,因为“以牙还牙”者会对背叛行为进行报复,而对方如果停止背叛,“以牙还牙”者会原谅对方并继续合作。不过,它还可以进行改进,并能获得更多的利益。其方法是当对方背叛时,参与者也偶尔会与对方合作,来防止陷入不断背叛的循环之中。这叫做“宽恕地以牙还牙”策略,或者简称为慷慨策略。

小心勒索者

一般来说,在重复的囚徒困境中,参与者更倾向于选择合作。但在有些情况下,却不是这样的。

2012年,美籍英裔物理学家弗里曼·戴森和美国计算机科学家威廉·普里斯为重复的囚徒困境找到了一个新的策略,即勒索策略,它正式的名称叫做零行列式策略。应用这个策略有个前提,即只有两个参与者参与重复的囚徒困境,而且每个参与者每次做决策则依据对手在上一阶段的举动。

勒索策略具体是这样的:对方上次选择背叛的话,那么勒索者下一次必然背叛;而在对方上次选择合作时,勒索者并不总是合作,而是以一定地概率去选择合作。其概率的多少,由收益等因素所决定,这会使对方认为,与其始终背叛还不如合作,因为勒索者有时会知恩图报,最终算下来还是经常合作会获得更多的利益。

所以,与勒索者进行囚徒困境有点像“最后通牒”博弈,也就是说,勒索者像是在提议一种分钱方案:如果对方不接受,那么每个人都没钱。如果对方接受,那么就按照勒索者的方案分钱。很显然,理性的结果就是勒索者只给对方一点点钱,对方就会接受。

但现实中,我们肯定不会接受这种分钱方案。同样,人们很难在现实中应用勒索策略,因为博弈者会很快察觉出对方是勒索者,也会反过来威胁勒索者。美国哈佛大学的研究人员在真实的场景中进行了实验,让人类参与者与使用慷慨策略或勒索策略的电脑玩囚徒困境。结果是,与勒索的电脑共事时,人们就会被惹怒,倾向于拒绝与电脑合作,即使对双方利益都有害。而人们与慷慨的电脑共事时,双方都能获得更多的利益。

而且,勒索策略一般适用于参与者为两个的情况,如果参与者的数量足够多的话,那么一个勒索者最终会遇到另一个勒索者,彼此收益都会降低。美国宾夕法尼亚大学的研究人员进行了模拟实验。他们把很多种策略,应用到一些生物种群里,例如长尾黑颚猴种群,或吸血蝙蝠种群中。他们所发现,勒索策略根本无法传播开来,而是前面所说的慷慨策略,往往最终会在生物种群中传播开来。

面对雪堆最好去合作

我们以上谈论的都是“囚徒困境”这种经典博弈类型。现实生活中还存在着另外一些博弈类型,更有利于合作的出现。下面就是一个例子。

想象一下,在一个风雪交加的夜晚,两人被路上的一个雪堆所阻。如果两人一齐动手铲雪,则他们都可以尽快地回家。如果只有一人铲雪,虽然两个人都可以回家,但是背叛者还可以不出力气。如果两人都选择背叛,那么两人都无法回家。这种博弈叫做雪堆博弈,它与囚徒困境不同的是,合作更容易出现。面对背叛的对手时的最佳策略仍然是合作,而不是背叛,因为相互背叛的结果是极为严重的。在日常生活中,这种情况比较普遍,像小两口都不想做饭,但不做饭就要饿肚子,所以最终一方还得不情愿地去做饭等等。

在生物世界,类似雪堆博弈也是存在的。例如,对于细菌来说,雪堆则是抗生素。一些细菌可以产生并分泌能抵抗抗生素的酶。不过生产酶是很费力的事情,一些细菌会懒得去生产,而是去利用身旁的更勤劳的细菌所分泌出的酶。勤劳的细菌也不会选择背叛,否则会使得整个群体都会走向灭亡,它们会继续合作来抵抗抗生素。这样,这两种类型的细菌就可以稳定共存。

合作的崩溃

在日常生活中,合作要付出一些代价,不过也会得到奖励——那种在不合作情况下无法获得的奖励。通常情况下,人们在合作中付出的越多,得到的奖励也越多。但即使这样,有时合作也会发生崩溃。

合作的崩溃,会发生在付出与收益的比值变得太高的时候。例如,假设一个团队中每个人在一个项目中都额外地付出了一些,那么过不多久每个人都会意识到,再怎么付出也得不到什么,还不如偷偷懒也不会有什么损失,毕竟其他人都在额外地付出。这种情况看起来是一个悖论,即合作者花了更大的努力来去合作,结果却方便了背叛者,或者说,我们越是努力地合作,别人就越不可能这么做。

一个极端的例子,就是中国在过去说经历过的“大锅饭”时代:收益最终变为固定的,每个人“干好干坏一个样”。这时,大家合作得越好,每个人就越想着偷懒。

所以有时,我们还不能过于促进合作,因为这同时也在促进背叛的出现。


(本文源自大科技*科学之谜2015年第12期文章)