1026博弈论分享
Game Theory 入门分享
导言
Game Theory 博弈论,是经济学的一个分支,1944 年 冯·诺伊曼 与 奥斯卡·摩根斯特恩 合著《博弈论与经济行为》,标志着现代系统博弈理论的初步形成。目前可以应用在生物学、经济学、国际关系、计算机科学、政治学、军事战略,研究游戏或者博弈内的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。
为什么要分享博弈论?
博弈论研究竞争&胜利,同时研究合作&妥协。作为职场新人,我在与大家的合作中必不可少有一些摩擦。之所以学习博弈论,也是想学会如何和他人合作
《人工智能:现代方法》(第四版)中用博弈论理论研究 Multi-Agent System,可以借鉴到项目组小蜜 Agent 系统开发
分享形式
本次分享由 2 个游戏组成,每一个游戏背后都隐藏着博弈论背后的道理。希望大家能在游戏中积极思考并且主动将自己思考的内容分享给大家。我们会在每一轮游戏结束后,一起讨论大家的理解和收获!
游戏规则
看到游戏描述后,大家先单独思考 2 分钟,不可互相交流,不可用电子设备查询相关问题
思考过程中,仔细记录自己的心路历程和判断理由
思考结束后,确定并提交自己的答案,之后不可以更改
进入团体讨论环节,随机挑选 2 名玩家阐述思考过程。主持人推动大家思考并总结道理
官方解释:游戏设计纯属虚构,与现实无关。最终解释权由主持人享有。
囚徒困境
游戏设计灵感来自于[1]。
正值本年度的 S1 考核季,假设我们今年新出了一种考核机制,叫做“双人打分”。规则如下:
单轮游戏中一共有两个玩家,你和你的搭档,你们一起完成了一个项目。每位玩家可以分别给自己一个自评,而各自的最终得分将由双方的共同打分决定
为简化游戏,假设只有 3.75 和 3.25 两个档
具体得分矩阵见下方,其中括号中第一个数字是我本人的最终得分,第二个数字是我搭档的最终得分
我\我搭档 | 3.75 | 3.25 |
---|---|---|
3.75 | (3.5-,3.5-) PS:(我得分,搭档得分) | (3.75,3.25) |
3.25 | (3.25,3.75) | (3.5+,3.5+) |
⚠️注:重申,以上规则纯属虚构,请勿理解为现实世界考核规则。 |
解释:当我和我搭档同时给自己打分 3.75 ,最终领导觉得我们只专注自己的工作,忽视了和别人合作,因此双方都只得到了 3.5-。当我给自己打分 3.75 同时搭档给自己打分 3.25,则我获得 3.75,搭档获得 3.25。而当我和我搭档都只给自己打分 3.25 时,领导觉得我们太谦虚,因此奖励我们拿到 3.5+。
请开始你的选择~
名词定义
理性人:理性人要有一个明确的偏好。然后在给定约束条件下,该人总是追求自我偏好满足的最大化[2]
纳什均衡:所有参与者的最优策略的组合,给定一个组合中其他参与者的选择,没有任何人有积极性改变自己的选择[2]
- 帕累托最优:
a. 给定固有的一群人和可分配的资源,如果从一种分配状态到另一种状态的变化中,在没有使任何人情况变坏的前提下,使得至少一个人变得更好,这就是帕累托改善。帕累托最适的状态就是不可能再有更多的帕累托改善的状态;换句话说,不可能在不使任何其他人受损的情况下再改善某些人的情况。[4](wiki)
b. 帕累托效率是指一种社会状态(资源配置、社会制度等),与该状态相比,不存在另外一种可选择的状态,使得至少一个人的处境可以变得更好而同时没有任何其他人的处境变差。[2]
c. 经济的效率体现于配置社会资源以改善人们的境况,主要看资源是否已经被充分利用。如果资源已经被充分利用,要想再改善我就必须损害你或别的什么人,要想再改善你就必须损害另外某个人。一句话简单概括,要想再改善任何人都必须损害别的人,这时候就说一个经济已经实现了帕累托效率最优。[3]
d. 如果没有其他结果可以在不损害他人利益的情况下,使一个参与者变得更好,那么这个结果就是帕累托最优。如果你选择的结果不是帕累托最优,那么它就浪费了效用,因为你至少可以给一个智能体赋予更多的效用,而不需要从其他智能体获得任何效用。[6]
心得
道理:
理性人不要选严格劣势策略
在这个游戏里,只存在一个纳什均衡点,那就是两位玩家都选择 375,但那不是帕累托最优点(集体利益最大化)。因为缺少信任,个体只考虑自己的最佳利益,认为背叛对方可以获得更好的结果,即便这样会导致整体的损失。在单次博弈的情况下,很难形成合作局面
囚徒困境本质是一个合作问题,背后需要激励(或者反向惩罚)来促进玩家合作。比如,给予合作的玩家以奖励,或者给予背叛的玩家以惩罚。合作问题要求个人利益和集体利益一致性[2]
破解囚徒困境的方式[2]
第一,制定契约,建立相互信任的关系。
第二,建立长期关系,进行重复博弈。
第三,施以报复,让背叛行为不敢发生。
第四,通过教育改变收益,进而改变参与博弈的动机。
投资共创
游戏设计灵感来自于[1]。
假设每位玩家手里都有 1w 块钱准备投资 A 股中新上市的“小蜜技术”股。
你可以选择不投资,则收益为 0,不赚不亏。
你也可以选择投资,投资回报条件为
\begin{cases}
+10000,当90\%及以上玩家参与投资 \\
-10000,当小于90\%总玩家参与投资
\end{cases}
请开始你的选择~
心得
道理:
在这个游戏里,纳什均衡点共有两个,分别是所有人都投资或者所有人都不投资
投资共创问题本质上是一个协调问题,主要的挑战在于如何使大多数玩家作出一致的选择,即预期的一致性。[2]
综合上述两个案例,可以得到结论:合作要求个人利益和集体利益的一致性,协调要求预期的一致性[2]
名词定义
- 合作问题(Cooperative Games)
a. 定义:合作问题涉及多个参与者可以通过合作来实现共同或相互利益最大化,但由于各自的利益诉求和激励机制,个体可能倾向于不合作,从而导致集体利益未能最大化。[5]
特点[5]:
存在囚徒困境、公共物品等情境。
参与者需要在合作与背叛之间权衡。
问题核心在于缺乏信任或激励不当,导致难以实现合作。
典型例子:囚徒困境,公共资源的过度使用(如“公地悲剧”)。
b. 定义:在形式上,这些博弈可以看作“具有特征函数形式的可转移效用的合作博弈”。该模型的思想是,当一群智能体正在合作时,整体将获得一定的效用值,然后在群体成员之间进行分配。[6]
- 协调问题(Coordination Games)
a. 定义:协调问题指的是多个参与者需要在策略选择上达成一致,以实现彼此的最佳利益。这类问题的关键在于如何达成一致,而非是否合作。[5]
特点[5]:
存在多个均衡点,参与者需要选择同一个均衡。
关键在于预期一致和信号传递。
问题核心在于选择协调的策略,而不是合作或背叛。
典型例子:选择交通规则(如左侧通行或右侧通行),技术标准的选择(如不同文件格式的普及)。
b. 定义:参与者希望在全局范围内协调他们的动作,以便他们都选择达到相同均衡的动作,但又必须只使用局部决策来达成这一点。[6]
引用
“Game Theory.” Yale University, 2007, https://oyc.yale.edu/economics/econ-159
博弈与社会. 张维迎. 北京大学出版社. 9787301218211. 2013-1.
哈佛博弈课. 杜振鹏. 企业管理出版社, ISBN: 9787516407981. 2014-5-1.
“帕累托效率” Wikipedia, Wikimedia Foundation, 16 Oct. 2024, https://zh.wikipedia.org/wiki/帕累托效率#.
OpenAI. (2024). o1-mini (16 Oct. 2024 version) [Large language model]. https://chat.openai.com
Russell, Stuart J., and Peter Norvig. Artificial intelligence: a modern approach. Pearson, 2016.
更多推荐资料
- 游戏《信任的进化》