0:00
我们说参与人二采用策略q的时候
参与人一,我们把这个例子,把它说的很细,我们就知道,后面我们就可以再快一点,啊,我们看这个啊,我们怎么求出q呢?
参与人二采用策略q时候,参与人一使用不同的纯策略的回报分别为
就是我们说他用二,我们看他怎么样,啊
你看,采用不同的回报,这个H
的收益期望 啊,参与人二采用策略q,注意啦,我这个地方是说,还是我刚才说的那句话,采用策略q
实际上是说他采用这么一个分布
对不对?这个你要注意啊,否则你就,你就搞不清楚了对不对,就容易乱了,采用策略q就是采用q,1减q这么一个分布
这么一个分布,好,我用H的时候我怎么希望呢?那就是-1乘以这个q
加上正一乘以1减q,这是我用H的时候得到的
一个一个啊期望值,对吧,那就是1减2q,我下面用p
的时候我怎么,我用一乘上q
负一乘以1减q,是吧,在它那个分配上面,分布上面,算上去,2q减1
这俩一相等,这俩一相等,q就等于多少,就等于0.5啊
啊,按照无差异原则,让它们俩相等,就等于0.5
啊就等于0.5,啊,对称的我们把p算出来,一样的等于0.5,所以我们就算出来啦,这个
0.5 0.5 就这个硬币 配对的,博弈的,就这个混合策略的均衡
而且然后我们刚才讨论也知道了这的确和我们的直觉也相符啊
但是我们这是算出来的,啊啊,好,我们下面看两个例子
有了这样概念以后,其实我们可以有一些非常有意思的
啊例子啊,我们有两个
一个就是所谓橄榄球,啊,啊,这个我想我有简,简化啊
什么扔球啊,抛球啊,怎么怎么,得分啊
啊然后最后出来就这个样子的一个,啊,一个收益矩阵啊
2:20
首先我们们看看,这样的一个里头,它没有一种纯策略意义上的啊
均衡,啊,大家能看见的,没有,检查一下,你再看一遍,诶,没有
所以我们来考虑,它,怎么来算它的混合策略值呢
因为纳什定理告诉我们了,没有纯策略那一定会有混合策略的
一定会有的,我们可以来算啊,啊
然后我们说,这个防守,这个这个这个这个是进攻,那边是防守啊
啊设这个防守方抛球的概率为q,我们叫它算这个q吧
概率为q吧,然后拦球就是1减q啊
然后给了的q以后,进攻方,我们看进攻方,选择抛球的期望就是什么呢
这不是q吗,就是0乘以q,加上10乘以1减q,是吧
这是它的期望 在下面呢,这是5乘以这个q,这是0乘以这个
这个,乘以这个啊q减1,这是q减1
应该是q减1,完了一样,最后结果是零
让它们两个相等,这不是无差异原理吗,前面说无差异原理,让他们两个相等就成这个样子
成这个样子一解q就是三分之二,不一定是零点五啊,完全取决于这里头是什么样子
所以算出一个三分之二来,啊
类似的,我们还算这个p,啊,我们还算这个p
我们就从它来看啊,给定这个p以后,看看这个防守方
采取防守策略,那就是0乘以p,加上
-5乘以1减p,这回是算这个数字啦,对不对 那零就没了啊
再看这边,那就是-10乘以p,加上0乘1减p,是吧 那应该是,算它,算它是真么算
让它们俩一等,最后就得一个三分之一,是在零和一之间的这样一个概率
而且这个啊,啊,是没有纯策略的
这个,三分之一,三分之二,就是这一个
博弈下面的均衡,就是均衡
好,下面来看一个
一个例子,这个例子就是这样啊,这是什么例子,这叫罚点球
对不对,那这都是罚点球啦,啊,我特地找了几个罚点球的这个样子
罚点球呢,这个例子我是特别觉得有意思 你看这个,你看这个,这真的是一个生活中的博弈对不对
啊,比方这个这个守门员,他要判断
你这个往左边偏还是往右边偏,是吧,我这个罚球的人我要来决定我往左边踢还是往右边踢
假定他不往中间踢啊,我们简单一点,啊这个判断的准确
那么这个进球的概率就会少了是吧
判断的不准,你看比方说这个好像他判断的挺准,基本上捞着了
啊这俩他俩在对峙啦
你比方说这个他就整个搞错了是吧,这球去那去了
我们有这,好,你看啊,假定我们,我们现在讲大数据研究啊
假定我们对了,对很多场的罚点球的状态进行了一个数据统计
假定你得到了这么一个数据统计,得了一千次罚点球
啊数据不小了,比方说这是你的数据
你的数据,射手,这个,这个L表示左边
R表示有边,就是说,一次,一看刚才他是往左踢得
一次他是往右踢得,星号表示这一次,一次他是往哪踢的
这边呢就是守门员,是说呢他是往左扑的还是往右扑的
诶我们如果你观察了世界杯对吧,这么多年世界杯
点球都弄下来,我觉得这样的数据我们是可以得到的,对不对
哇,好像是可以的,就是左边右边左边右边吗
最后还是进球,比方说这个叫得分,进了,尽管你是扑向左边,但也可以进啊
没扑着啊,对不对,你比方说这个啊,这个没得分
这个也得分了,这个也得分了,比方说都没得分,反正这个得分情况也可以有
这个可以是,我们一想,这个可以是我们活生生的,我们可以得到的数据 啊下面的问题是
啊这个数据我说了在这儿了,下面的问题是,你从这个数据上面可以做什么研究
啊我们现在不都要从数据做研究吗
我其实最近这这这一两年其实很有一个体会,就是我们经常做研究的时候啊
老说没有数据,其实我觉得更重要的是
你想从数据上干吗,我觉得这马上就会是个例子啊,就给你
数据了,能做什么研究?就是怎么能够做出比较深刻的研究?首先还是想一下
想干吗,就我们这个例子,你说你想做什么研究啊,你当然 想从这个数据中得出一些个结论吧
比方啊我们可以统计进球的百分比啊,一共在这情况下进了多少
你可以说哦,你比方罚,罚点球进了70% 你把这数一下,基本上就数出来了
进这个,你可以说,这个一般的,射球,射球的人,他是往左还是往右踢啊
啊这个能输出来,射门怎么样,这个扑球的方向一致还是不一致啊,诶,这个怎么统计啊
这个就看这两个星号它俩出现的位置一样还是不一样的
以及在射门与扑球方向不一致的情况下进球的百分比啊
这也可以是吧,不一致情况下进球的百分比,还有等等等等,你都可以从这个数据上你直接可以出来
一些这种结果,我下面要说的是
这些结果都比较肤浅,啊,什么叫稍微深刻一点的结果呢?
下面呢,我们来看看,我们观察说,这样的数据中
是否隐含着更加深刻的信息,也就是它中间
在我们这么,这么多的数据,比方说一千次射门,很多的数据啊,在这么多的数据下面
这个射球手和守门员之间是不是达到了某种均衡
啊博弈均衡
我们怎么来看这个事情?这个,这就我们书上说的例子,我觉得例子就
很漂亮一个例子啊,2002年做的一个研究,他就弄了好像一千多次
这个例子啊,一千多次呢,数据就跟我刚才的基本差不多
但是把它规格化,规格化以后,这个就把它得分的情况规格化,倒过来了
啊这个比方说左边左边这个就
得0.58分,他得分他当然就就就输啦,输0.58分
是吧,这个左边右边,零点,你看的也很对啊
他射向左,他扑向右边,那,那个
0.95,他输得比较多,当然呢,也许没射中,是吧,不一定是1
说的也很对,那么左右这差一点,那么右边右边也可以
所以,那个,这,像这一个事情,是可以从我刚才那个简单的那个表里头拿出来的,
是吧,拿出来了以后写成这个样子,我们就看看我们能说什么呢?
我们,我们首先诶,这个这个,看,这个,这个符合这种实际啊,然后我们能说什么。
我们就来看看这个里头均衡是怎么样,我们既然写出一个博弈来了,你看,什么叫写出一个博弈?
有这个参与人,有策略,有均衡,啊有有有回报。
啊有,而且是有了刚才那基本的回报我们就可以来算它们的期望
的概念,来算它的那个,那个那个混合概率下面回报,是吧。
我们就可以来讨论这个博弈,我们来看看这个点球的,
这样一个博弈中的均衡在哪里,均衡在哪里,一样的啊。
我们看啊,怎么算呢,你看啊,q,这个, 我们先看这个q,q它采用
L的时候,它叫0.58乘以q,对不对?0.95乘以1-q, 是吧?1-q是那个,这个这个里头的,啊它采用R的时候,
12:03
而且就说通过这个例子呢,我们就算出来这个例子就说
这个时候就是均衡,就是大家在长期的
这个实战,我们说一千次算长期吧,是吧,慢慢慢慢大家就磨合出来的那么一个,
一个一个一个互相,互为最佳应对,啊,好。
这个阵没完啊,最重要的是,这是算出来的数字,
我们回过头来再看这个表里头的数字, 表里头就是实战统计的数字。
我们刚才那个表是能够看出这两个数字来的,就是说,这个,
这个守门员到底左边扑了百分之多少啊? 这个射手到底往右边射了多少啊,你看,
这个实战得到的统计是q等于0.42,跟这个完全一样啊。
他这个的射球射理论是0.40,稍微差一点点啊。 你看这个就是,
这个当然我们我回头一说大家就知道,在这个表里直接找到数了是吧。
这样的话,我们就说明什么问题啊,就说明我们从数据中,
能够挖掘出比较深刻的结论和含义,是吧。
它是一个均衡,这这不是一般的,随便的数字,
它是体现了一个博弈的均衡,一个博弈的均衡。 好,我们
有这个例子,啊,下面举个例子就比较简单了啊,就比较简单了 我们就快点过一下,就是一个就是,
啊比方说这样的例子中,我们前面已经说过了,它是个不平衡的
协调博弈,是吧,有1啊2,我们也可以来, 啊这iii提依据,就是并,并不是说一个
博弈,有了这样的纯策略就不可以有混合策略了啊,
也可以有的啊,也可以有可以没有,得看情况。啊,你比方说,这个例子中,我们有这两个
前面说的均衡是吧,那么我们也可以来算,算出来,按照它排列的算法吧,
算出一个这个混合策略均衡,这和我们也是一样的,按刚才那种
参与约定,算出一个q等于2/3,p等于2/3,也是算出来的。
这个,这个当然你这个,这个问题呢,可以问个问题,
它是这么问的啊,好,算出来一个q等于2/3, p也等于2/3,
这个是什么意思?就是说在这样一个矩阵意义下面,
这两个人其实倾向于
以较大的概率 选择回报相对比较少的选择,
啊。这个
譬如说为什么是这样的呢?为什么算出这么一个来呢?
啊在我们书上好像有一个,有一个解释,啊。
就是,是一种,因为,因为这一个,这一个里头,因为均衡,
均衡它本身概念就是一个互为最佳应对, 它是不是一定是最好的结果?不一定。
啊,均衡的概念强调的是互为最佳应对,不一定是最好的。
只是说,当你们都是2/3的时候,它们的确是互为最佳应对。
啊,还有很多好的,那,这个,1就是好的,2也是好的。
那它,那这种不是均衡关系的,所以,这个不是问题,它就是这个样子。
还有这个问题就是,额, 额,
有的博弈的结构,像这种今天一开始那个博弈,是吧,那叫混合,不是,叫准备报告博弈啊,
而并不是所有的博弈都有混合策略,比方这个就没有,
这个就,这个我们就出了一个,今天一上来那个那个,比方我这算出来, 写出来的这个式子你看,
怎样,这叫q乘90,1减q乘86,q乘92,
什么1减q乘86,就,它俩整起来求出这个q来, 就这两个不是一个,这两个是平行的。
这两个东西,是两条平行的关于q的直线,它们没有交点,没有交点就求不出来,求不出来就没有。
但这个并不违反纳什定理。纳什定理说的是, 给定这个博弈,均衡这个,均衡是有的,
啊,这个,可能是这个纯策略,可能是混合策略,
那么这里头,我们知道,是有这个纯策略均衡在这,是吧,没有混合策略
没问题。但是就是,没有就没有。
这是一个。这个就是刚才说的一个半球iii,其实我们已经过了一遍啊。
主要是利用这个无差异的原理,是吧,根据这个期望, 算出来,好。
最后一个概念就是这个社会最优,这个是,必要,所以这个,概念听起来很简单,
但是在我们后面的这个课里头,会经常用到这个事情。
社会最优就是,其实是相对于这个均衡,
也是某种优化,是吧,因为大家都不能动了,也是那就是一种优化的情况下。
但社会最优讲的是,在一个博弈中, 那么一组策略组合,
它如果使得参与者的回报的总和最大,那么这样一组策略组合,我们就叫是一个社会最优的,
那么,那个那个组合。你比方说这样的,在这样一个博弈中,显然这个社会最优的组合是在这个,
对不对,但是我们那个均衡是在这,
是吧,社会最优不等于均衡。因为均衡都是大家追求个人利益嘛,
社会最优是追求我们一个整体利益,就是这个个人利益追求和整体利益不一定
相符,或者是经常不相符。当然并不是说,总是不相符,我们也可以有相符的。
你比方说我们假定把这个,把这个矩阵改一改,这个取决于这里头的分数的值嘛,
我们就能看到,在这样一个博弈中,这个地方,
又是均衡,又是社会最优。其实,
如果我们能够构造一个系统, 这个均衡与社会最优能够是一致,这样一个系统,
就是个理想系统。因为均衡是大家在争取个人的利益的情况下的
一种趋向,最后系统达到的一种状态趋向。
那么社会最优可以是我们说,我们系统设计者的一种理念,一种追求。
你同时设计这个东西时候,你如果设计成一个系统,
因为每个人追求自己的利益无可厚非,是吧,你要让大家在各自追求自己利益的
时候,也达到了一个社会的最好,那这样的系统,不管是社会制度,还是什么别的系统, 那显然是最好的。
所以,那么怎么来做这样的事情呢? 显然我们通过调整
一些个机制,比方说,这个叫,调整一些个分数,调整一些分数,你就可能
做这样的促进作用吧。好,那么,而且特别我们
最开始我就说了啊,我们看到了从不同的应用背景,
来抽象出来的不同的这种博弈的类型。
是吧,从一个,今天有一个例子,我做的比较快,但实际上我们书上的都是它,
它前面它都花很大篇幅,讲的前面为什么为什么,不叫为什么,是个什么样的情况,怎样变成一个矩阵,这就是我说的
用博弈论思想分析问题。这样的两部曲是,
我们要看到这么一个picture,是吧,不光是后面这个,不光是给定的矩阵,我怎么求这个,
这个这个均衡,而且前面这个呢,也是非常重要。这个就是
所谓的抽象的过程,这个红的就是抽象的过程。你把一个现实的问题,怎么能够把
重要的关键的因素保住,把不关键的,和可以这个这个
忽略的东西,把它给忽略掉,能够形成这么一个博弈的表达,
再谈怎么求解,这当然是很,这,是很,是很重要的一种
技能吧,也是需要在很多这个例子中慢慢慢慢来来培养啊,锻炼啊什么的。