# 学习模型
# 个体强化学习模型
在强化学习中,个体要根据各个行动的不同权重来选择行动,权重较大的行动比权重较小的行动更容易被选中。分配给某个行动的权重取决于这个个体在过去采取行动时获得的奖励。这种高回报收益的强化可以导致个体选择更好的行动。在这里,我们讨论强化学习是不是会收敛为只选择具有最高奖励的那个备选方案。
只选择最优价值的那个备选方案似乎是一个非常容易完成的任务,如果奖励是完全以数值形式来表示,那么有我们有理由相信人们会选择最好的那个备选方案。但是如果奖励没有采用数值形式,人们就必须依赖自己的记忆。在一个实验中,一只通过拉动杠杆逃离了箱子的猫得到了奖励,在回到箱子中之后,这只猫在几秒钟内就再次拉动了杠杆,经过研究人员统计的数据表明,猫会持续进行尝试。研究发现,猫在奖励增大时学习的更快,这个实验还发现,远远超预期的奖励,会使人们学习的更快,这也被称为惊奇律。
在个体强化学习模型中,分配给一个所备选方案的权重,是根据该备选方案在何种程度上超过了预期(渴望水平)来进行调整的,这样的模型即考虑了效果律,也考虑了惊奇律。这里需要注意的是,渴望水平必须设定为低于至少一个备选方案的奖励水平,否则被选中的任何一个备选方案在未来再次被选择的可能性会很低,而且所有备选方案的权重都会收敛到零。不难证明,如果渴望水平低于至少一个备选方案的奖励水平,那么最终几乎所有权重都会被赋予在最优备选方案上,之所以会发生这种情况,是因为每一次最优备选方案,权重的增加幅度都会最大,从而给这个备选方案创造了更强的强化。
# 社会学习模型
强化学习模型假设个体是孤立采取行动的,但是人民也会通过观察他人来学习。社会学习模型假设个体能够观察到他人的行动和奖励,这可以加快学习速度。在这个模型中,采取某个行动的概率取决于该行动的奖励和它受欢迎的程度,前者被称为奖励效应,后者成为从众效应。
在大多数情况下,社会学习模型都要假定一个无限种群,在这个假设的基础上,我们可以将所采取的行动描述为各种备选方案之间的概率分布,在标准的复制者动态模型中,时间不是连续的,所以我们可以通过概率分布的变化来刻画学习。
在构建社会学习模型时,我们需要假设每个备选方案都存在于初始种群中,由于最高奖励的备选方案总是具有高于平均奖励水平的奖励,而且它的比例在每个时期都会增加,因而模型最终会收敛到整个种群都选择最优备选方案的结果。因此,个体学习和社会学习都会收敛到拥有奖励水平最高的备选方案上来。