人工智能和不完整信息的决策

（选自《人工智能与机器学习：算法基础和哲学观点》）

赵庆秋

2018年10月17日 02:43

克劳斯·迈因策尔

　 作者简介：克劳斯·迈因策尔，欧洲科学院院士，德国工程院院士，德国慕尼黑工业大学教育学院哲学与社会教席荣休教授，德国复杂性系统协会主席，主要从事哲学和复杂性系统研究。

　　译者：贾积有，北京大学教育学院。

　　在复杂的市场中，人们并不是按照“代表性经纪人”(经济人)的公理决定的理性预期来行动的，而是根据不完整的知识、情绪和反应来决策和行动。因此，美国诺贝尔奖获得者赫伯特·西蒙(Herbert A.Simon)定义了有限理性。(31)这意味着，面对复杂的数据，我们应该选择比较满意的解决方案，而不是寻求最完美的解决方案。

　　但是，处在有限理性和算法确定的信息条件下的决策是封闭的吗?在1997年，IBM公司的超级计算机“深蓝”(Deep Blue)击败了当时国际象棋的卫冕世界冠军。2016年，谷歌公司推出了基于超级计算机的“阿尔法狗”软件系统并击败了围棋冠军。然而，更令人感兴趣的是在扑克大赛中击败人类冠军的超级计算机上的软件系统。(32)不像棋类游戏，扑克是一个不完整的信息决策的例子。日常生活中的很多决策都属于这种类型，例如商务谈判、法律案例、军事决策、医疗计划和网络安全等。相反，国际象棋和围棋这样的棋类游戏的决策是完整信息下的决策，其中每个玩家随时都全面了解全局情况。

　　在扑克游戏中，人们会利用情绪和感受影响比赛，例如使用基于不完整信息的扑克牌花色来欺骗对手。人工智能专家也认为，要让机器能够理解甚至产生人类情感还需要很多年的时间。但是，上面提到的扑克程序绕过了情绪问题，通过纯粹而复杂的数学计算打败了人类对手。

　　人工智能首先是一种想要有效解决问题的工程科学，这一点很清楚，它并不是为人类智能建模、模拟，甚至取代人类智能。即使在过去，某些成功的工程解决方案也不是模仿大自然，如人们试图飞翔，模仿鸟类扇动翅膀，他们就会坠落下来。只有当工程师掌握了空气动力学的基本定律时，他们才能提出解决方案，以便能将沉重的飞机移动到云层之上的高度，而这些解决方案在自然界并没有发现。与人工智能不同的是大脑研究和神经医学，它们想要为人类有机体建模，理解人类有机体，比如人类在自然中是怎样进化发展的。

　　图形上，可以通过一个“博弈树”来表示一个游戏。一个游戏的情况对应于一个分支节点，从这些节点出发，根据规则不断发展游戏，这些游戏进程由“博弈树”中相应的分支来表示。这些树枝在某些节点(游戏情境)停止，新的分支(游戏进程)又出现了。这就是复杂“博弈树”的产生方式。

　　人工智能程序在处理游戏的时候，会通过一个有效的过程在“博弈树”中找到之前走法的不足之处，并试图在随后的游戏中避免它们。超级计算机的巨大运算能力可以实现百万次之多的自身博弈。但是扑克游戏所需要的自身博弈次数多达10126之量级，即使是目前速度最快的超级计算机也无法在一个可以期待的时间内完成。现在就要使用数学知识了：用数学概率定理和博弈论可以证明，在某些情形下，后面的走法根本就没有成功的可能。因此，这些情形可以被忽略，以减少计算时间。

　　在这样的背景下，Pokerlibratus程序(33)使用两种不同的算法：反事实的遗憾最小化(Counterfactual Regret Minimation，简称CFR)是信息不完全的、解决零和博弈的一个迭代算法；遗憾的修剪法(Regret-Based Pruning，简称RBP)则是进一步的发展，允许修剪掉在“博弈树”中不太成功的分支，以便加快CFR算法。在零和博弈中，RBP切断了所有不是一个“纳什均衡”最好响应的行动。一个“纳什均衡”是一种游戏状态，此时没有一个玩家可以通过单方面的策略来改善自己的表现。

　　人们在信息不完整的博弈中试图找到“纳什均衡”。在少于约10[8]个可能的游戏情形(游戏树中的节点)的2人零和博弈中，可以通过线性算法(计算机程序)精确地找到“纳什均衡”。对于较大的游戏，可以使用迭代算法(例如CFR)收敛于作为极限值的“纳什均衡”。

　　在每场比赛之后，CFR会计算“博弈树”中每个决策点行动的“遗憾值”，从而最大限度地减少遗憾，改善游戏策略；“反事实”意味着“怎样才可以做得更好”，如果行动会带着负面的遗憾值，RBP会跳过一定的迭代次数，直到随后CFR的“遗憾值”变为正值。只要修剪完成，跳过的迭代就会在一次迭代中完成。这减少了机器使用的计算时间和存储空间。

]]>

2018年10月17日 10:43

1751