缺了腿的小松鼠又跑起来了,差别的球队

(Lucorta92/编译)半个多世纪以来,各类游戏一直是人工智能(Artificial Intelligence, AI)发展创新的温床,而人工智能技术也不负众望地取得了各种突破——著名的深蓝(Deep Blue)在国际象棋比赛中击败了卡斯帕罗夫,IBM开发的超级计算机沃森(Watson)也在《危险边缘》(Jeopardy!)节目中战胜了该节目的两名总冠军詹宁斯和鲁特尔。然而,能击败人类的顶尖选手并不代表能将游戏破解。而现在,来自加拿大阿尔伯塔大学理学院计算机-扑克研究小组的研究者们首次破解了双人限注德州扑克(heads-up limit Texas hold'em poker)的决胜法门。

人们对于足球的热情每4年便燃烧一次。全民为足球狂热的时刻,球场上不论技战术运用、不同球队的独特风格、教练、球员魅力都是大家关注的焦点。 俗话说外行看热闹,内行看门道,对于越位、区域联防(zone defence)这类规则与战术名词甚至是球风的特殊性,许多球迷都能朗朗上口。不过,对足球门外汉而言,常常会觉得“球风”是种很模糊的描述,类似的战术在各队都有可能出现,类似的打法在球员间也常常互相模仿学习,好像很难准确地说出一支球队的“球风”到底是怎么回事。

一只来自土耳其的小松鼠,在外出觅食的时候不幸被兽夹夹住前肢。当人们发现它的时候,它已经奄奄一息了。面对这个危在旦夕的小生命,善良的人们做出了哪些努力?

所谓游戏的破解,是指当游戏双方都以最优策略进行博弈时,能够在任一阶段准确预测博弈结果——胜、负或平局。游戏的破解分为几个不同的层次,比如井字棋就属于已被“强解决”的游戏,在任何阶段,我们都知道玩家的最优策略。而这一次,阿尔伯塔大学的迈克尔·鲍林(Michael Bowling)教授和同事对双人德州扑克进行了“弱解决”——他们能得知在起始情况下,怎么样能保证必不败。“40年多来,扑克类游戏一直是人工智能领域的挑战课题,直到今天为止,双人德州扑克问题才得到破解。”鲍林说。以他为第一作者发表的论文今天发表在《科学》杂志上。

科学家在了解比赛时,也希望可以跳脱“球风”这种模糊的定义,用更量化的方式来分析球队的打法和战术,这就是卡塔尔计算研究所(Qatar Computing Research Institute)的拉兹罗·乔尔玛蒂(Laszio Gyarmati)的团队所做的事。他们利用网络理论(network theory)对西班牙、德国、意大利、法国和英国的各顶尖足球队的常用传球路径进行了分析。结果发现,其实大部分球队打球的风格都十分类似,很难说彼此的球风有什么区别,但是(总是有这么个“但是”),只有一支球队具有非常独特的风格!

人类不是世界上唯一会感觉到疼的生物,但我们好像最近几十年才明白这个道理。不同于人类,动物们在受伤难受的时候,不会哭喊或抱怨,这使得人们很少能感知到动物的痛苦。动物们的生命非常脆弱,如果失去一部分身体,生存情况只会更加糟糕。为动物制作假肢,也许可以让它们重返自然。

图片 1以正常人玩牌的速度,一个人类跟鲍林的程序单挑限注式德州扑克,就算花一辈子也无法得到统计学上显著的胜利。图片来源:Science

这支特别的队伍相信足球迷们都不陌生,它就是西班牙的巴塞罗那足球俱乐部(FC Barcelona,也叫巴萨)。他们擅长应用一种称作“tiki-taka”的足球战术,此战术除了西班牙国家队和巴萨部外,其他球队几乎没有使用。Tiki-taka强调短距离传送和频繁跑动,核心理念是保持控球权,以降低后方防守球员的压力。

在古埃及,人类就开始制作和使用假肢来方便生活,但将这项技术运用在动物身上的时间并不长。动物之间的差异巨大,为受伤的的动物们打造假肢不是一件易事。

德州扑克(Texas Hold'em Poker)是目前扑克游戏中最受欢迎的一种。游戏使用52张牌,没有大小王。每位牌手得到2张牌面朝下的“底牌”,荷官则陆续发出5张牌面朝上的“公共牌”。在限注式德州扑克的两人局中,先手玩家可以根据场上局面选择投注或者盖牌认输,而后手可以选择跟注、加注或者盖牌。如果最后一轮喊注后仍胜负未分,游戏将进入“斗牌”阶段:每名牌手从自己的底牌加上桌面的公共牌共7张牌中,选出最大的5张牌组合决定胜负。

图片 2球风独树一帜的巴萨。图为哈维。图片来源:fcbarcelona.com

一只白头海雕的鸟喙被盗猎者打掉,三年后,志愿者们为它打造了新的假肢鸟喙,使得它能够自主进食、重新返回自己的家园。

由于在德州扑克中,玩家们无法获取已发生事件的全部信息,诸如对手的底牌,因此这个游戏属于“不完美信息”(Imperfect Information)类游戏。虽然德州扑克的缺失信息比西洋跳棋少,但是这种不完美信息的特质使得双人德州扑克成为难度远远更高的人工智能挑战项目。研究者表示,要破解这样的游戏,势必需要更大的计算机记忆和计算能力。

在乔尔玛蒂团队的研究中,将分析的重点聚焦在了球员间传球的路径与顺序上,进一步利用网络理论处理数据。首先,他们定义了传球三次可能出现的各种组合:ABAB(A球员传球给B再传回A再传回B)、ABAC(A传给B传回A再传给C)、ABCA、ABCB和ABCD。接着他们分析了西班牙甲级联赛中总共380场比赛(涉及20支队伍),记录并画出比赛过程中符合上述传球顺序的次数。结果显示,除了巴萨,其他所有的球队都具有几乎一样的传球模式分布;而巴萨则明显更加频繁地使用了ABAB和ABCB的战术模式,同时很少使用ABCA或ABCD传球,与其他球队有所区别。

图片 3

然而更重要的是算法。鲍林和同事开发了一个叫CFR+的算法,这种算法是CFR算法(counterfactual regret minimization,虚拟遗憾最小化)的一个变体,从使遗憾最小化的角度学习最优的博弈策略。鲍林表示:“我们工作的主要突破是基础算法的改良。这意味着,在任意形式的大规模模型里,基于博弈论的推理将变得更加容易。”

图片 4从图中可以看出,巴萨(图中右侧)的球风堪称独树一帜。图片来源:研究论文

图片 5图片来源:nbcnews

本文由澳门威利斯人手机版发布于澳门威利斯人手机版,转载请注明出处:缺了腿的小松鼠又跑起来了,差别的球队

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。