人工智能社会学-未来的新兴学科?——AI视野(四)

by admin on 2020年4月19日

相信自从阿尔法狗战胜人类之后,不少人想干脆两个人工智能直接对决算了。

姓名:吴庆恺   学号:16020610024

从个体层面来说,你并不比孔子那个时候的人聪明多少,然而现代人类整体的能力却是古人所无法企及的。是文明与科技——这个人类集体的创造物反过来赋予了每个人类个体更高的智能。同样的道理,个体层面的人工智能存在着能力上的天花板,只有将成千上万的AI链接、整合起来,甚至创造出AI自己的文明,才可能为每一个个体AI赋能。

Google 的 Deepmind
团队还真的做了一件类似的事,不过设置有点稍稍不同,这来源于试验的目的并不是要找哪个人工智能玩围棋更腻害,而是,人工智能在特定的有些规则环境下,究竟是会合作还是竞争?

转载自:  有删节

图片 1

毕竟,未来人工智能在这个社会中,要处理的事情可能很多,小到指挥交通,大到国家的经济运行,可能都有人工智能的参与。然而人类发展的历程告诉我们,有时候合作也许是对大家最好。

【嵌牛导读】:最近,Google旗下的人工智能团队,AlphaGo的亲生父亲Deepmind宣布和暴雪娱乐合作,并放出了《星际争霸2》的应用程序接口(API),让AI能够在即时战略游戏环境下进行机器学习。

还记得这张图吗?在上一篇文章中《从万物有灵到机器掌管世界》,我们将整个世界按照人类是否能够理解的程度划分了三个区域,现在我们将进入“人工智能自己玩”这个区域……

图片 2

【嵌牛鼻子】:跨界合作,分析处理游戏数据的代码库,Python 语言的解释器。

聊天机器人、推荐算法、智能助理,我们已经被越来越多的人工智能所包围。就像我们现在越来越多地依赖微信一样,未来的AI程序将会形成每个人的数字化外衣,我们需要透过这层外衣才能间接地与外在世界互动。智能程序可以在一定程度上进行自主思考,所以,它们之间会形成一个庞杂的社会。放眼未来,我认为这种大趋势必然会催生一门新兴学科的诞生——我把它叫做“人工智能社会学”(Socialogy
of Artificial Intelligence)
,它将会在未来世界起到越来越大的作用。

为了探讨这个问题,DeepMind 做了个实验,说将几个 AI
机器人置于一系列的“社交困境”中,在这些情况下,个人可以从背叛他人中获利,但如果所有人都那些自私,那就没有赢家。这是不是让你想起了诺贝尔奖得主纳什提出的“博弈论”里面的“囚徒困境”?

【嵌牛提问】:ai的强大是福是祸,哲学的思考不能缺少。

一、

Deepmind 做实验的方法就是……让这些 AI 们一起玩两个简单的电子游戏。

【嵌牛正文】:
那么,AI这就要进军电子竞技了吗?还有,这个API到底是什么?我们能玩吗?好玩吗?该怎么玩?

人工智能的社会

实际上将Social(或者Socialogy,Society)与人工智能(Artificial
intelligence,或者Agent等)词汇相结合的学科已有不少。在20世纪90年代的时候,复杂性科学兴起,人们忙于利用计算机建模与仿真的方式来模拟各种复杂系统。社会系统显然是这类模拟程序所关注的一个主要对象。

最近的AI研究又呈现出了一种新的趋势,就是将深度学习研究与群体智能(collective
intelligence)相结合。
尽管由于算力的限制,目前所考虑的智能体数量一般都很少,但是可以预期在不久的将来,运用深度学习技术构建的集体智能框架将会出现。

随着算法经济的兴起,现实世界中的智能程序开始彼此相连,于是为这些智能体制定交易规则成为了一种新的问题。人们发现,本已备受诟病的主流经济学(Mainstream)也许更适合描述智能体,而非人类。这是因为,智能体可以更符合“理性行为人”的基本假说。

所有这些本质上都是在研究人工智能构成的社会,尽管它们的本质目的并不是相同的。接下来,就让我们沿着历史的顺序,考察人工智能社会的研究思路。

人工社会

早在1971年,著名的经济诺贝尔奖获得者Thomas
Schelling就构造了一个人工智能社会Segaration,用来研究种族隔离问题。纽约一直是一个多民族聚居的城市,Schelling敏锐地发现,同种族的人会相互聚集在一起。尽管后来纽约政府曾试图强制将不同种族的人混合在一起,以促进民族和谐,但是经过长时间的演化,家族的不断搬迁,最终仍然形成了多种族分割的现象。为了理解这一社会现象,Schelling开发了一个简单的人工社会模型Segaration,该模型不仅重现了种族分割现象,还从模型的角度证明了政府强行将不同种族混合在一起的尝试是徒劳的。更重要的是,Segaration成为了社会学仿真的开山之作,后来Schelling还荣获了诺贝尔经济学奖。

图片 3

Netlogo中的人工社会模拟程序Segaration,其中红色和绿色格点分别表示两种不同的种族居住地,黑色格点表示空地。每个红(绿)格点都按照如下规则演化:当邻居中异族比例超过一定阈值(参数p)的时候,就搬家,随机找一个没有人的地方住下来。最终,模型有可能演化到一种稳定的形态。如上图所示,不同种族分别住在了不同的区块。

密西根大学的著名政治学家R.
Axelrod也是研究人工智能体社会学的先驱,他早在1984年的时候就组织了多轮计算机实验以探讨合作的演化。它首先采用人工参与的方式,即向全世界学者征集人工智能程序,并将这些程序放到同样一个竞技场内进行交互。然后,竞技场会任意选择两个程序,并让他们玩所谓的囚徒困境博弈,以计算两个程序的相应得分。最后,经过多轮比赛后,得分最高者却是一个超级简单的程序,叫做“针锋相对”(Tit
for tat),它的策略是首先合作,然后只要对方叛变,他就果断地不合作。

图片 4

囚徒困境博弈,该博弈凸显了合作的复杂性。尽管对于双方整体来说,都合作是最好的选择,但是该博弈的纳什均衡解却是都背叛。

第二场比赛则完全没有人类来参与,而是允许程序自己通过遗传算法而不断地改进程序,看最终进化是如何在这个人工社会中起作用的。研究结果表明,合作作为一种进化稳定的结果是可以自发演化出来的,而且遗传算法甚至可以发现比人手工编写更好的程序。

另外一个早期的人工社会模型要算Arthur和
Holland合作的人工股市模型(Artificial Stock
Model)。与传统的股市交易模型不同,Arthur等人放弃了每个交易主体(Agent)都必须具有全部的信息、完美的理性等强假设,取而代之的是Agent可以通过历史信息不断的学习,修改自己对股价走势的预测;
也就是说人工股市是一个不断变化的永不平衡的系统,Agent之间的关系是一种既有竞争又有合作的协同进化关系。该模型成功的模拟出了真实股
市中的“股市心理”,以及狂涨狂跌的非线性突变现象。目前,运用人工股市模型,人们可以通过更改模型的参数来模拟、预测某种新的股票政策是否可以达到预期的效果。

1996年,Epstein和Axtell在计算机中构造了一个人工智能农场,叫做Sugarspace,其中可以时不时地长出“糖果”(Sugar)或者“香料”(Spice)出来。之后,他们将一系列人工智能体放到其中,并为这些Agent赋予简单的程序,让它们在这个开心农场中开采、交易、繁殖、社交,……。所有这些有趣的实验结果被他们总结成了一本书,就叫做“养殖人工社会”(Growing
Artificial Societies)。

图片 5

“Growing Artificial Societies”一书封面

ASPEN模型是美国Sandia国家试验室在 1996
年开始开发的一个基于Agent的经济系统模型。这是一个较大规模的模拟了包括公司、住户和政府等各
种Agent的经济系统模型。采用先进的建模技术以及大规模并行计算机的支持,ASPEN模型成功的应用于美国宏观经济系统和过渡经济的研究中。

……之后,这种人工模拟社会的方法被应用于从经济学、金融学,到组织学、文化学、社会学等各个方面。更多详情请点看本人多年前写的一篇综述文章《人工社会——基于Agent的社会学仿真》点击阅读原文可以获取。

集体智能(Collective Intelligence)

90年代可以说是多个体研究(Multi-agent
system)大爆发的时代,另外一个引人瞩目的研究领域就是所谓的集体智能,它是希望为每个微观个体设计简单的规则,从而在整体实现期望的属性,例如求解工程中的优化问题。顺便说一下,集智俱乐部一词的来源就是集体智能。

集体智能的一个最典型例子就是蚂蚁群体(Ant
colony)。我们都知道每一只蚂蚁都不够聪明,但是成千上万只蚂蚁组成的蚁群却具有超凡的群体智慧。例如,南美洲有一种蚂蚁叫做行军蚁,当森林火灾发生的时候,它们可以聪明地聚集成一个大蚂蚁球,快速滚动出火灾包围的区域。实际上,这个过程会牺牲掉大量蚂蚁球外围的蚂蚁,但是为了集体的生存,它们会“聪明地”想出这个拯救办法。

再比如,蚂蚁群体不仅能够找到从巢穴到食物的通路,还能够找到在所有可能通路之中最短的一条,如下图所示:

图片 6

随着时间推移(从左往右),蚂蚁最终会收敛到若干路径中最短的一条上面去。通过计算机模拟人们知道,只要让蚂蚁可以释放信息素(一种气味),这种信息素又能吸引更多的蚂蚁聚集过来,那么这群蚂蚁智能体就能找到最短路。

一旦理解了其工作原理,人们便可以借鉴蚂蚁的智慧,通过模拟蚂蚁与信息素交互的规则,可以将蚁群的智慧应用于工程实践之中,例如下面两张图就展示了用蚁群算法解决路径导航问题,和推销员旅行问题。

图片 7

运用蚁群算法最终找到了地图上的最优导航路径

图片 8

运用蚁群算法解决TSP问题(Travel Salesman
Problem,旅行推销员问题,即要求一个推销员要走遍所有城市,不能重复,并且还要回到起点,同时要求整个路径要最短。)

借鉴大自然中的群体智慧,人们开发了不少集体智能算法,这些算法只要让每一个简单个体遵循非常简单的计算规则,就可以智能地解决一系列复杂的难题。从某种意义上说,神经网络其实就是利用了群体智能,因为每个简单的神经元都遵循简单的规则来完成信息的发放,但是大量神经元整体却可以产生智慧。

深度学习助力

然而,这些程序虽然展现了丰富多彩的集体现象,但因为它们受制于早期计算能力的限制,只能通过很简单的代码构造智能体,远不能模拟复杂的人类思维。好在早期这些人工社会、集体智能研究者们更加关注的是简单程序在整体社会层面所体现出来的涌现结果,因此,对单个智能体是否足够逼真并不十分关心。

然而,随着计算力的提升,以及深度学习技术的突飞猛进,人们已经具备了利用深度学习来建模Agent主体的能力了。当我们把每一个人工智能社会中的简单程序替换成具备“深度学习”能力的大型人工神经网络的时候,整张人工智能程序的大网将会发生什么就不是那么一目了然了。事实上,现在的人工智能科学家们已经开始了这样的研究,他们研究兴趣的焦点已经从单个的深度神经网络过渡到了多个神经网络,并且再让这些神经网络本身联网,只不过目前联网的智能体数量并不多。

下面,我将分别介绍几个研究思路:

GAN(Generative Adversial
Network,生成对抗网络)

图片 9

GAN的框架,其中生成模型(Generative
Model)和判别模型(Discriminitive model)就是两个神经网络构成的智能体

比如,Ian
Goodfellow等人提出的对抗式神经网络就是一种两体人工智能,其中一个神经网络负责生成图像,另一个负责辨别究竟是神经网络生成的还是真实的图片。在这样一种框架下,我们可以同时训练两个网络,结果却比仅仅训练一个生成网络得到了好得多的效果。这也许恰恰就是蕴含在集体之中的神秘力量。

我们还可以将这种二体的竞争模式扩大,创造更多更复杂的玩法。比如Jun-Yan
Zhu等人就将二体扩充到了4体,分别有两个生成器和两个判别器,并且让它们按照如下的方式链接起来:

图片 10

这里蓝色的框是生成器,粉色的圆圈框是判别器。整个系统可以自动生成图片。例如如果我们将一张马的图像输入进来,它就可以吐出一张图像,把马变成了斑马。它是怎么做到的呢?首先,生成器G会根据图片X生成图片Y,DY保证了这个Y要足够真实。然后再把这个Y输入给生成器F转化为图片X’,还要要求这个X’要和X足够靠近。类似的,如果从任意图像Y经由生成器F转化为图像X,再从G转化为Y’,在整个的过程中,要求:1、经过DY判断,Y要足够逼真;2、X与X‘要足够相似;3、经由DX判断,F生成的X要足够逼真;3、Y与Y‘要足够靠近。这就可以使得网络学习到了X域(所有包含白马的图像)到Y域(所有斑马图像)的对应。

这样,我们只要输入给这四个Agent两组图片,比如一组图片全部是马,另一组图片全部是斑马,经过训练,就可以将一组图像映射为另一组图像,例如将马变成斑马、将包包上色、以及将塞尚的风格迁移到我的照片中来。

图片 11

马变斑马

图片 12

猫上色

还有更复杂的玩法,Taeksoo
Kim等人将相互连接关系制作了一个五花大绑,结果网络不仅可以生成类似于真实的图像,也能够让输入输出图像形成对应。

图片 13

Cross Domain GAN架构示意图,其中包括四个生成器和两个判别器

多体的引入让GAN系列的研究如火如荼,然而生成器和辨别器的关系就像是警察和骗子,生成器是造假者,辨别器是抓造假者的警察,它们构成了一种相互对抗的竞争关系。

然而,多体关系不仅仅包括对抗性竞争关系,更多的则是合作、协调、配合的关系。这方面的研究最近也是越来越多了起来。

交流与合作

前不久,Facebook爆料,他们的人工智能程序们在交流的过程中发明了特属于人工智能的语言,如下所示:

图片 14

这是什么?难道是人工智能也会“鬼搐”了吗?

实际上,这就是LSTM神经网络在未训练好的时候经常会表现出来的行为,似乎FB在搞笑。但是,Facebook的科学家们的确在研究多个AI程序如何在特定的条件下产生语言。他们将一群Agent放置到了一个模拟的环境中,并赋予它们相互交流的能力:它们可以通过发送一些在人类看来无意义的信号而彼此通讯。

图片 15

这个研究通过在机器中营造了一个模拟的环境,让多个Agent完成相互作用,从而演化出自己的语言。每个Agent都需要到达目标节点(landmark),并让它的伙伴也达到规定的地点。在这种情况下,Agent可以通过发出一系列的抽象信号(Utterance)来相互协调。之后研究人员对这些信号进行了一定的解读,并发现它们可以形成有体系的符号及其意义。

在另一个实验中,研究人员要求两个聊天机器人可以针对图像完成多轮对话。其中,一个机器人可以将它所看到的图像尽可能地描述成一些符号串,把它传递给第二个机器人;而第二个机器人无法看到图像,但却可以根据第一个机器人的描述尽可能猜测图像之中的内容。最终,当第二个机器人能够猜出原图内容的时候,它们获得了游戏的胜利。在这个过程中,机器们可以演化出自己的语言。而且,当我们用人类的对话数据来做预训练以后,这些机器人就可以演化出人类能够听懂的语言,并用这种语言来对话了。实验人员指出,这种通过两个机器人合作的方式来生成对话比用一般的监督学习方式训练一个机器人要更有效率得多。

图片 16

另外一个斯坦福大学计算机系的HeHe等人的研究成果表明,机器人可以通过交流的方式完成合作。还是两个机器人,它们被要求针对一个内在的知识图谱来找到共同的朋友。于是,这些Agent可以根据自己的知识图谱而发送出语言,来传递给它的合作者,而合作者则将根据收到的消息而尝试理解,并根据获得的信息进一步提问,最终当两个机器人找到了它们朋友列表中的一个共同朋友后就会完成游戏。在整个过程中,机器不仅能够找到最终的朋友,而且还能在训练期间得到一个非常完善的知识图谱以及图谱的抽象表示。

图片 17

类似这样的研究还有很多。现在的AI研究者已经重新将焦点从单个主体移到了多个主体研究工作中;另外,利用深度学习方法对每一个人工智能主体进行建模可以丰富每个主体的表现,还能够更加逼真地模拟人类行为。大量的研究表明,对于同样的问题,例如多轮会话,多个主体会比单个主体更好地完成任务。

机器经济学

尽管目前的多主体研究随着深度学习的渗透已经涌现出了一些有趣的新结果,但这与现实情况还有很大的差距。设想一下,如果未来联入互联网的五百亿设备都装备上深度学习模块,那么我们应该考虑的人工智能社会就不再是简单的两三个智能的合作与交流,而应该是五百亿个(注意,这已经远远超出了现在的地球人口)人工智能主体所构建的超大规模的机器社会。于是,这一全新的社会将会给我们带来怎样的挑战?我们还能对它实施管理吗?

比较乐观的一点是,现在的机器还没有完全脱离我们人类的控制。那么,我们需要抢在机器拥有自由意识之前为他们制定好规则。

其实,科学家们早已经展开了行动,他们用“机器经济学”(Machine
Economics)来概括这一新兴研究领域。我们知道随着全球性的金融危机爆发,传统主流经济学(Mainstream
economics)受到了大量的诟病。人们指责,由于主流经济学中关于“理性经济人”的假设过于严格,从而使得经济学的研究严重脱离了人类行为的实际表现。

但是,随着人工智能的兴起,人们突然发现,主流经济学中的“理性经济人”假说更适合描述人工智能,而非不理性的人类。显然,人工智能程序这种“机器经济人”(Machine
economicus)会比人类更可能严格按照“理性经济人”假设的情况来完成决策和行动。事实上,随着近年来计算经济学、计算博弈论等学科的进一步发展和计算能力的大幅度提升,人们已经可以在机器中利用算法的方式逼近所谓的“理性经济人”模型。于是,从这样的基本点出发,我们便能构建所谓的“机器经济学”这一新兴科学。

机器经济学将会面临一系列的问题。假设程序A代表了主人a的想法,而智能程序B代表了主人b的想法,那么当A代替主人向b购买产品的时候,A将会与b的代理B进行算法的讨价还价。由于A和B都是近似的理性经济人,这些算法就会尽其所能充分暴露自己的偏好,并力图达成一个对主人最好的结果。这样,在人类经济系统中的信息不对称的问题就有可能不复存在了。

当然,这里面的关键就在于我们应该如何为机器算法们设定环境和一系列的交易的基本规则,学名叫做机制设计(Mechanism
design),以使得近似理性的算法能够在给定的机制下实现一定程度上的最优。

比如说,在囚徒困境博弈之中,我们可以通过引入“协调者”从而让两个近似理性的Agent能够达成合作,博弈矩阵如下:

图片 18

博弈的支付矩阵,每一个矩阵元给出了(行玩家、列玩家)的效用。(A)囚徒困境。战友策略均衡是(背叛,背叛)。(B)协调的囚徒困境。占优策略均衡是(协调者,协调者)

再比如,Google的竞价排名就是一种典型的将机制设计理论应用到算法设计上的一个成功案例。根据经济学中的拍卖理论,第二价格拍卖(Second
price auction)会比第一价格拍卖更好地揭露交易者的隐藏信息。

近年来,搜索引擎竞价已经开始支持更丰富的,基于目标的出价语言。例如,广告客户可能要求在受预算约束的情况下对一组加权的查询主题来最大化点击。搜索引擎可以提供代理主体,来代表广告客户出价以实现所述目标。代理主体的的引入以及早期从一级价格拍卖到二级价格拍卖的转换本质上就是信息揭示原理的计算应用,这是机制设计理论中的一个基本概念。简单地说,如果一个机制的规则和该机制的均衡策略被一个在功能上等同的新机制取代,那么这个新机制将是激励相容的。虽然在形式上说重新设计没有专门地考虑激励相容性,但二级价格拍卖和投标代理都可以看作为早期版本中的广告主的行为。另外,广告平台还可以设计一种策略防范(strategy
proof)机制[Vickrey-Clarke-Groves机制]来决定广告空间分配:哪些广告被分配,哪些(非赞助的)内容陈列给用户。

图片 19

两代赞助搜索机制。早期的设计是一级价格拍卖(FP),广告商(ADV)使用AI(AI-POS)以最低的可能价格在搜索结果列表上保持位置。引入二级价格(SP)拍卖机制,旨在取代FP和AI-POS的组合。
广告商采用了新的AI(AI-GOAL),以实现更高级的目标,例如最大化利润或最大化点击次数。二级价格拍卖被扩展到包括智能代理(SP
+Proxy)中,旨在取代组合 SP和AI-GOAL。

在不远的将来,假如每一个人都有自己的一个人工智能个人助理,那么大量的经济交易活动就会由这些人工智能算法代理我们进行。于是,AI与AI之间就会讨价还价。按照“完美理性”的“经济人”假说,这些AI将能够和谐共处,并给主人带来最大的利益。

第一个电子游戏叫“捡苹果”,两名玩家要在中间的一道管子上收集苹果,谁捡的苹果多谁赢。同时他们都有一个技能,通过用激光来阻碍对方的行动,让对手暂时在游戏中消失,前者就又机会收集更多的苹果了。

电脑游戏和人工智能的跨界合作

二、

第二个游戏叫“狼群”,两名玩家需要在一个充满困难和障碍的环境中捕猎一只猎物。不过不只是抓道猎物那名玩家可以得分,而是当猎物被捕时,所有靠近猎物的玩家都可以得分。

近年来,游戏开发巨头暴雪娱乐一直和开源社区有着不解之缘,除了为一些开源软件贡献了代码之外,暴雪的开发团队先后公开了《魔兽世界》、《暗黑破坏神3》的游戏数据查询API,还开源了《风暴英雄》和《星际争霸2》的游戏回放处理编辑代码库。

人工智能社会学还有多远?

《三体》中构思了一种“宇宙社会学”用来描述在时空跨度超级巨大的宇宙空间中,不同物种之间的相互作用法则。根据两条“宇宙社会学”基本公理,1、生存是文明的第一需要;2、文明爆炸和扩张,但宇宙中的物质总量保持不变,由此刘慈欣推导出了技术爆炸和猜疑链这两个基本概念,以及“黑暗森林”这个宇宙尺度的丛林法则。

图片 20

于此相似,如果人工智能社会是可能的,那么是否存在着人工智能社会学这门学问呢?它将会是什么样的呢?我们能否像宇宙社会学那样提炼出来一系列的公理用以构架一个理论体系?

也许正如机器经济学所描述的那样,相对于构建人类自身的社会学原理来说,人工智能的社会学会更加简单。原因在于机器完全有可能按照一种人为预设的方式来进行行为,这样的话机器会更加接近于理性人假说。或者,反过来说,人工智能社会学的基本原则与其说是一套公理体系用以描述AI,还不如说它是一套未来AI的行为准则。与物理学研究范式最大的不同就在于人工智能,以及人工智能社会究其本质是一种规范性研究(Normaltive)。如果这个结论是正确的,那么构建人工智能社会学也许真的是可能的。

另外一个问题是,这样的理论体系有什么用呢?

也许它可以帮助我们人类更好地理解海量的人工智能所构成的巨系统,也许它可以让人工智能的群体更好地运转。然而,还有一种情况是,也许人工智能社会学压根就不是人类可以掌握的学问,而是一个彻头彻尾的AI自身的学问。它们也许会比我们人类更理解AI构成的社会。有关AI社会学,也许压根就轮不到人类来说话。

图片 21

参考资料

有关人工社会,大家可以参看本人写的一篇综述,点击下载

有关集体智能,请参看公众号文章:涌现智能

有关不同架构的GAN,可以参看这两篇文章:

Jun-Yan Zhu et al. Unpaired Image-to-Image Translation using
Cycle-Consistent Adversarial
Networks,https://arxiv.org/pdf/1703.10593.pdf

Taeksoo Kim et al. Learning to Discover Cross-Domain Relations with
Generative Adversarial
Networks,https://arxiv.org/abs/1703.05192

关于多主体交流与合作的论文:

Igor Mordatch, Pieter Abbeel: Emergence of Grounded Compositional
Language in Multi-Agent
Populations,https://arxiv.org/abs/1703.04908

Jon Gauthier, Igor Mordatch: A Paradigm for Situated and Goal-Driven
Language
Learning,https://arxiv.org/abs/1610.03585

HeHe et al.: Learning Symmetric Collaborative Dialogue Agents with
Dynamic Knowledge Graph
Embeddings,https://arxiv.org/abs/1704.07130

关于机器经济学,可以参看:经济推理与人工智能

实验结果略有趣,但是不算意外,这些人工智能都会根据不同的情景和规则,调整他们的行为方式,时而合作时而敌对。

2016年,暴雪在嘉年华上承诺放出《星际争霸2》的游戏API,而在第二年8月9日暴雪就实现了自己的诺言[1]。

比如,在“捡苹果”游戏中,当苹果数量很充足的时候,这些人工智能似乎懒得去动手阻碍别人,而是努力在自顾自地捡苹果。然而当苹果的总数逐渐减少,他们使用激光技能的次数也开始增多了。文科生大概开始在YY各种什么人在极端情况下展现最真实的人性,还有什么马克思的原始共产主义社会理论被打破之类的

图片来源:暴雪娱乐

但这是一个机器人,接下来的事情就更有趣了,当引入一个运算能力更强的人工智能时,他却倾向于无论剩下多少苹果,都会去阻碍对手。似乎更聪明的AI展现出来的是,在这个游戏中,什么时候都要好斗。

图片 22

不要这是不是就是意味着,AI 认为,阻碍别人就是最好的战略呢?不一定哦。

另一方面,人工智能团队Deepmind从深度学习等人工智能研究的前沿领域着手,在训练AI玩Atari游戏机、走迷宫等项目之后,通过卓越的围棋AI“AlphaGo”连续击败多名世界围棋顶级高手,一鸣惊人。此后,DeepMind官方就表示将研究方向转向即时战略游戏,而首选的就是《星际争霸2》[2]。

研究人员认为,更高级的人工智能在游戏中使用激光的次数更多,有可能只是因为发激光这个动作更难.AI需要把武器瞄准目标,通过跟踪它们的踪迹,这样的举动需要更多的运行能力,而且还会占用宝贵的捡苹果时间。所有除非玩家觉得发激光划得来,否则他大概会乖乖一起捡苹果。

能让AlphaGo去学打星际吗?

那么在“狼群”中游戏中又如何?

不,并不能。

这个游戏的情况则恰恰相反,更聪明的
AI,在这个游戏里更倾倾和和其他玩家合作。研究人员解释,这也是因为跟其他玩家一起追踪和围捕猎物,要求更多算力……

按围棋规则训练出来的AlphaGo很难应对《星际争霸2》这类即时战略游戏。

不得不说,不同级别的机器人模式转变的理由,真是十分实在。即便AI展现出来的合作与好斗的程度,跟他们的“能力”有关,但无论如何,研究结果都说明,人工智能的行为模式会随着它们所面临的规则而变。如果游戏规则鼓励的是好斗的行为,也就是说你要好斗才能拿高分,AI会变得好斗;如果游戏规则鼓励合作行为,那他们会表现得更为为合作。显然上面的游戏中,第一个捡苹果的游戏更像一个零和博弈,你捡的苹果多了我的就少;第二个则则正和博弈,合作时双方至少一方的利益会增加,也就是整体利益会增加。

首先,在《星际争霸2》中,玩家既要拥有快速的战术微操能力,还要有足够高的战略规划水平。如果说围棋每步的可能性有19✕19=361种,那在即时战略游戏中玩家用鼠标点击下达命令的每步可能性则将超过100000000种,还不包括不同的建筑顺序、放置布局、兵种搭配和科技树顺序等等。

这也告诉告诉了人工智能研究的相关人员,未来在涉及多个AI交互的场景中,确保制定的“游戏规则”适当,是控制AI行为很重要的部分。就像研究人员在博客中写道:

而且,对于围棋来说,全盘的信息是完整的,所有的推测可以根据盘面的情况来进行。但在即时战略游戏中,由于有“战争迷雾”这种设定,玩家只能看到自己的部队探索或占据的区域,AI所能获取到的信息是不完整的。

这个实验之后,我们似乎更能理解与控制多方参与的系统,比如经济运行,交通系统或者地球生态健康的维护,这些都依靠我们持续的合作。

所以对于未知领域的计算就更加困难了,于是Deepmind决定开发新的应用程序接口来进行AI在即时战略游戏上的应用。

如果把上述游戏中的AI换成人,得出的结论很像社会心理学的基本假设,倾向于将人的行为模式归结到环境变化。然而人的不可控性在于复杂的七情六欲,还有内心对于机器而言,还没有性格可言,在同一环境下的不同行为,变量只是运算能力。

可以看到,这两种游戏在玩家获得的信息方面的不同。图片来源:维基百科、《星际争霸2》游戏截图

也许囚徒困境不会是个问题,因为即便信息不对称,只要你给我足够的算力,我可以算出合作是最优解。但人呢?即便智商够高,也不一定能相信坐在隔壁的人不会背叛我。

图片 23

不过如果出现了“西部世界”的情况,机器人有了记忆和意识,不知道他们还会不会纯粹靠智商思考?

这东西到底是什么?

稿源:36kr

这次的放出的接口,全称叫“星际争霸2机器学习环境”(StarCraft II Learning
Environment,以下简称SC2LE),它并不是一个玩家直接打开就能玩的Bot(游戏AI),而是一个让程序员能用来“训练”人工智能的基础环境。和非人工智能的程序不同,人工智能程序并没有硬编码了“要怎么做”的代码,必须通过机器学习的“训练”过程来找到最优的解决方案。

作为一个更新颖也更具挑战性的机器学习环境,SC2LE由两个部分组成:

一个是暴雪放出的《星际争霸2》游戏API,让计算机程序能够从类似人类玩家一样的视角,获得当前游戏状态的相关信息——AI能获得的数据和信息和人类玩家是平等的;

另一个是Deepmind放出的PySC2,它提供了一个分析处理游戏数据的代码库——可以告诉AI下一步要进行什么操作,是挖矿还是建造兵营。此外,PySC2还能够帮助程序员编写的AI进行强化学习[3]。

SC2LE结构图:星际2客户端本身(左侧黑色)是核心,通过API和PySC2进行沟通,联合成一个整体,玩家的AI(右侧Agent)通过PySC2得到各种观察结果和反馈,然后做出具体的行动命令,以模拟人类操作的方式,输入进PySC2里,形成一个具体的游戏操作。图片来源:Deepmind
SC2LE介绍

图片 24

这里的“强化学习”,是一种基于决策和交互的机器学习方式。在“训练”过程中,程序针对当前需要解决的问题,建立一个模型,然后基于当前环境给定的各种规则和条件作出决策,并且通过探索各种可能性,根据获得的反馈(可能是“奖励”或“惩罚”,比如成功开了分矿,或者在战斗中损失了一支部队等等情况)来调整下一步决策,通过不断的试错和修正,来寻求最优的对策。

通过这样的方法,训练出来的AI能够以模拟人类观察和操作的方式来进行游戏,而不是靠直接读取游戏数据和APM碾压的作弊办法。是不是很有挑战性?

普通玩家也能尝试

这种高端的项目,是不是只有程序员才能使用?

不,即使你不是程序员,也能玩这个东西!而且我可以负责任的告诉你,这并不难!

首先当然是通过暴雪游戏平台,下载星际争霸2。如果你已经有了能进游戏的客户端,那就不需要额外下载了。另外,免费版也可以运行AI程序。

其次是要准备好代码运行所需的软件环境,也就是 Python
语言的解释器。这可以在 Python
开源项目的官方网站上下载:www.python.org

接下来,我们先看暴雪放出的代码[4]:

图片 25

在下载区,前三个是API的编程说明书、C++的代码库和Linux版的《星际争霸2》AI用客户端——不是程序员的你可以安全的忽略它们。第四个是地图包,第五个是65000个游戏回放数据。如果只是想看看AI怎么玩,并不打算实际调教一个AI的话,你只需要下载几个地图包即可。下载后解压压缩包里的东西到星际争霸2的
StarCraft II/Maps 文件夹里,解压密码是 iagreetotheeula 。

解压完之后,你的 StarCraft II 文件夹里应该有这些子文件夹:

图片 26

然后,你需要从 Deepmind 的开源页面上安装PySC2模块[5]。

如果你已经装好了 Python
环境,只需要在系统的“命令提示符”里输入以下命令就可以在联网状态下一键自动完成安装了:

pip install pysc2

图片 27

最后, PySC2
还提供了一套测试基本AI学习功能的“迷你游戏”的地图包,在Deepmind的github页面上可以下载到
,将其放进 Maps 文件夹里即可。

图片 28

安装好了最基本的SC2LE运行环境后,你就可以通过 python
命令激活一个新的AI开始游戏了!

来看看AI的实力吧!

在命令提示符输入以下命令,就可以打开一场新游戏,看AI的行动了:

python -m pysc2.bin.agent –map Simple64

上面的命令是在一张简单的1v1地图上,用一个随机AI进行游戏。如果你装了上面的“迷你游戏”地图包,还可以调用
Deepmind 已经调教好的范例AI玩收集资源的小游戏:

python -m pysc2.bin.agent –map CollectMineralShards –agent
pysc2.agents.scripted_agent.CollectMineralShards

游戏效果如下:

图片 29

背景是游戏画面,而中间我切出来的那个窗口则是PySC2本身的AI工作窗口,里面显示了从AI的角度所看到的游戏数据是什么样的。

动图闪太快看不清?让我们开一局新的完整游戏看看:

上图左边是经过简化的游戏图像,可以看到中间(大绿圆)是星灵的枢纽(Nexus),带着一群探机(小绿圆)在采矿(蓝圆)。右侧则是各个分层数据,包括地形高度、当前视野、小地图数据,当前窗口上的各个单位类型、血量,已选中的单位数据等等。图片来源:SC2LE程序界面

图片 30

过了一会,显然目前的实验AI基本就是乱来:

建造顺序和建筑摆放的方式可以说是十分混乱了。 图片来源:SC2LE程序界面

图片 31

根据deepmind的资料显示,目前各家训练开发出来的AI(PySC2中附带了好几个不同的范例)在完成采矿、控制单位移动、造兵等基础操作方面没有太大的问题,但在整个游戏上还很难和暴雪内置的简单敌人抗衡。大部分的AI能做到的都只是机械的随机重复已有的行为而已。看来要玩的好,这门槛也还不低啊,想要“做一个AI打败电竞高手赚钱”还是挺任重道远的。

目前,表现优秀的是加拿大纽芬兰纪念大学计算机科学系助理教授大卫·丘吉尔(David
Churchill)开发的AI:CommandCenter,它虽然只会一种固定套路,但已经几乎能打败暴雪内置的简单电脑敌人了[6]。

你现在下载这个软件,也可以在你电脑上模拟一场:

这盘,被CommandCenter杀光农民的电脑敌人打出了gg。
图片来源:星际争霸2AI运行截图

图片 32

大卫·丘吉尔表示,接下来他将让这个AI学会建造附属建筑、适时升级相应的科技,未来还会尝试让AI能对战斗情况进行预判,以及在主动进攻、积极防御、游击骚扰等策略中灵活选择。

最后,Deepmind和暴雪在SC2LE的发布说明中表示,希望通过这次开源的代码和范例,能给广大星际玩家和自制AI爱好者提供更多的便利,更好地发挥出创造力,也希望能给人工智能领域的研究者一个更强有力的研究工具,以便推进未来人工智能技术的发展和进步。或许在不久以后,我们就能看到星际争霸AI版的《机器人大战》节目了吧?

在《机器人大战》这个暴露年龄的节目中,参赛者用自己制造的机器人下场决斗,把对方摧毁的一方获胜。图片来源:
Battlebots.com

图片 33

无独有偶,8月12日早上,特斯拉老板伊隆·马斯克(Elon
Musk)旗下的人工智能OpenAI在Dota2的1v1比赛中,以三战两胜的成绩首次击败了人类职业选手Dendi。

被AI单杀的Dendi小哥。图片来源:Dota2比赛视频

据OpenAI团队介绍,他们的AI并不是靠微操数量取胜,他们的AI通过自己和自己比赛的机器学习方式,花了两周时间达到了目前的水平。

不过,虽然这个AI看起来比星际2的AI厉害了许多,但这种控制单一英雄、中路对单的Dota
2里,AI需要处理的信息和进行的操作都比完整的星际2对战简单很多,表现良好也算是情理之中。

在此之前,这个AI也打败过SumaiL、Arteezy等职业选手。不过OpenAI CTO Greg
Brockman表示,1V1的胜利并不是他们的最终目的,OpenAI希望能在2018年的国际邀请赛上与职业选手进行5V5的比赛。说不定到时候的全明星赛将会是一场新纪元的人机大战!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图