馬斯克的OpenAI自主學(xué)習(xí)機(jī)器人完勝人類Dota玩家


來源:微信公眾號“新智元”   時(shí)間:2017-08-12





  OpenAI的機(jī)器人剛剛在Dota2 1v1比賽中戰(zhàn)勝了人類頂級職業(yè)玩家Dendi。以建設(shè)安全的通用人工智能為己任的OpenAI,通過“Self-Play”的方式,從零開始訓(xùn)練出了這個(gè)機(jī)器人。
 

  Dota2 淪陷
 

  繼橫掃頂級的人類國際象棋大師和圍棋大師后,計(jì)算機(jī)如今在風(fēng)靡全球的電子游戲Dota2中戰(zhàn)勝了世界級的職業(yè)玩家。此前未被披露的此場對決發(fā)生于Valve獎金高達(dá)2400萬美元的Dota2國際邀請賽“The International”。

  Dendi(圖左)在賽前與OpenAI的團(tuán)隊(duì)交流。
 

  在這場一對一的對戰(zhàn)中,OpenAI設(shè)計(jì)的一款機(jī)器人擊敗了職業(yè)玩家Danylo “Dendi” Ishutin,Dendi在此前的職業(yè)生涯中已贏得累計(jì)735449.4美元的獎金。OpenAI的機(jī)器人在首場對戰(zhàn)中用時(shí)十分鐘擊敗了Dendi,之后Dendi在第二局對戰(zhàn)中退出并拒絕再戰(zhàn)第三局。

  Dendi

  “請放過我吧,”賽間Dendi對機(jī)器人對手這樣說道。

  Elon Musk發(fā)表推文稱贊OpenAI的戰(zhàn)績,并稱其為“在電子競技領(lǐng)域首個(gè)擊敗人類頂級玩家的機(jī)器人”。
 

  OpenAI在電子競技領(lǐng)域首度擊敗人類頂級玩家。這比國際象棋及圍棋等游戲要復(fù)雜得多。
 

  OpenAI的CTO Greg Brockman在賽前介紹稱這一款機(jī)器人通過數(shù)千次的加以指導(dǎo)的自我對決進(jìn)行訓(xùn)練,并稱該機(jī)器人已經(jīng)擊敗了數(shù)個(gè)Dota 2的職業(yè)玩家。Brockman在博客中稱:“過去幾周內(nèi),我們的機(jī)器人已經(jīng)戰(zhàn)勝過包括 SumaiL(世界頂級1v1選手)及Arteezy(世界頂級overall選手)等多個(gè)頂級玩家”。
 

  “自我對決”的理念是OpenAI研發(fā)的關(guān)鍵。這是一種AI系統(tǒng)學(xué)習(xí)解決極其復(fù)雜任務(wù)的有效方法:與太弱或太強(qiáng)的對手對戰(zhàn),它都無法從中學(xué)到東西,但自身反倒是有價(jià)值的對手。Brockman介紹道:“你可以看到AI從完全的隨機(jī)狀態(tài)一步步發(fā)展到如今的頂級水平”。
 

  AI公司慣常用電子競技游戲來測試他們的技術(shù),如谷歌的DeepMind攻克“星際2”,微軟的AI團(tuán)隊(duì)今日則宣稱他們在吃豆人游戲中獲取高分。
 

  OpenAI并未打算就此停止征戰(zhàn)的腳步。他們希望在明年的參與正式的五對五比賽。與此同時(shí)他們也對外發(fā)布了此機(jī)器人,所以任何人有興趣均可與之對戰(zhàn)。第一個(gè)擊敗此機(jī)器人的玩家則可獲得Valve專設(shè)的賞金。
 

  我們創(chuàng)造了在Dota2 1v1比賽中能夠擊敗世界頂尖職業(yè)選手的AI。其完全是用self-play的方式訓(xùn)練,沒有使用模仿學(xué)習(xí)(imitation learning)或樹搜索。這對構(gòu)建在混亂、包含人類行為在內(nèi)的復(fù)雜場景下能夠完成well-defined goals的AI 系統(tǒng)是重要一步。
 

  Dota 1v1是含有隱藏信息的復(fù)雜游戲。代理需要學(xué)習(xí)計(jì)劃、進(jìn)攻、花招以及誤導(dǎo)對手。選手技巧和手速(每分鐘動作)的關(guān)聯(lián)不那么強(qiáng)烈,實(shí)際上,我們的AI“手速”只是一般人類選手的水平。
 

  想要在Dota中取勝,要求選手培養(yǎng)出對對手的直覺,并采取相應(yīng)的策略。在上述視頻中,你能看到,我們的機(jī)器人已經(jīng)通過完全的self-play學(xué)會了預(yù)測其他選手的動作,并在不熟悉的場景下即興發(fā)揮,以及如何作用于選手的單位。
 

  完全通過Self-Play的方式訓(xùn)練,從零達(dá)到世界頂級水平
 

  OpenAI的目標(biāo)是建設(shè)安全的通用人工智能。對于AI來說,Dota是一個(gè)非常理想的試驗(yàn)場,競爭激烈,游戲復(fù)雜。如果想在這門游戲中獲得成就,就必須推進(jìn)現(xiàn)有技術(shù),實(shí)現(xiàn)技術(shù)突破。我們現(xiàn)在開發(fā)了一個(gè)AI,能夠在Dota的1v1比賽中擊敗頂尖職業(yè)選手。
 

  Dota的規(guī)則非常復(fù)雜,如果是用規(guī)則方法,那么構(gòu)建出的AI一定是個(gè)蹩腳的player。所以,我們完全采用的是自我游戲(self-play)的訓(xùn)練方法。剛開始訓(xùn)練時(shí),AI對于自己所處的世界全無認(rèn)識,而只是和自己的copy比賽,這也就意味著它和它的對手永遠(yuǎn)是旗鼓相當(dāng)?shù)?。它用這個(gè)方法一點(diǎn)點(diǎn)地提升,直到達(dá)到了世界上最優(yōu)秀的職業(yè)運(yùn)動員的水平。The International(TI)是Dota的世界錦標(biāo)賽,吸引了世界各地20000名觀眾來觀看職業(yè)運(yùn)動員爭奪2400萬獎金。在TI上,我們派出AI和其中的多位高手進(jìn)行了比賽,在比賽中,AI展現(xiàn)出了很強(qiáng)的魯棒性和技巧,許多職業(yè)選手希望能持續(xù)和我們的AI比賽,并考慮要把它當(dāng)做是一種訓(xùn)練手段。

  現(xiàn)在的這支研究團(tuán)隊(duì)。
 

  下一步研究將是5v5比賽,我們希望做出5個(gè)相互協(xié)作的AI,擊敗人類戰(zhàn)隊(duì)。另外,我們也期待嘗試把AI和人類放在同一戰(zhàn)隊(duì)中,協(xié)作取得勝利。

  (本文首發(fā)于微信公眾號“新智元”,澎湃新聞獲授權(quán)轉(zhuǎn)發(fā)。原標(biāo)題:【攻陷Dota2】馬斯克的OpenAI自學(xué)習(xí)機(jī)器人完虐人類最強(qiáng)玩家)



  版權(quán)及免責(zé)聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

第六屆中國報(bào)業(yè)黨建工作座談會(1) 第六屆中國報(bào)業(yè)黨建工作座談會(1)

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502003583