您現(xiàn)在的位置:海峽網(wǎng)>新聞中心>IT科技>科技數(shù)碼
分享

微軟研究人員創(chuàng)建了一個人工智能的系統(tǒng),這個系統(tǒng)能夠在20世紀80年代風(fēng)靡全球的電子游戲吃豆人小姐(Ms. Pac-Man)中獲得最高分,系統(tǒng)使用了分治策略來更大程度地影響AI代理,從而完美地通關(guān)游戲。

圍棋算啥?吃豆游戲上 微軟AI也完爆人類

今年年初,微軟收購了一家人工智能初創(chuàng)公司Maluuba。Maluuba公司團隊運用強化學(xué)習(xí)技術(shù)(機器學(xué)習(xí)的分支),在吃豆人小姐游戲Atari 2600版本中表現(xiàn)完美。使用這種方法,該團隊在這個游戲中得到的分數(shù)高達999,990。

位于加拿大蒙特利爾的麥吉爾大學(xué)(McGill University)、從事計算機科學(xué)研究的Doina Precup副教授表示,AI研究人員的常常使用各種電子游戲來測試他們研發(fā)的系統(tǒng),但研究人員發(fā)現(xiàn)吃豆人小姐游戲是最難攻克的。

但是,Precup表示,相比于研究人員所取得的成就而言,她對于研究人員獲得成果的過程更加感興趣。為了在吃豆人小姐游戲中獲得更高的分數(shù),Maluuba公司團隊將操控吃豆人小姐游戲的大問題分解成若干個小問題,然后將小問題分發(fā)給AI代理解決。

Precup說:“這個分治策略的想法讓Maluuba公司的研究人員使用不同的系統(tǒng)來實現(xiàn)同一個目標,這是一件非常有趣的事情”。

她還說到:“這個想法類似于一些大腦如何工作的理論,它可以更大程度地影響AI代理教學(xué),從而利用有限的信息來完成更為復(fù)雜的任務(wù)。倘若能夠完美利用分治策略,那人工智能將向前跨越一大步,這真的令人感到尤為興奮?!?/p>

Maluuba團隊將這種分治策略稱之為混合式獎賞架構(gòu)(Hybrid Reward Architecture),這個方法使用了150多名人工智能代理,每個代理與其他代理相互獨立地精通吃豆人小姐游戲。比如,一些代理成功找到一個豆子將獲得的獎勵,而另外一些代理由于幽靈的存在必須呆在原處。

然后,研究人員在吃豆人小姐游戲中創(chuàng)建了一個頂級代理,就像一家公司的高級經(jīng)理一樣,頂級代理能夠獲得所有代理的建議,綜合分析后由頂級代理來決定吃豆人小姐該如何移動。

頂級代理會根據(jù)選擇各個方向前進的代理數(shù)量的大小來決定移動方向,但同時也需要考慮到代理想要往某個方向移動的反應(yīng)強度。

例如,如果100個代理想向右邊移動,因為向右邊走是他們的最佳路徑,但有3個人想要向左邊移動,因為右邊有一個致命的幽靈,那這3個代理向左邊移動的反應(yīng)強度明顯強于其他代理,考慮到幽靈的存在,頂級代理應(yīng)該決定向左移動。

Maluuba公司的研究室經(jīng)理Harman Van Seijen,對于他們的最新研究成果發(fā)表了一篇文章,文章中寫到,當每位代理都果斷地做出選擇,頂級代理綜合利用每個代理的信息后做出最佳選擇,那么在吃豆人小姐游戲中就可以獲得最好的結(jié)果。Harman Van Seijen說:“雖然每個代理只關(guān)心一個特定的問題,但是他們之間有很好的相互作用”。

圍棋算啥?吃豆游戲上 微軟AI也完爆人類

Harman Van Seijen

為什么AI主要研究攻克吃豆人小姐游戲

需要運用最先進的AI研究方法來擊敗類似于上世紀80年代Atari吃豆人小姐游戲這樣的簡單游戲,這看上去很匪夷所思。

但是Maluuba公司的項目經(jīng)理RahulMehrotra表示,使用算法來贏得這些簡單的電子游戲其實非常困難,因為在玩游戲的過程中可能會遇到的各種各樣的情況。

Mehrotra表示:“許多從事人工智能的公司構(gòu)建游戲智能算法,因為公司希望人工智能能夠像人類一樣擁有打游戲的技能?!?/p>

SteveGolson是吃豆人小姐游戲街機版的創(chuàng)始人之一,他說到,吃豆人小姐最初定位是街機游戲,希望游戲?qū)θ藗冇谐掷m(xù)吸引力而走出宿舍,所以吃豆人小姐游戲必須掌握人類不可完全征服的游戲程序。

圍棋算啥?吃豆游戲上 微軟AI也完爆人類

Steve Golson

運營咨詢公司Trilobyte Systems的Golson說到,他們故意設(shè)計了吃豆人小姐游戲比普通吃豆人游戲更加不可預(yù)測,所以玩家們很難打通關(guān)。復(fù)雜的游戲使得研究人員試圖使用AI代理來對隨機環(huán)境做出理想的反應(yīng)。

Golson還說到:“使用AI代理來通關(guān)吃豆人小姐游戲是可行的,但由于游戲的隨機性,所需要設(shè)計的AI程序?qū)⒂葹閺?fù)雜?!?/p>

強化學(xué)習(xí)

對于在不斷發(fā)展的強化學(xué)習(xí)領(lǐng)域工作的研究人員來說,這種不可預(yù)測性極有價值。在AI研究中,強化學(xué)習(xí)是監(jiān)督學(xué)習(xí)的副本,是一種更常用的人工智能方法,它能夠讓系統(tǒng)在做任務(wù)時變得更好。

通過強化學(xué)習(xí),代理對其每個動作都采取積極或消極的反應(yīng),通過不斷地試驗和犯錯誤來最大限度地獲得積極反應(yīng)或獎賞。

具有監(jiān)督學(xué)習(xí)的AI系統(tǒng),通過給出良好和不恰當?shù)氖纠?,來學(xué)習(xí)如何在對話中做出適當?shù)幕貞?yīng)。而強化學(xué)習(xí)系統(tǒng)則是通過系統(tǒng)在對話中做出正確的回應(yīng),而后獲得更高級別反饋的方式來學(xué)習(xí)對話。

AI專家認為,強化學(xué)習(xí)可以用于創(chuàng)建AI代理,這樣的代理可以做出更多的決定,能夠完成更復(fù)雜工作,為人們提供更高水平的服務(wù)。

Mehrotra表示,他們開發(fā)的能夠通關(guān)吃豆人小姐游戲的系統(tǒng),就可以為人們提供更好的服務(wù)。它可以在特定時間或任意時間幫助公司的銷售部門預(yù)測商品的潛在客戶。該系統(tǒng)可以使用多個代理,每個代理代表一個客戶,可以預(yù)測很多重要因素,例如:哪些客戶會續(xù)簽合同,哪些合同對于公司是有價值的。

有了AI系統(tǒng)預(yù)測的幫助,銷售主管可以把更多的時間放在潛在客戶身上,如此會提高出售機會,因為銷售人員的目光已經(jīng)瞄準了最容易下訂單的客戶。

Van Seijen表示,他希望這種分治策略可以被用在AI的其他研究領(lǐng)域,如自然語言處理領(lǐng)域。他還說到:“分治策略使人們在解決真正復(fù)雜的問題的方式上取得進步。”

責任編輯:海凡

最新科技數(shù)碼 頻道推薦
進入新聞頻道新聞推薦
傳聞:育碧《雷曼》重制版正在開發(fā)中
進入圖片頻道最新圖文
進入視頻頻道最新視頻
一周熱點新聞
下載海湃客戶端
關(guān)注海峽網(wǎng)微信
?

職業(yè)道德監(jiān)督、違法和不良信息舉報電話:0591-87095414 舉報郵箱:service@hxnews.com

本站游戲頻道作品版權(quán)歸作者所有,如果侵犯了您的版權(quán),請聯(lián)系我們,本站將在3個工作日內(nèi)刪除。

溫馨提示:抵制不良游戲,拒絕盜版游戲,注意自我保護,謹防受騙上當,適度游戲益腦,沉迷游戲傷身,合理安排時間,享受健康生活。

CopyRight ?2016 海峽網(wǎng)(福建日報主管主辦) 版權(quán)所有 閩ICP備15008128號-2 閩互聯(lián)網(wǎng)新聞信息服務(wù)備案編號:20070802號

福建日報報業(yè)集團擁有海峽都市報(海峽網(wǎng))采編人員所創(chuàng)作作品之版權(quán),未經(jīng)報業(yè)集團書面授權(quán),不得轉(zhuǎn)載、摘編或以其他方式使用和傳播。

版權(quán)說明| 海峽網(wǎng)全媒體廣告價| 聯(lián)系我們| 法律顧問| 舉報投訴| 海峽網(wǎng)跟帖評論自律管理承諾書

友情鏈接:新聞頻道?| 福建頻道?| 新聞聚合