咨詢(xún)電話
021-80392549
Notice: Undefined index: group_show in /www/wwwroot/gbsrobot.com/html/module/article/show.inc.php on line 4

Minecraft可能聽(tīng)起來(lái)不像是一個(gè)支持高級(jí)人工智能研究的重要工具。畢竟,教一臺(tái)機(jī)器玩一個(gè)十多年前發(fā)布的沙盒游戲哪有如此重要?但基于OpenAI最近的努力,一個(gè)訓(xùn)練有素的Minecraft機(jī)器人與人工智能的進(jìn)步比大多數(shù)人可能意識(shí)到的更有關(guān)系。

OpenAI一直專(zhuān)注于造福人類(lèi)的人工智能(AI)和機(jī)器學(xué)習(xí)的進(jìn)步。最近,該公司利用超過(guò)7萬(wàn)小時(shí)的游戲視頻,成功地訓(xùn)練了一個(gè)機(jī)器人玩Minecraft。這一成就遠(yuǎn)遠(yuǎn)超出了機(jī)器人玩游戲的范疇,它標(biāo)志著使用觀察和模仿的先進(jìn)機(jī)器學(xué)習(xí)向前邁出了一大步。
OpenAI的機(jī)器人是模仿學(xué)習(xí)(也稱(chēng)為"監(jiān)督學(xué)習(xí)")的一個(gè)優(yōu)秀范例。與強(qiáng)化學(xué)習(xí)不同的是,學(xué)習(xí)代理在通過(guò)試驗(yàn)和錯(cuò)誤達(dá)到目標(biāo)后會(huì)得到獎(jiǎng)勵(lì),而模仿學(xué)習(xí)則是通過(guò)觀察人類(lèi)完成特定任務(wù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在這種情況下,OpenAI利用現(xiàn)有的游戲視頻和教程,教他們的機(jī)器人執(zhí)行復(fù)雜的游戲序列,這需要典型的玩家花大約24000個(gè)單獨(dú)的動(dòng)作來(lái)實(shí)現(xiàn)。
模仿學(xué)習(xí)需要對(duì)視頻輸入進(jìn)行標(biāo)記,以提供動(dòng)作和觀察結(jié)果的背景。不幸的是,這種方法可能是高度勞動(dòng)密集型的,導(dǎo)致可用的數(shù)據(jù)集有限。這種可用數(shù)據(jù)集的短缺最終限制了代理人通過(guò)觀察學(xué)習(xí)的能力。
OpenAI的研究團(tuán)隊(duì)沒(méi)有通過(guò)廣泛的手工數(shù)據(jù)標(biāo)記工作,而是使用了一種特定的方法,即視頻預(yù)訓(xùn)練(VPT),以大大擴(kuò)展可用的標(biāo)記視頻的數(shù)量。研究人員最初捕獲了2000個(gè)小時(shí)的有注釋的Minecraft游戲,并使用它來(lái)訓(xùn)練一個(gè)代理將特定的行動(dòng)與屏幕上的特定結(jié)果聯(lián)系起來(lái)。然后,所產(chǎn)生的模型被用來(lái)為網(wǎng)上現(xiàn)成的70000小時(shí)之前沒(méi)有標(biāo)簽的Minecraft內(nèi)容自動(dòng)生成標(biāo)簽,為Minecraft機(jī)器人提供了一個(gè)更大的數(shù)據(jù)集來(lái)審查和模仿。
整個(gè)練習(xí)證明了可用視頻庫(kù)的潛在價(jià)值,如YouTube,作為人工智能訓(xùn)練資源。機(jī)器學(xué)習(xí)科學(xué)家可以利用現(xiàn)有的和適當(dāng)標(biāo)記的視頻來(lái)訓(xùn)練人工智能進(jìn)行特定的任務(wù),從簡(jiǎn)單的網(wǎng)絡(luò)導(dǎo)航到幫助用戶(hù)滿足現(xiàn)實(shí)生活中的物理需求。