欧美色图 亚洲|野外口爆视频国产|久久精品视频观看|97精品人人抽插

研究人員開發(fā)出新算法 像訓(xùn)練狗一樣訓(xùn)練機器人

2018-02-08 20:22:33 來源:AI行者 熱度:
美國陸軍研究實驗室(ARL)和德克薩斯大學(xué)(UT)奧斯汀分校的研究人員已經(jīng)開發(fā)了新的機器人或計算機程序技術(shù),以學(xué)習(xí)如何通過與人類指導(dǎo)員進行交互來執(zhí)行任務(wù)。這項研究的結(jié)果于2月2日至7日在路易斯安那州新奧爾良的人工智能促進協(xié)會論壇上公布。
 
ARL和UT研究人員考慮了一個特定的情況,即人以評論的形式提供實時反饋。奧斯汀得克薩斯大學(xué)的合作者Peter Stone博士和他的前博士生Brad Knox首先研發(fā)的TAMER,或者通過評估強化手動培訓(xùn)機器人人,由ARL/UT團隊開發(fā)了一種新的算法叫Deep TAMER。
這是TAMER的擴展,采用深度學(xué)習(xí),它的靈感來源于人類的大腦,讓機器人可以獲得通過短時間觀看視頻來獲得執(zhí)行任務(wù)的能力。
 
據(jù)軍方研究員Garrett Warnell博士表示,研究小組認為,一個人通過觀察和提供評論(例如,“好工作”或“糟糕的工作”)來教導(dǎo)機器人如何做事,就像人類訓(xùn)練狗去變戲法一樣。
 
Warnell說,研究人員延伸了這個領(lǐng)域的早期工作,使這種類型的機器人或計算機程序的培訓(xùn),通過圖像看世界,這是設(shè)計可以在現(xiàn)實世界中運行的學(xué)習(xí)代理的重要第一步。
 
目前人工智能中的許多技術(shù)要求機器人在較長的時間內(nèi)與環(huán)境進行交互,以學(xué)習(xí)如何最佳地執(zhí)行任務(wù)。在這個過程中,機器人人可能會執(zhí)行一些不僅可能是錯誤的行為,例如機器人在墻上跑步,而且可能會發(fā)生像機器人跳下懸崖等災(zāi)難性的事故。Warnell表示,來自人類的幫助將加快機器人的成長速度,并幫助他們避免潛在的陷阱。
 
作為第一步,研究人員展示了Deep TAMER的成功,通過15分鐘的人為反饋來訓(xùn)練代理人在Atari保齡球游戲中比人類更好的表現(xiàn),這個任務(wù)對于即使是最先進的人工智能方法而言也是非常困難的。Deep-TAMER訓(xùn)練的機器人展示出了過人的表現(xiàn),甚至優(yōu)于他們的業(yè)余訓(xùn)練師以及專家級人類Atari玩家。
研究人員開發(fā)出新算法 像訓(xùn)練狗一樣訓(xùn)練機器人
左:ARL的研究員Garrett Warnell博士,右:德克薩斯大學(xué)(UT)奧斯汀分校教授Peter Stone博士
 
在未來一到兩年中,研究人員有興趣探索他們的最新技術(shù)在更廣泛的環(huán)境中的適用性:例如除了Atari Bowling以外的視頻游戲和更多的仿真環(huán)境,為真實世界中的機器人找到更好類型的代理和環(huán)境。
 
Warnell表示,“未來的軍隊將由士兵和自主隊友并肩作戰(zhàn),盡管人類和自主機器人都可以提前接受培訓(xùn),但他們有可能在完全陌生的新環(huán)境中執(zhí)行搜索、營救或監(jiān)視等任務(wù),在這種情況下,人類可以很好地利用訓(xùn)練隨機應(yīng)變,而現(xiàn)在的人工智能機器人還做不到。”
 
Deep TAMER是研究人員設(shè)想的一系列研究的第一步,將使陸軍中更加成功的人類-自主機器人團隊成為可能。最終,他們需要自主的機器人人,能夠以各種各樣的形式,如演示、自然語言指導(dǎo)和評論,快速而安全地從他們的人類隊友學(xué)習(xí)。美國陸軍研究實驗室(ARL)和德克薩斯大學(xué)(UT)奧斯汀分校的研究人員已經(jīng)開發(fā)了新的機器人或計算機程序技術(shù),以學(xué)習(xí)如何通過與人類指導(dǎo)員進行交互來執(zhí)行任務(wù)。這項研究的結(jié)果于2月2日至7日在路易斯安那州新奧爾良的人工智能促進協(xié)會論壇上公布。
 
ARL和UT研究人員考慮了一個特定的情況,即人以評論的形式提供實時反饋。奧斯汀得克薩斯大學(xué)的合作者Peter Stone博士和他的前博士生Brad Knox首先研發(fā)的TAMER,或者通過評估強化手動培訓(xùn)機器人人,由ARL/UT團隊開發(fā)了一種新的算法叫Deep TAMER。
這是TAMER的擴展,采用深度學(xué)習(xí),它的靈感來源于人類的大腦,讓機器人可以獲得通過短時間觀看視頻來獲得執(zhí)行任務(wù)的能力。
 
據(jù)軍方研究員Garrett Warnell博士表示,研究小組認為,一個人通過觀察和提供評論(例如,“好工作”或“糟糕的工作”)來教導(dǎo)機器人如何做事,就像人類訓(xùn)練狗去變戲法一樣。
 
Warnell說,研究人員延伸了這個領(lǐng)域的早期工作,使這種類型的機器人或計算機程序的培訓(xùn),通過圖像看世界,這是設(shè)計可以在現(xiàn)實世界中運行的學(xué)習(xí)代理的重要第一步。
 
目前人工智能中的許多技術(shù)要求機器人在較長的時間內(nèi)與環(huán)境進行交互,以學(xué)習(xí)如何最佳地執(zhí)行任務(wù)。在這個過程中,機器人人可能會執(zhí)行一些不僅可能是錯誤的行為,例如機器人在墻上跑步,而且可能會發(fā)生像機器人跳下懸崖等災(zāi)難性的事故。Warnell表示,來自人類的幫助將加快機器人的成長速度,并幫助他們避免潛在的陷阱。
 
作為第一步,研究人員展示了Deep TAMER的成功,通過15分鐘的人為反饋來訓(xùn)練代理人在Atari保齡球游戲中比人類更好的表現(xiàn),這個任務(wù)對于即使是最先進的人工智能方法而言也是非常困難的。Deep-TAMER訓(xùn)練的機器人展示出了過人的表現(xiàn),甚至優(yōu)于他們的業(yè)余訓(xùn)練師以及專家級人類Atari玩家。
 
左:ARL的研究員Garrett Warnell博士,右:德克薩斯大學(xué)(UT)奧斯汀分校教授Peter Stone博士
 
在未來一到兩年中,研究人員有興趣探索他們的最新技術(shù)在更廣泛的環(huán)境中的適用性:例如除了Atari Bowling以外的視頻游戲和更多的仿真環(huán)境,為真實世界中的機器人找到更好類型的代理和環(huán)境。
 
Warnell表示,“未來的軍隊將由士兵和自主隊友并肩作戰(zhàn),盡管人類和自主機器人都可以提前接受培訓(xùn),但他們有可能在完全陌生的新環(huán)境中執(zhí)行搜索、營救或監(jiān)視等任務(wù),在這種情況下,人類可以很好地利用訓(xùn)練隨機應(yīng)變,而現(xiàn)在的人工智能機器人還做不到。”
 
Deep TAMER是研究人員設(shè)想的一系列研究的第一步,將使陸軍中更加成功的人類-自主機器人團隊成為可能。最終,他們需要自主的機器人人,能夠以各種各樣的形式,如演示、自然語言指導(dǎo)和評論,快速而安全地從他們的人類隊友學(xué)習(xí)。

責(zé)任編輯:吳禮得

相關(guān)推薦

PC產(chǎn)業(yè)鏈提前爆用工荒 機器人代替人工已成必然趨勢

中國內(nèi)地勞動力成本提升問題,越來越成為PC制造環(huán)節(jié)上的制約因素。統(tǒng)計數(shù)據(jù)顯示,過去5年,內(nèi)地勞動力成本提升了2倍。春節(jié)臨近,PC市場將迎來一波消費高峰。與此同時,由于今年春節(jié)比往年來得早,很多工人都將提前回家過年,導(dǎo)致生產(chǎn)線人手不足。為了滿足1~2月份PC市場的消費旺季,多家PC代工巨頭紛紛要求零部件供應(yīng)商大幅增加出貨量,以確保1~2月份的PC供應(yīng)。中國內(nèi)地勞動力成本提升問題,越來越成為PC制造環(huán)節(jié)上的制約因素。統(tǒng)計數(shù)據(jù)顯示,過去5年,中國內(nèi)地勞動力成本提升了2倍,用自動化生產(chǎn)線取代人工從而降低人工成本,正在成為PC代工廠的趨勢。近期以來,不少PC制造訂單從中國回流日本,用自動化生產(chǎn)線來應(yīng)對中