亚洲免费一级高潮_欧美极品白嫩视频在线_中国AV片在线播放_欧美亚洲日韩欧洲在线看

您現(xiàn)在所在的位置:首頁(yè) >關(guān)于奇酷 > 行業(yè)動(dòng)態(tài) > OpenAI機(jī)械右手玩轉(zhuǎn)魔方!人類也難以做到!

OpenAI機(jī)械右手玩轉(zhuǎn)魔方!人類也難以做到!

來(lái)源:奇酷教育 發(fā)表于:

OpenAI官方為這只AI機(jī)械手玩轉(zhuǎn)魔方!

  OpenAI官方為這只AI機(jī)械手激動(dòng)了:
 
  “機(jī)器人的前所未有之境,就算人類也難以做到。”
 
  說(shuō)的啥新進(jìn)展?單手玩魔方。
 
  相比之下,人類新手能穩(wěn)穩(wěn)拿住魔方都不容易:
 
  而且不僅玩得轉(zhuǎn)魔方,捆綁Play也不在話下。
 
  沒人告訴它該怎么調(diào)配手指,還需要克服人類強(qiáng)行使的各種絆子,但AI機(jī)械手可以隨時(shí)調(diào)整不斷學(xué)習(xí),最后最短時(shí)間內(nèi)完成魔方翻轉(zhuǎn)。
 
  這就是OpenAI用強(qiáng)化學(xué)習(xí)最新訓(xùn)練出的AI系統(tǒng)。
 
  并且,還是單手操作。
 
  視頻一經(jīng)放出,迅速躥紅推特,攬下6000+點(diǎn)贊,網(wǎng)友驚呼:
 
  AI玩魔方都玩得比我好了!
  這事兒不簡(jiǎn)單
 
  且不說(shuō)量子位這樣的手殘黨,單手恢復(fù)魔方,對(duì)于普通人類而言也并不簡(jiǎn)單。
 
  不信的話,隨便拿起身邊一個(gè)直徑6厘米的塊狀物體,單手轉(zhuǎn)起來(lái)。小心拿穩(wěn)了,砸到腳還挺疼的(別問我怎么知道的)。
 
  而對(duì)機(jī)械手來(lái)說(shuō),問題就更復(fù)雜了。
 
  機(jī)械手遠(yuǎn)沒有人手這樣靈活,抓取力度控制也挑戰(zhàn)不小。
 
  就算是“媲美”人手,能使用的場(chǎng)景或泛化遷移能力,也道阻且長(zhǎng)。
 
  比如這位MIT工程師,就吃過(guò)大虧:
 
  △生活大爆炸
 
  而更大的挑戰(zhàn),是現(xiàn)實(shí)世界中復(fù)雜的物理參數(shù)。
 
  在玩魔方這個(gè)任務(wù)當(dāng)中,機(jī)械手跟魔方之間的摩擦力、彈性和其他動(dòng)力學(xué)因素都很難測(cè)量,更別說(shuō)精細(xì)建模了。
 
  并且,在模擬仿真環(huán)境中訓(xùn)練出來(lái)的AI,面對(duì)復(fù)雜多變的真實(shí)物理世界,是否能保持魯棒,也是一個(gè)大問題。
 
  比如說(shuō)帶個(gè)橡膠手套,摩擦力就變了:
 
  兩個(gè)手指被綁住,難度也會(huì)與模擬訓(xùn)練時(shí)大大不同:
 
  甚至可能會(huì)跑出來(lái)一只長(zhǎng)頸鹿,試圖叼走魔方:
  如此種種,使得sim2real(從模擬環(huán)境到現(xiàn)實(shí)環(huán)境)變得非常困難,僅憑過(guò)去的域隨機(jī)化(Domain Randomization)算法(見注)已經(jīng)不足以解決。
 
  注:域隨機(jī)化(Domain Randomization)由OpenAI提出,能夠創(chuàng)建具有隨機(jī)屬性的各種模擬環(huán)境,并訓(xùn)練可在任何環(huán)境中工作的模型。
 
  所以機(jī)械手玩轉(zhuǎn)魔方,真真是一次力與美的結(jié)合、靈與器的共舞。
 
  而OpenAI的核心秘訣,在于進(jìn)一步開發(fā)了一種新的算法,稱為自動(dòng)域隨機(jī)化(ADR)。
 
  當(dāng)然,機(jī)械手的構(gòu)造也來(lái)頭不小。
 
  先看神奇之手的硬件結(jié)構(gòu)
 
  OpenAI的機(jī)械手,裝載一個(gè)巨大的支架中。
 
  在這個(gè)支架里,包含一個(gè)PhaseSpace運(yùn)動(dòng)捕捉系統(tǒng)、一個(gè)RGB相機(jī)。機(jī)械手的每個(gè)指尖上都有一個(gè)LED燈,系統(tǒng)就是通過(guò)這一組燈來(lái)捕捉機(jī)械手的動(dòng)作。
  操縱魔方的機(jī)器人手來(lái)自影子機(jī)器人公司(Shadow Robot Company),基于旗下 Dextrous E系列機(jī)械手打造。
 
  這原本是一家想做雙足機(jī)器人的公司,因?yàn)榘l(fā)現(xiàn)自己的水平遠(yuǎn)不及本田已經(jīng)造出的機(jī)器人,于是棄腳從手,轉(zhuǎn)而去開發(fā)機(jī)械手,并造出了世界上第一臺(tái)擬真機(jī)械手。
  △ 影子機(jī)器人公司開發(fā)的機(jī)器人
 
  具體結(jié)構(gòu)上,Dextrous有20個(gè)可驅(qū)動(dòng)的關(guān)節(jié):中指和無(wú)名指各有3個(gè)驅(qū)動(dòng)關(guān)節(jié)和1個(gè)非驅(qū)動(dòng)關(guān)節(jié),小指和拇指有5個(gè)驅(qū)動(dòng)關(guān)節(jié),以及一個(gè)有2個(gè)驅(qū)動(dòng)關(guān)節(jié)的腕部。
 
  為了“玩轉(zhuǎn)魔方”,OpenAI和影子機(jī)器人公司,還合作提高了機(jī)器手組件的堅(jiān)固性和可靠性。增加了手的握力,并減小了肌腱應(yīng)力,并且調(diào)整了關(guān)節(jié)之間的交聯(lián),最大程度地減小了扭矩的限制。
  與人類“十指連心”類似,他們除了在機(jī)械手上安裝了位置和力傳感器,還在指尖上安裝了超靈敏的觸摸傳感器,以達(dá)到接近人手的效果。
 
  實(shí)驗(yàn)中用到的魔方也不是普通的魔方。
 
  不少米粉或許也會(huì)覺得眼熟,它是小米的計(jì)客超級(jí)魔方(GiiKER cube),內(nèi)部有可感應(yīng)方向的藍(lán)牙與運(yùn)動(dòng)傳感器。
 
  計(jì)客超級(jí)魔方具有90度的面角分辨率,但OpenAI團(tuán)隊(duì)對(duì)其進(jìn)行了修改,將精度提高到了大約5度。
  再看軟件算法功力:從模擬到現(xiàn)實(shí)
 
  雖然我們看到擰魔方是在實(shí)際的機(jī)械手上發(fā)生的,但實(shí)際上這一過(guò)程主要發(fā)生在模擬軟件中,然后將AI從模擬中學(xué)習(xí)到的東西轉(zhuǎn)移到了現(xiàn)實(shí)世界中。
 
  OpenAI在機(jī)械手上用到了兩大法寶:
 
  一個(gè)是曾經(jīng)打敗Dota 2世界冠軍團(tuán)隊(duì)的AI系統(tǒng)OpenAI Five;
  另一個(gè)是自動(dòng)域隨機(jī)化(ADR,Automatic Domain Randomization)。
 
  ADR會(huì)不斷在仿真中生成越來(lái)越困難的環(huán)境,使系統(tǒng)擺脫精確模型對(duì)現(xiàn)實(shí)的束縛,從而使模擬環(huán)境中的神經(jīng)網(wǎng)絡(luò)能夠遷移到真實(shí)世界。
 
  這里提到的環(huán)境中的隨機(jī)化是什么呢?
 
  其中包括模擬器考慮到的物理特性(如幾何形狀、摩擦和重力),以及模擬器未能考慮到的一些物理效應(yīng)。
 
  比如魔方的大小,就是隨機(jī)化參數(shù)之一。
  △ADR在魔方大小上的應(yīng)用
 
  此外,還有照明條件之類的視覺元素、相機(jī)位置和角度、物體的材料和外觀、背景紋理甚至是渲染圖像的后處理效果。
 
  研究人員表示,這項(xiàng)研究的重要意義在于:一旦弄清楚如何在仿真中訓(xùn)練這些模型,就可以有效地獲取無(wú)窮數(shù)據(jù),然后將模型遷移到機(jī)器人上,在現(xiàn)實(shí)世界中利用它們。
 
  既然是用強(qiáng)化學(xué)習(xí),必然會(huì)涉及到獎(jiǎng)勵(lì)機(jī)制,OpenAI團(tuán)隊(duì)在這個(gè)實(shí)驗(yàn)中定義了三個(gè):
 
  系統(tǒng)當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間的差異;
 
  達(dá)成目標(biāo)時(shí)給予獎(jiǎng)勵(lì);
 
  每當(dāng)手中魔方掉落時(shí)就受到懲罰。
 
  為了系統(tǒng)測(cè)試每次翻轉(zhuǎn)魔方成功時(shí)間,OpenAI還測(cè)量了神經(jīng)網(wǎng)絡(luò)在不同擾動(dòng)下的結(jié)果,比如重置網(wǎng)絡(luò)的內(nèi)存、重置力或斷開關(guān)節(jié)等等。
  而且這種“訓(xùn)練”以虛擬仿真為主,能夠在受控的環(huán)境中平均進(jìn)行1萬(wàn)多次試驗(yàn)。
 
  最初,隨著神經(jīng)網(wǎng)絡(luò)成功實(shí)現(xiàn)更多翻轉(zhuǎn),成功的時(shí)間會(huì)不斷縮短,神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了適應(yīng)。
 
  從結(jié)果上來(lái)看,機(jī)械手成功翻轉(zhuǎn)魔方的時(shí)間,會(huì)越來(lái)越短。
 
  即便添加新干擾、環(huán)境有變化,機(jī)械手也會(huì)調(diào)整策略,重新學(xué)習(xí)后迅速達(dá)到最佳基準(zhǔn)。
 
  所以這支神奇之手,現(xiàn)在究竟達(dá)到啥水平?
 
  最最最難情況下——一方面是需要旋轉(zhuǎn)26次魔方才能完成,另一方面加入最大外部擾動(dòng),機(jī)械手成功率20%。
 
  但如果是旋轉(zhuǎn)15次就能完成魔方復(fù)原的“平均情況”,機(jī)械手成功率就能穩(wěn)定在60%。
 
  值得一提的是,這也是人類在該方向上的新嘗試、新紀(jì)錄,打開了新前景。
 
  騰訊AI也挑戰(zhàn)過(guò)魔方
 
  OpenAI挑戰(zhàn)魔方,倒不是突發(fā)奇想。
 
  從去年開始,他們就已經(jīng)在推進(jìn)前序工作,當(dāng)時(shí)開發(fā)過(guò)一個(gè)靈巧的機(jī)械手系統(tǒng),叫做Dactyl。
 
  不過(guò)那時(shí)OpenAI用它“盤”木塊,尺寸比現(xiàn)在的魔方小一些,而且也沒有轉(zhuǎn)動(dòng)部件。
  只要告訴機(jī)械手目標(biāo),不必告訴它具體操作步驟,它就能給你把木塊轉(zhuǎn)到指定的方向上,而且這套系統(tǒng)也是是在模擬器里訓(xùn)練出來(lái)的強(qiáng)化學(xué)習(xí)算法。
 
  除了OpenAI,還有來(lái)自中國(guó)的玩家。
 
  最知名的是騰訊。今年年初,騰訊AI與香港中文大學(xué)合作,進(jìn)行了一項(xiàng)模擬實(shí)驗(yàn)。
  實(shí)驗(yàn)有點(diǎn)類似OpenAI的“軟件”部分:在虛擬環(huán)境中,用一只機(jī)械手解決魔方問題。
 
  在騰訊其后發(fā)表的論文結(jié)果里:1400次試驗(yàn)過(guò)程中平均成功率達(dá)到了90.3%,而對(duì)AI模型再訓(xùn)練3萬(wàn)次,成功率會(huì)提高到95.2%。
 
  而現(xiàn)在OpenAI更進(jìn)一步。
 
  在不犧牲準(zhǔn)確性和魯棒性的情況下,成功地將模擬實(shí)驗(yàn)轉(zhuǎn)移到了現(xiàn)實(shí)世界的機(jī)械手上。
 
  比喻來(lái)說(shuō),就是騰訊AI在這件事上核心練了口訣和心法,而OpenAI現(xiàn)在把拳腳也練完了,軟硬結(jié)合,下一步會(huì)更有想象空間。
 
  OpenAI自己也坦承,這只神奇之手,會(huì)推動(dòng)通用機(jī)器人。
 
  一開始也介紹過(guò),這項(xiàng)研究結(jié)果一發(fā)布,就引起網(wǎng)絡(luò)熱議。
 
  這樣一只靈活又機(jī)智的機(jī)械手,首先讓網(wǎng)友紛紛聯(lián)想到了終結(jié)者。
  有網(wǎng)友說(shuō):
 
  它讓我感到鵝妹子嚶/瑟瑟發(fā)抖的,是它用一種讓人感覺既熟悉又完全陌生的方式,在執(zhí)行人類活動(dòng)。
  不過(guò),比起這些,OpenAI這次的訓(xùn)練投入,更是每一秒都在讓經(jīng)費(fèi)熊熊燃燒。
 
  他們使用了64個(gè)V100和920臺(tái)32核CPU的主機(jī),并且連續(xù)訓(xùn)練了好幾個(gè)月,這樣的訓(xùn)練成本,就夠讓人瑟瑟發(fā)抖的了。
 
  如果有人開心,那也是英偉達(dá)老板黃教主。
 
  所以你又怎么看這項(xiàng)酷酷的新進(jìn)展?