国产欧美久久久,国产精品亚洲А∨天堂网

軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:49 瀏覽：383次

導(dǎo)讀：AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文介紹了基于強(qiáng)化學(xué)習(xí)的無人機(jī)控制策略零樣本泛化到真實(shí)世界的關(guān)鍵因素。作者來自于 ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文介紹了基于強(qiáng)化學(xué)習(xí)的無人機(jī)控制策略零樣本泛化到真實(shí)世界的關(guān)鍵因素。作者來自于清華大學(xué)高能效計(jì)算實(shí)驗(yàn)室，通訊作者為清華大學(xué)汪玉教授和于超博士后，研究方向?yàn)閺?qiáng)化學(xué)習(xí)和具身智能。控制無人機(jī)執(zhí)行敏捷、高機(jī)動性的行為是一項(xiàng)頗具挑戰(zhàn)的任務(wù)。傳統(tǒng)的控制方法，比如 PID 控制器和模型預(yù)測控制（MPC），在靈活性和效果上往往有所局限。而近年來，強(qiáng)化學(xué)習(xí)（RL）在機(jī)器人控制領(lǐng)域展現(xiàn)出了巨大的潛力。通過直接將觀測映射為動作，強(qiáng)化學(xué)習(xí)能夠減少對系統(tǒng)動力學(xué)模型的依賴。然而，「Sim2Real」（從仿真到現(xiàn)實(shí)）的鴻溝卻始終是強(qiáng)化學(xué)習(xí)應(yīng)用于無人機(jī)控制的難點(diǎn)之一。如何實(shí)現(xiàn)無需額外微調(diào)的策略遷移，是研究者們追逐的目標(biāo)。盡管有許多基于強(qiáng)化學(xué)習(xí)的控制方法被提出，但至今學(xué)界仍未就訓(xùn)練出魯棒且可零微調(diào)部署的控制策略達(dá)成一致，比如：獎勵函數(shù)應(yīng)該如何設(shè)計(jì)才能讓無人機(jī)飛得平穩(wěn)？域隨機(jī)化在無人機(jī)控制中到底該怎么用？最近，清華大學(xué)的研究團(tuán)隊(duì)為我們帶來了一個(gè)突破性的答案。他們詳細(xì)研究了訓(xùn)練零微調(diào)部署的魯棒 RL 策略所需的關(guān)鍵因素，并提出了一套集成五大技術(shù)、基于 PPO 的強(qiáng)化學(xué)習(xí)框架 SimpleFlight。這一框架在軌跡跟蹤誤差上比現(xiàn)有的 RL 基線方法降低了 50% 以上！如果你正為強(qiáng)化學(xué)習(xí)策略無法實(shí)際控制無人機(jī)而發(fā)愁，那么 SimpleFlight 能夠幫助你訓(xùn)練出無需額外微調(diào)就能在真實(shí)環(huán)境中運(yùn)行的魯棒策略。軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)

論文標(biāo)題：What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study

論文鏈接：https://arxiv.org/abs/2412.11764

開源代碼及模型項(xiàng)目網(wǎng)站：https://sites.google.com/view/simpleflight

實(shí)驗(yàn)效果一覽為了驗(yàn)證 SimpleFlight 的有效性，研究人員在開源的微型四旋翼無人機(jī) Crazyflie 2.1 上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)中，無人機(jī)的位置、速度和姿態(tài)信息由 OptiTrack 運(yùn)動捕捉系統(tǒng)以 100Hz 的頻率提供，并傳輸?shù)诫x線計(jì)算機(jī)上進(jìn)行策略解算。策略生成的 collective thrust and body rates（ CTBR）控制指令以 100Hz 的頻率通過 2.4GHz 無線電發(fā)送到無人機(jī)。研究人員使用了以下兩種類型軌跡作為基準(zhǔn)軌跡：

平滑軌跡：包括八字形和隨機(jī)多項(xiàng)式軌跡。八字形軌跡具有周期性，研究人員測試了三種速度：慢速 (15.0s 完成)、正常速度 (5.5s 完成) 和快速 (3.5s 完成)。隨機(jī)多項(xiàng)式軌跡由多個(gè)隨機(jī)生成的五次多項(xiàng)式段組成，每個(gè)段的持續(xù)時(shí)間在 1.00s 和 4.00s 之間隨機(jī)選擇。

不可行軌跡：包括五角星和隨機(jī)之字形軌跡。五角星軌跡要求無人機(jī)以恒定速度依次訪問五角星的五個(gè)頂點(diǎn)。研究人員測試了兩種速度：慢速 (0.5m/s) 和快速 (1.0m/s)。隨機(jī)之字形軌跡由多個(gè)隨機(jī)選擇的航點(diǎn)組成，航點(diǎn)的 x 和 y 坐標(biāo)在 -1m 和 1m 之間分布，連續(xù)航點(diǎn)之間由直線連接，時(shí)間間隔在 1s 和 1.5s 之間隨機(jī)選擇。

軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)

圖 1：四種軌跡的可視化策略的訓(xùn)練數(shù)據(jù)包括平滑隨機(jī)五次多項(xiàng)式和不可行之字形軌跡。訓(xùn)練過程持續(xù) 15,000 個(gè) epoch，訓(xùn)練完成后，將策略直接部署到 Crazyflie 無人機(jī)上進(jìn)行測試，沒有進(jìn)行任何微調(diào)。值得注意的是，由于策略在不同隨機(jī)種子下表現(xiàn)穩(wěn)定，研究人員在 3 個(gè)隨機(jī)種子中隨機(jī)挑選了一個(gè)策略而沒有選擇表現(xiàn)最好的那個(gè)。軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)

表 1：SimpleFlight 與基線算法的表現(xiàn)對比研究人員將 SimpleFlight 與兩種 SOTA 的 RL 基線方法 (DATT [1] 和 Fly [2]) 進(jìn)行了比較，如表 1 所示。結(jié)果表明，SimpleFlight 在所有基準(zhǔn)軌跡上都取得了最佳性能，軌跡跟蹤誤差降低了 50% 以上，并且是唯一能夠成功完成所有基準(zhǔn)軌跡（包括平滑和不可行軌跡）的方法。圖 2 是一些真機(jī)飛行的視頻。軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)

軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)

圖 2：SimpleFlight 在 Crazyflie 2.1 無人機(jī)上的實(shí)驗(yàn)效果研究人員指出，這些對比的核心目的并非進(jìn)行絕對的橫向評價(jià)，而是為了表明：SimpleFlight 實(shí)現(xiàn)了目前所知的在 Crazyflie 2.1 上的最佳控制性能，盡管沒有依賴任何新的算法改進(jìn)或復(fù)雜的架構(gòu)升級。SimpleFlight 的意義更在于作為一套關(guān)鍵訓(xùn)練因素的集合，它能夠輕松集成到現(xiàn)有的四旋翼無人機(jī)控制方法中，從而幫助研究者和開發(fā)者進(jìn)一步優(yōu)化控制性能。此外，研究人員還進(jìn)行了額外實(shí)驗(yàn)，將 SimpleFlight 部署到一款由團(tuán)隊(duì)自制的 250mm 軸距四旋翼無人機(jī)上。這款無人機(jī)配備了 Nvidia Orin 處理器，進(jìn)一步驗(yàn)證了 SimpleFlight 在不同硬件平臺上的適應(yīng)性與效果。自制無人機(jī)的飛行視頻和結(jié)果已上傳至項(xiàng)目官網(wǎng)，供感興趣的同行參考。SimpleFlight 的五大核心秘訣那么，SimpleFlight 是如何做到的呢？研究人員主要是從優(yōu)化輸入空間設(shè)計(jì)、獎勵設(shè)計(jì)和訓(xùn)練技術(shù)三方面來縮小模擬到現(xiàn)實(shí)的差距，并總結(jié)出了以下 5 大關(guān)鍵因素：

采用與未來一段參考軌跡的相對位姿誤差、速度和旋轉(zhuǎn)矩陣作為策略網(wǎng)絡(luò)的輸入，這使得策略可以進(jìn)行長距離規(guī)劃，并更好地處理具有急轉(zhuǎn)彎的不可行軌跡。研究人員指出，在強(qiáng)化學(xué)習(xí)策略的學(xué)習(xí)中，采用旋轉(zhuǎn)矩陣而不是四元數(shù)作為輸入，更有利于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。

將時(shí)間向量添加到價(jià)值網(wǎng)絡(luò)的輸入。無人機(jī)的控制任務(wù)通常是隨時(shí)間動態(tài)變化的，時(shí)間向量作為價(jià)值網(wǎng)絡(luò)的額外輸入，增強(qiáng)了價(jià)值網(wǎng)絡(luò)對時(shí)間信息的感知，從而更準(zhǔn)確地估計(jì)狀態(tài)值。

采用 CTBR 指令作為策略輸出動作，使用連續(xù)動作之間的差異的正則化作為平滑度獎勵。在無人機(jī)控制中，不平滑的動作輸出可能導(dǎo)致飛行過程中的不穩(wěn)定，甚至出現(xiàn)震蕩和意外偏離軌跡的情況。而現(xiàn)實(shí)中的無人機(jī)由于硬件特性和動態(tài)響應(yīng)的限制，比仿真環(huán)境更容易受到這些不穩(wěn)定動作的影響。研究人員比較了多種平滑度獎勵方案，結(jié)果表明使用連續(xù)動作之間的差異的正則化作為平滑度獎勵，可以獲得最佳的跟蹤性能，同時(shí)鼓勵策略輸出平滑的動作，避免在現(xiàn)實(shí)世界中產(chǎn)生不穩(wěn)定的飛行行為。

使用系統(tǒng)辨識對關(guān)鍵動力學(xué)參數(shù)進(jìn)行校準(zhǔn)，并選擇性地應(yīng)用域隨機(jī)化手段。研究人員通過系統(tǒng)辨識對關(guān)鍵動力學(xué)參數(shù)進(jìn)行了精確校準(zhǔn)，確保仿真模型能夠盡可能接近真實(shí)無人機(jī)的動力學(xué)特性。然而，研究也發(fā)現(xiàn)，域隨機(jī)化的應(yīng)用需要極為謹(jǐn)慎。對于那些能夠通過系統(tǒng)辨識達(dá)到合理精度的參數(shù)，過度引入域隨機(jī)化可能會適得其反。這是因?yàn)椴槐匾碾S機(jī)化會顯著增加強(qiáng)化學(xué)習(xí)的學(xué)習(xí)復(fù)雜度，導(dǎo)致性能下降。換句話說，域隨機(jī)化并非「越多越好」，需要通過合理選擇哪些參數(shù)應(yīng)用隨機(jī)化。

在訓(xùn)練過程中使用較大的 batch size。在 SimpleFlight 的訓(xùn)練過程中，研究人員特別關(guān)注了 batch size 對策略性能的影響。他們通過實(shí)驗(yàn)發(fā)現(xiàn)，增大 batch size 盡管對仿真環(huán)境中的性能提升并不顯著，但在真實(shí)無人機(jī)上的表現(xiàn)卻得到了顯著改善。這表明，大 batch size 在縮小模擬與現(xiàn)實(shí)之間的 Sim2Real Gap 方面，扮演了關(guān)鍵角色。這種現(xiàn)象背后的原因可能與強(qiáng)化學(xué)習(xí)的泛化能力有關(guān)。在大 batch size 的訓(xùn)練中，策略能夠在更廣泛的狀態(tài)分布上進(jìn)行學(xué)習(xí)，從而提升其應(yīng)對真實(shí)環(huán)境中復(fù)雜情況的魯棒性。這種改進(jìn)不僅幫助策略更好地適應(yīng)現(xiàn)實(shí)世界中的不確定性，還減少了從仿真到現(xiàn)實(shí)部署時(shí)可能出現(xiàn)的性能退化問題。

另外值得注意的是，SimpleFlight 框架集成在研究人員自主開發(fā)的高效無人機(jī)仿真平臺 OmniDrones，該平臺基于 NVIDIA 的 Isaac Sim 仿真環(huán)境搭建，允許用戶在 GPU 并行模擬之上輕松設(shè)計(jì)和試驗(yàn)各種應(yīng)用場景，可以實(shí)現(xiàn)每秒超過 10^5 步的仿真速度，極大地加速了強(qiáng)化學(xué)習(xí)策略的訓(xùn)練。軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)

圖 4：OmniDrones 仿真平臺示意圖，來源：https://arxiv.org/abs/2309.12825還等什么？趕快試試 SimpleFlight，把你的強(qiáng)化學(xué)習(xí)策略送上無人機(jī)吧！Reference:[1] Huang, K., Rana, R., Spitzer, A., Shi, G. and Boots, B., 2023. Datt: Deep adaptive trajectory tracking for quadrotor control. arXiv preprint arXiv:2310.09053.[2] Eschmann, J., Albani, D. and Loianno, G., 2024. Learning to fly in seconds. IEEE Robotics and Automation Letters.

軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:49 瀏覽：383次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī) 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:49 瀏覽：383次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

軌跡跟蹤誤差直降50％，清華汪玉團(tuán)隊(duì)強(qiáng)化學(xué)習(xí)策略秘籍搞定無人機(jī)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:49 瀏覽：383次