精准一头一尾中特平:智能體行為訓練方法、裝置、系統、存儲介質及設備制造方法及圖紙

技術編號:21185426 閱讀:20 留言:0更新日期:2019-05-22 16:03
本申請涉及一種智能體行為訓練方法,所述智能體行為訓練方法包括:獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個決策行為數據和對應的決策觀測數據對的集合;獲取執行輔助的行為過程中的輔助數據;其中,所述輔助數據包括多個輔助行為數據和對應的輔助觀測數據對的集合;基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型。采用本發明專利技術的技術方案,提高了智能體行為訓練的成功行。采用本發明專利技術的技術方案,節省了模型訓練的時間,提高了智能體模型在各種情況下的適應性和準確性。

Agent Behavior Training Method, Device, System, Storage Media and Equipment

572222一尾中特平 www.fbmtd.icu This application relates to an agent behavior training method, which includes: acquiring decision data in the process of execution expert's behavior; the decision data includes a set of multiple decision behavior data and corresponding decision observation data pairs; acquiring auxiliary data in the process of execution assistant behavior; and the auxiliary data includes multiple assistants. The aggregation of behavior data and corresponding auxiliary observation data pairs, and the autonomous learning of the model based on the decision data and the auxiliary data, can obtain the agent behavior model. The technical scheme of the invention improves the successful implementation of the agent behavior training. By adopting the technical scheme of the invention, the training time of the model is saved, and the adaptability and accuracy of the agent model in various situations are improved.

【技術實現步驟摘要】
智能體行為訓練方法、裝置、系統、存儲介質及設備
本申請涉及設備控制
,特別是涉及一種智能體行為訓練方法、裝置、系統、存儲介質及設備。
技術介紹
隨著科技水平的提高,整個社會都向著智能化、自動化的方向發展。越來越多的行為依賴于智能體的實現。比如:通過智能體執行抓取的動作、裝配的動作、帶動目標物運動等等的動作行為。人工智能為智能體未來發展帶來了無限的可能,通過監督、半監督、強化或者模仿學習等等各種方法對神經網絡模型進行訓練,從而使得基于該網絡模型控制的智能體能夠自主的學習執行各種動作。模仿學習是指從示教者提供的范例中學習,獲取示范過程中的專家的多組決策數據,每組決策數據包括狀態數據和對應的動作數據,將所有的狀態和動作數據對匯總構成新的集合。之后就可以把狀態作為特征(feature),動作作為標記(label)進行分類(對于離散動作)或回歸(對于連續動作)的學習從而得到最優策略模型。但是,需要看到的是,通過模仿學習的方法在對神經網絡進行訓練的過程中,在很多情況下不能獲得良好的模型訓練結果。
技術實現思路
基于此,本專利技術提供一種智能體行為訓練方法、裝置、系統、存儲介質及設備。本專利技術第一方面提供一種智能體行為訓練方法,所述智能體行為訓練方法包括:獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個決策行為數據和對應的決策觀測數據;獲取執行輔助的行為過程中的輔助數據;其中,所述輔助數據包括多個輔助行為數據和對應的輔助觀測數據;基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型。進一步,所述基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型包括:基于所述決策數據和所述輔助數據,訓練初始模型,得到預處理模型;進行預處理模型自主學習,得到智能體行為模型;進一步,所述基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型包括:基于所述決策數據和所述輔助數據,進行初始模型自主學習,得到智能體行為模型。進一步,所述獲取執行專家的行為過程中的決策數據包括:獲取所述執行專家的行為過程中的多個當前時刻的決策行為數據;獲取所述執行專家的行為過程中第一傳感器發送的所述多個當前時刻的所述決策觀測數據;其中,所述當前時刻的決策行為數據與所述當前時刻的決策觀測數據相對應;或獲取所述執行專家的行為過程中第二傳感器發送的多個當前時刻所述決策行為數據的相關信息;解析所述相關信息,生成多個上一時刻的所述決策行為數據;獲取所述執行專家的行為過程中第一傳感器發送的所述多個上一時刻的所述決策觀測數據;其中,所述上一時刻的所述決策行為數據與所述上一時刻的所述決策觀測數據相對應。進一步,所述獲取執行輔助的行為過程中的輔助數據包括:獲取所述執行輔助的行為過程中的多個當前時刻的輔助行為數據;獲取所述執行輔助的行為過程中第一傳感器發送的所述多個當前時刻的所述輔助觀測數據;其中,所述當前時刻的輔助行為數據與所述當前時刻的輔助觀測數據相對應;或獲取所述執行輔助的行為過程中第二傳感器發送的多個當前時刻所述輔助行為數據的相關信息;根據所述相關信息,得到多個上一時刻的所述行為數據;獲取所述執行輔助的行為過程中第一傳感器發送的所述多個上一時刻的所述輔助觀測數據;其中,所述上一時刻的所述輔助行為數據與所述上一時刻的所述輔助觀測數據相對應。本專利技術第二方面提供一種智能體行為訓練控制裝置,所述智能體行為訓練控制裝置包括:決策數據獲取???,用于獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個決策行為數據和對應的決策觀測數據;輔助數據獲取???,獲取執行輔助的行為過程中的輔助數據;其中,所述輔助數據包括多個輔助行為數據和對應的輔助觀測數據;行為模型生成???,用于基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型。本專利技術第三方面提供一種智能體行為訓練系統,所述智能體行為訓練系統包括:行為數據生成裝置,用于生成決策行為數據和所述輔助行為數據,并將所述決策行為數據和所述輔助行為數據發送給所述控制裝置;第一傳感器,用于獲取決策觀測數據和輔助觀測數據,并將所述決策觀測數據和所述輔助觀測數據發送給所述控制裝置;控制裝置,用于獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個決策行為數據和對應的決策觀測數據;獲取執行輔助的行為過程中的輔助數據;其中,所述輔助數據包括多個輔助行為數據和對應的輔助觀測數據;基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型。進一步,所述智能體行為訓練系統還包括:智能體,用于在示教下執行所述專家的行為和所述輔助的行為。進一步,所述第一傳感器包括:圖像傳感器,用于獲取某一時刻的所述智能體的圖像數據;力傳感器,用于獲取某一時刻的所述智能體的力反饋數據;編碼器,用于獲取某一時刻所述智能體的驅動單元的運動反饋數據;測距器,用于獲取某一時刻所述智能體的距離相關的測距數據;速度或加速度數據測量器,用于獲取某一時刻所述智能體的速度或加速度測量數據;電流或電壓測量器,用于獲取某一時刻所述智能體的電流或電壓測量數據;計時器,用于獲取某一時刻的具體時間數據;和/或溫度傳感器,用于獲取某一時刻所述智能體的溫度數據。進一步,所述行為數據生成裝置包括:控制單元;所述控制單元,用于生成所述決策行為數據和所述輔助行為數據。進一步,所述行為數據生成裝置包括:第二傳感器和控制單元;所述第二傳感器,用于獲取第二傳感器發送的多個當前時刻所述決策行為數據和輔助行為數據的相關信息;所述控制單元,用于根據所述相關信息,得到多個上一時刻的所述行為數據。進一步,所述第二傳感器包括圖像傳感器和編碼器。本專利技術第三方面提供一種智能體系統,所述機器人系統包括上面任一項所述的智能體行為訓練系統。本專利技術第四方面提供一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現上面任一項所述的智能體行為訓練方法。本專利技術第四方面提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上面任一項所述的智能體行為訓練方法。由于在模型訓練過程中,將輔助行為的輔助數據與專家行為的決策數據共同輸入到初始模型中,對模型進行訓練,節省了模型訓練的時間,提高了智能體模型在各種情況下的適應性和準確性。附圖說明圖1為一個實施例中智能體行為訓練方法的第一流程示意圖;圖2為一個實施例中智能體行為訓練方法的第二流程示意圖;圖3為一個實施例中智能體行為訓練方法的第三流程示意圖;圖4為一個實施例中智能體行為訓練方法的第四流程示意圖;圖5為一個實施例中智能體行為訓練方法的第五流程示意圖;圖6為一個實施例中智能體行為訓練方法的第六流程示意圖;圖7為智能體系統的實施例的第一結構示意圖;圖8為智能體系統的實施例的第二結構示意圖;圖9為智能體訓練裝置的第一結構框圖;圖10為智能體訓練裝置的第二結構框圖;圖11為中智能體訓練系統的第一結構框圖;圖12為中智能體訓練系統的第二結構框圖;圖13為中機器人的行為數據生成裝置的第一結構框圖;圖14為中機器人的行為數據生成裝置的第二結構框圖。具體實施方式為了使本申請的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本申請進行進一步詳細本文檔來自技高網...

【技術?;さ恪?/strong>
1.一種智能體行為訓練方法,其特征在于,所述智能體行為訓練方法包括:獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個決策行為數據和對應的決策觀測數據;獲取執行輔助的行為過程中的輔助數據;其中,所述輔助數據包括多個輔助行為數據和對應的輔助觀測數據;基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型。

【技術特征摘要】
1.一種智能體行為訓練方法,其特征在于,所述智能體行為訓練方法包括:獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個決策行為數據和對應的決策觀測數據;獲取執行輔助的行為過程中的輔助數據;其中,所述輔助數據包括多個輔助行為數據和對應的輔助觀測數據;基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型。2.根據權利要求1所述的智能體行為訓練方法,其特征在于,所述基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型包括:基于所述決策數據和所述輔助數據,訓練初始模型,得到預處理模型;進行預處理模型自主學習,得到智能體行為模型。3.根據權利要求1所述的智能體行為訓練方法,其特征在于,所述基于所述決策數據和所述輔助數據,進行模型自主學習,得到智能體行為模型包括:基于所述決策數據和所述輔助數據,進行初始模型自主學習,得到智能體行為模型。4.根據權利要求1、2或3所述的智能體行為訓練方法,其特征在于,所述獲取執行專家的行為過程中的決策數據包括:獲取所述執行專家的行為過程中的多個當前時刻的決策行為數據;獲取所述執行專家的行為過程中第一傳感器發送的所述多個當前時刻的所述決策觀測數據;其中,所述當前時刻的決策行為數據與所述當前時刻的決策觀測數據相對應;或獲取所述執行專家的行為過程中第二傳感器發送的多個當前時刻所述決策行為數據的相關信息;解析所述相關信息,生成多個上一時刻的所述決策行為數據;獲取所述執行專家的行為過程中第一傳感器發送的所述多個上一時刻的所述決策觀測數據;其中,所述上一時刻的所述決策行為數據與所述上一時刻的所述決策觀測數據相對應。5.根據權利要求1、2或3所述的智能體行為訓練方法,其特征在于,所述獲取執行輔助的行為過程中的輔助數據包括:獲取所述執行輔助的行為過程中的多個當前時刻的輔助行為數據;獲取所述執行輔助的行為過程中第一傳感器發送的所述多個當前時刻的所述輔助觀測數據;其中,所述當前時刻的輔助行為數據與所述當前時刻的輔助觀測數據相對應;或獲取所述執行輔助的行為過程中第二傳感器發送的多個當前時刻所述輔助行為數據的相關信息;根據所述相關信息,得到多個上一時刻的所述行為數據;獲取所述執行輔助的行為過程中第一傳感器發送的所述多個上一時刻的所述輔助觀測數據;其中,所述上一時刻的所述輔助行為數據與所述上一時刻的所述輔助觀測數據相對應。6.一種智能體行為訓練控制裝置,其特征在于,所述智能體行為訓練控制裝置包括:決策數據獲取???,用于獲取執行專家的行為過程中的決策數據;其中,所述決策數據包括多個決策行為數據和對應的決策觀測數據;輔助數據獲取???,獲取執行輔助的行為過程中的輔助數據;其中,所述輔助數據包括多個輔助行為數據和對...

【專利技術屬性】
技術研發人員:何德裕,
申請(專利權)人:魯班嫡系機器人深圳有限公司,
類型:發明
國別省市:廣東,44

網友詢問留言 已有0條評論
  • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

1
重庆时时开奖直播视频 北京pk10在线计划 3分赛车倍投稳赚方案 3d和值投注技巧 篮球赛 黑龙江时时停止了 赌场里的大小怎么玩 百人棋牌 欢乐生肖彩票平台 今晚双色球预测一注 竞彩360足彩混合投注 时时彩刷水稳赚的玩法玩 2019女篮总决赛 欢乐二八杠外挂 快速时时计划网 全网最早无错36码网址多少