@phdthesis{oai:muroran-it.repo.nii.ac.jp:00008943, author = {杉本, 大志 and SUGIMOTO, Masashi}, month = {2016-06-08}, note = {application/pdf, 動的な環境下で適切に動作するロボットの研究は, 古くから数多く行われている。例として家庭, 工場等とあらゆる作業空間内で人間の代わりに活躍する, 様々なロボットの開発が行われている。しかしながら, 動的な環境下に於いてロボットを人間の様に行動させる事は容易ではない。我々人間は或る環境下で作業をする際, 周囲の環境の変化や, 自身の次の状態を予測し, それに合わせた行動を無意識の内に選択している。同様にロボットの場合は, 予測を行わない場合, 行動選択に対する制御処理の負荷が大きくなる事が考えられる。ただ近年では, 人間が制御則を作り込んでロボットを動かす事に関し, 高度な動作を行うロボットも出現している。しかし, 将来人間と共存し, 人間の補助代行となり働くようなロボットを実現する為には, 事前に固定された制御則を用いるだけではなく, 作業環境として動的に変化する環境の中で, ロボット自身が学習によって制御則を獲得する事もまた要求される。この問題に於いて従来の研究の多くでは, 機械学習, 中でも試行錯誤的に環境を学習する事で最適行動を獲得する強化学習を用いるか, 或いは制御手法として一般性に優れ, 最適入力を各時刻に計算するモデル予測制御の考え方が用いられている。ただしこれらの手法に於いては, 計算コストによるハードウェア負荷と計算遅延, 或いは動作する環境の変化に柔軟に対応出来るかという点に於いて, 議論の余地が残っている。このように起こり得る状況に対してあらゆる制御則を作り込む場合, 特に有限の計算資源や, ハードウェアが持つ物理的制約が存在する事から, ロボットが動作する際は現状態に対し, 制御遅れによってロボットの行動は1ステップ程度遅れる事になる。この為, 人間の補助としてロボットが, 動的な環境下にて作業を実現する場合に於いても, 同様に『状態予測からの行動決定』が重要である。そこで本論文では, ロボットが保持する状態, そしてロボットが採る行動を『対』として扱い予測する事で, 現在採る行動によって未来の状態がどのように変化するかを見る仕組みを提案する。この考え方をロボット制御に適用することによって, 将来採るべき最適な行動を現時刻で決定する事が可能となる。また, この状態行動対予測を従来使われてきた最適制御と組み合わせる。状態と行動の組合せで表現出来るロボット制御に対し提案手法を適用する事で, 未来の行動を学習器によって予測する。そしてこの予測した未来の行動を現在採る行動に反映させる事で, 行動の補正を行う仕組みを提案する。, Robots are required to work effectively and safely in a dynamic environment to achieve their tasks. However, it is not easy to make a robot behave like a human in dynamic environments. In order to work effectively, a robot should be able to adapt to different environments by deciding its correct course of action according to the situation, using determinants other than pre-registered commands. For this purpose, the ability to predict the future state of a robot would be effective. On the other hand, the future state of a robot varies infinitely if it depends on its current action. Therefore, it is difficult to predict only the future state. Thus, it is important to simultaneously predict the state and the action that the robot will adopt. The purpose of this study was to investigate the prediction of the advanced future state and action of a robot. To realize this purpose, firstly, the results of the study are reported and methods that allow a robot to decide its appropriate behavior quickly, according to the predicted future state are discussed. To achieve this, an Online SVR will be used and it will be improved that can predict state and action sequentially. Accordingly, the state and the action of the distant future by repeatedly using the predictor of the proposed method can be predicted. This Online SVR predicts the robot's future state, i.e., the robot's next state, and appropriate future course of action. Furthermore, this predictor facilitates the prediction of the robot's distant future state, using the states and actions that the robot adopts repeatedly. Using this method, the system that allows a robot to decide its course of action, can be realized. Secondly, we will attempt to apply the action to be taken in the future, to the current action, by extending the former approach. We will apply the prediction of the State-Action Pair that has former proposed method. This method predicts the robot state and action for the distant future, using the state that the robot adopt repeatedly. By using this method, we will obtain the actions that the robot to be taken in the future. Moreover, we consider the point that the state and the action of the robot will be changed continuously. Hence, we propose the method that predicts the state and the action every time when the robot decide an action. To determine the future action and apply the current action, in this paper, we designed the weight coefficients for the future actions that obtained the prediction. By using this method, we will obtain the compensate current action.}, school = {室蘭工業大学, Muroran Institute of Technology}, title = {ロボットにおける状態行動対予測に関する研究}, year = {}, yomi = {スギモト, マサシ} }