ログイン
Language:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 学位論文
  2. 博士論文

報酬に基づいた環境情報の取捨選択による行動学習の効率化に関する研究

https://doi.org/10.15118/00005101
https://doi.org/10.15118/00005101
58846fbd-4b7f-4ad3-a61d-c82f6b0f3ab1
名前 / ファイル ライセンス アクション
A346.pdf A346 (14.3 MB)
A346_summary.pdf A346_summary (405.8 kB)
アイテムタイプ 学位論文 / Thesis or Dissertation(1)
公開日 2013-11-15
タイトル
タイトル 報酬に基づいた環境情報の取捨選択による行動学習の効率化に関する研究
言語 ja
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_db06
資源タイプ doctoral thesis
ID登録
ID登録 10.15118/00005101
ID登録タイプ JaLC
アクセス権
アクセス権 open access
アクセス権URI http://purl.org/coar/access_right/c_abf2
著者 木島, 康隆

× 木島, 康隆

ja 木島, 康隆

en KISHIMA, Yasutaka

ja-Kana キシマ, ヤスタカ


Search repository
抄録
内容記述タイプ Abstract
内容記述 本論文では,強化学習における学習の効率化に関して,ロボット外部の情報とロボットの内部の情報の2つの情報から考察する。強化学習では,Q空間と呼ばれる状態軸,行動軸,Q値軸からなる学習空間を基に学習を行う。状態軸はロボットが観測した周囲の環境の状態を示す。行動軸はロボットがとることの出来る行動を示す。Q値軸はある状態である行動をとった時に得られる期待報酬値を示す。Q空間は報酬を基に更新される。強化学習の問題点として,学習に時間がかかるという問題が挙げられる。特に,ロボットに搭載されるセンサが増加し,環境状態の情報量が増えると,それに伴い状態軸も増大し学習空間が大きくなる。学習空間が大きくなるとそれだけ多くの経験を必要とする。その結果,学習に多くの時間を要する。この問題に対して,本研究ではロボットの外部と内部の情報からQ値を改変し学習を効率化させる手法を提案する。ロボットの外部の情報とは,他のロボットとのコミュニケーションによって得る他のロボットの経験情報(Q値)である。実社会では,時間的な制約によりロボットが獲得可能な情報には限りがある。そのため,他のロボットとのコミュニケーションにより自身が得たQ値に加え他者からのQ値により,学習をより効率的にすることを考える。しかし,ただコミュニケーションを行うだけでは,自身の学習を阻害するような情報を得てしまい,却って学習の効率を下げる恐れがある。コミュニケーションを行う相手に関して選別し,自身にとって有益な情報をもたらす他者とコミュニケーションすべきである。そこで,本研究では,自身とって有益な情報を持つ他者を基に学習しコミュニケーションすることで,効率的に学習を行う手法を提案する。次に,ロボットの内部の情報の取り扱いとして,Q空間そのものをタスクに適した形に改変する。タスクを遂行するにあたり,センサ情報全てが必要であるとは限らない。タスクによって,重要となるセンサ情報と不要なセンサ情報が存在する。ロボットは環境とインタラクションしつつタスク遂行に重要なセンサをセンサ値と報酬の相関から統計的に判断する。そして,重要なセンサを用いてQ空間を再構築することで,従来よりもQ空間を縮小することができる。これにより,学習データが削減され学習に要する時間が短縮する。以上のことを実現する手法を提案する。これらロボットの外部と内部の情報の取捨選択によって,ロボットが利用する余分な情報を削減することができる。それにより効率的に学習が実現できることを示す。
言語 ja
抄録
内容記述タイプ Abstract
抄録
内容記述タイプ Abstract
内容記述 At present, reinforcement learning is the most prominent learning method used when controlling an actual robot. A robot receives environmental information from its sensors as inputs and as outputs performs suitable actions. A robot needs to learn the relation between each input and output. A robot learns proper actions based on a learning space. The learning space consists of an input axis, an output axis, and an evaluation axis. When the number of sensors increases, the learning space expands and as a result, the time taken by a robot to learn a task increases. The objective of this paper is to overcome this problem. If we reduce the learning space, the learning performance will also reduce. Therefore, I focus on reducing the learning time while keeping the learning space large. To achieve this, I follow two approaches. The first approach involves communicating with other robots, and gathering data for learning. Typically, a robot uses only the data it collects for learning. If the learning space is large, the time required by a robot to collect sufficient data increases. By using data collected from other robots, I attempt to accelerate the speed of learning. In Chapter 3, I examined an assumption with regard to the negative impact certain collected information could have on the robot. To this end, in Chapter 4, I propose a system in which a robot, when performing a task, selects only those robots that have profitable information. The second approach involves compressing the learning space by only considering sensors necessary to perform a task. Based on the task, some sensors are important and some are unimportant. By dynamic compression as per the task, I attempt to effectively accelerate the speed of learning. In Chapters 5 and 6, I propose a method by which a robot statistically identifies important sensors through interaction with the environment.In each chapter, I apply the proposed methods to the path planning problem. Two kinds of environment are used, maze and open space field. Experiments are performed using a computer simulation and an actual robot. In each case, I compare the proposed method with reinforcement learning and show the improvement of the learning speed with the high performance.
言語 en
学位授与機関
学位授与機関識別子Scheme kakenhi
学位授与機関識別子 10103
学位授与機関名 室蘭工業大学
言語 ja
学位授与機関名 Muroran Institute of Technology
言語 en
学位名
学位名 博士(工学)
言語 ja
学位の種別
言語 ja
値 課程博士
学位授与番号
学位授与番号 甲第346号
報告番号
言語 ja
値 甲第346号
学位記番号
言語 ja
値 博甲第346号
学位授与年月日
学位授与年月日 2013-09-26
日本十進分類法
主題Scheme NDC
主題 548.3
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
フォーマット
内容記述タイプ Other
内容記述 application/pdf
戻る
0
views
See details
Views

Versions

Ver.1 2023-06-19 11:17:46.607920
Show All versions

Share

Share
tweet

Cite as

Other

print

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX
  • ZIP

コミュニティ

確認

確認

確認


Powered by WEKO3


Powered by WEKO3