@phdthesis{oai:muroran-it.repo.nii.ac.jp:00005110, author = {木島, 康隆 and KISHIMA, Yasutaka}, month = {2016-02-15, 2016-02-15}, note = {application/pdf, 本論文では,強化学習における学習の効率化に関して,ロボット外部の情報とロボットの内部の情報の2つの情報から考察する。強化学習では,Q空間と呼ばれる状態軸,行動軸,Q値軸からなる学習空間を基に学習を行う。状態軸はロボットが観測した周囲の環境の状態を示す。行動軸はロボットがとることの出来る行動を示す。Q値軸はある状態である行動をとった時に得られる期待報酬値を示す。Q空間は報酬を基に更新される。強化学習の問題点として,学習に時間がかかるという問題が挙げられる。特に,ロボットに搭載されるセンサが増加し,環境状態の情報量が増えると,それに伴い状態軸も増大し学習空間が大きくなる。学習空間が大きくなるとそれだけ多くの経験を必要とする。その結果,学習に多くの時間を要する。この問題に対して,本研究ではロボットの外部と内部の情報からQ値を改変し学習を効率化させる手法を提案する。ロボットの外部の情報とは,他のロボットとのコミュニケーションによって得る他のロボットの経験情報(Q値)である。実社会では,時間的な制約によりロボットが獲得可能な情報には限りがある。そのため,他のロボットとのコミュニケーションにより自身が得たQ値に加え他者からのQ値により,学習をより効率的にすることを考える。しかし,ただコミュニケーションを行うだけでは,自身の学習を阻害するような情報を得てしまい,却って学習の効率を下げる恐れがある。コミュニケーションを行う相手に関して選別し,自身にとって有益な情報をもたらす他者とコミュニケーションすべきである。そこで,本研究では,自身とって有益な情報を持つ他者を基に学習しコミュニケーションすることで,効率的に学習を行う手法を提案する。次に,ロボットの内部の情報の取り扱いとして,Q空間そのものをタスクに適した形に改変する。タスクを遂行するにあたり,センサ情報全てが必要であるとは限らない。タスクによって,重要となるセンサ情報と不要なセンサ情報が存在する。ロボットは環境とインタラクションしつつタスク遂行に重要なセンサをセンサ値と報酬の相関から統計的に判断する。そして,重要なセンサを用いてQ空間を再構築することで,従来よりもQ空間を縮小することができる。これにより,学習データが削減され学習に要する時間が短縮する。以上のことを実現する手法を提案する。これらロボットの外部と内部の情報の取捨選択によって,ロボットが利用する余分な情報を削減することができる。それにより効率的に学習が実現できることを示す。, At present, reinforcement learning is the most prominent learning method used when controlling an actual robot. A robot receives environmental information from its sensors as inputs and as outputs performs suitable actions. A robot needs to learn the relation between each input and output. A robot learns proper actions based on a learning space. The learning space consists of an input axis, an output axis, and an evaluation axis. When the number of sensors increases, the learning space expands and as a result, the time taken by a robot to learn a task increases. The objective of this paper is to overcome this problem. If we reduce the learning space, the learning performance will also reduce. Therefore, I focus on reducing the learning time while keeping the learning space large. To achieve this, I follow two approaches. The first approach involves communicating with other robots, and gathering data for learning. Typically, a robot uses only the data it collects for learning. If the learning space is large, the time required by a robot to collect sufficient data increases. By using data collected from other robots, I attempt to accelerate the speed of learning. In Chapter 3, I examined an assumption with regard to the negative impact certain collected information could have on the robot. To this end, in Chapter 4, I propose a system in which a robot, when performing a task, selects only those robots that have profitable information. The second approach involves compressing the learning space by only considering sensors necessary to perform a task. Based on the task, some sensors are important and some are unimportant. By dynamic compression as per the task, I attempt to effectively accelerate the speed of learning. In Chapters 5 and 6, I propose a method by which a robot statistically identifies important sensors through interaction with the environment.In each chapter, I apply the proposed methods to the path planning problem. Two kinds of environment are used, maze and open space field. Experiments are performed using a computer simulation and an actual robot. In each case, I compare the proposed method with reinforcement learning and show the improvement of the learning speed with the high performance.}, school = {室蘭工業大学, Muroran Institute of Technology}, title = {報酬に基づいた環境情報の取捨選択による行動学習の効率化に関する研究}, year = {}, yomi = {キシマ, ヤスタカ} }