ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究者名(五十音順)
  2. 倉重 健太郎(KURASHIGE Kentarou)
  1. 学術雑誌論文

Self-generation of reward by logarithmic transformation of multiple sensor evaluations

http://hdl.handle.net/10258/0002000059
http://hdl.handle.net/10258/0002000059
52761aaa-1576-47dc-8379-0fc5941275bb
名前 / ファイル ライセンス アクション
camera_ready.pdf camera_ready.pdf (270 KB)
Item type 学術雑誌論文 / Journal Article.(1)
公開日 2024-02-15
書誌情報 en : Artificial Life and Robotics

巻 28, 号 2, p. 287-294, 発行日 2023
タイトル
タイトル Self-generation of reward by logarithmic transformation of multiple sensor evaluations
言語 en
言語
言語 eng
キーワード
言語 en
主題Scheme Other
主題 Self-Generation of Reward
キーワード
言語 en
主題Scheme Other
主題 Reinforcement learning
キーワード
言語 en
主題Scheme Other
主題 Danger recognition
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者 小野, 裕也

× 小野, 裕也

en Ono, Yuya

ja 小野, 裕也


Search repository
倉重, 健太郎

× 倉重, 健太郎

en Kurashige, Kentarou

ja 倉重, 健太郎


Search repository
Hakim Afiqe Anuar Bin Muhammad Nor

× Hakim Afiqe Anuar Bin Muhammad Nor

en Hakim Afiqe Anuar Bin Muhammad Nor


Search repository
坂本, 悠真

× 坂本, 悠真

en Sakamoto, Yuma

ja 坂本, 悠真


Search repository
抄録
内容記述タイプ Abstract
内容記述 Although the design of the reward function in reinforcement learning is important, it is difficult to design a system that can adapt to a variety of environments and tasks. Therefore, we propose a method to autonomously generate rewards from sensor values, enabling task- and environment-independent reward design. Under this approach, environmental hazards are recognized by evaluating sensor values. The evaluation used for learning is obtained by integrating all the sensor evaluations that indicate danger. Although prior studies have employed weighted averages to integrate sensor evaluations, this approach does not reflect the increased danger arising from a higher amount of more sensor evaluations indicating danger. Instead, we propose the integration of sensor evaluation using logarithmic transformation. Through a path learning experiment, the proposed method was evaluated by comparing its rewards to those gained from manual reward setting and prior approaches.
言語 en
出版者
出版者 Springer Nature
言語 en
DOI
関連タイプ isVersionOf
識別子タイプ DOI
関連識別子 10.1007/s10015-023-00855-1
ISSN
収録物識別子タイプ PISSN
収録物識別子 1433-5298
権利
言語 en
権利情報 © International Society of Artifcial Life and Robotics (ISAROB) 2023
著者版フラグ
出版タイプ AM
出版タイプResource http://purl.org/coar/version/c_ab4af688f83e57aa
戻る
0
views
See details
Views

Versions

Ver.1 2023-10-05 01:01:22.880017
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3