TU Berlin

Neuronale InformationsverarbeitungApproximatives Reinforcement Learning

Neuronale Informationsverarbeitung

Inhalt

zur Navigation

Approximatives Reinforcement Learning

Lupe

Vollständig autonom mit ihrer Umgebung interagierende Agenten (z.B. Menschen oder Roboter) stellen das maschinelle Lernen vor ganz neue Herausforderungen. Ein Agent muss zukünftige Vorteile von Entscheidungen gegen deren Kosten aufwiegen, ohne (wie im maschinellen Lernen sonst üblich) dabei von einem menschlichen Experten angewiesen zu werden oder seine Umgebung zu kennen. Exakte Lösungen hiervon, wie sie im Feld des Reinforcement Learnings entwickelt wurden, skalieren sehr schlecht mit der Komplexität des zu lösenden Problems. Deshalb findet diese wohl fundierte Theorie in der Praxis kaum Anwendung. Dieses Projekt will das Problem durch Approximation der Lösungssuche überwinden, ohne dabei irrationales Verhalten zu erzeugen oder in Sackgassen stecken zu bleiben. Die verwendeten Methoden passen sich selbstständig an Gegebenheiten und Eingabedaten an und können direkt mit den Sensorinformationen des Agenten arbeiten. Auf diese Weise wird eine komplette Wahrnehmung/Handlung Schleife erzeugt. Neu entwickelte Algorithmen werden in Simulationen und an Robotern getestet.

Danksagung: Diese Forschung wurde/wird von der Deutschen Forschungsgemeinschaft (DFG),
dem Human-Centric Communication Cluster (H-C3) und der Technischen Universität Berlin
gefördert.

Ausgewählte Publikationen:

Risk-sensitive Markov Control Processes
Zitatschlüssel Shen2013
Autor Shen, Y. and Stannat, W. and Obermayer, K.
Seiten 3652–3672
Jahr 2013
DOI 10.1137/120899005
Journal SIAM Journal on Control and Optimization
Jahrgang 51
Nummer 5
Zusammenfassung We introduce a general framework for measuring risk in the context of Markov control processes with risk maps on general Borel spaces that generalize known concepts of risk measures in mathematical finance, operations research, and behavioral economics. Within the framework, apply- ing weighted norm spaces to incorporate unbounded costs also, we study two types of infinite-horizon risk-sensitive criteria, discounted total risk and average risk, and solve the associated optimization problems by dynamic programming. For the discounted case, we propose a new discount scheme, which is different from the conventional form but consistent with the existing literature, while for the average risk criterion, we state Lyapunov-like stability conditions that generalize known conditions for Markov chains to ensure the existence of solutions to the optimality equation.
Typ der Publikation Selected:main selected:reinforcement selected:decision selected:publications
Link zur Publikation Link zur Originalpublikation Download Bibtex Eintrag

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe