TU Berlin

Neuronale InformationsverarbeitungApproximatives Reinforcement Learning

Neuronale Informationsverarbeitung

Inhalt

zur Navigation

Approximatives Reinforcement Learning

Lupe

Vollständig autonom mit ihrer Umgebung interagierende Agenten (z.B. Menschen oder Roboter) stellen das maschinelle Lernen vor ganz neue Herausforderungen. Ein Agent muss zukünftige Vorteile von Entscheidungen gegen deren Kosten aufwiegen, ohne (wie im maschinellen Lernen sonst üblich) dabei von einem menschlichen Experten angewiesen zu werden oder seine Umgebung zu kennen. Exakte Lösungen hiervon, wie sie im Feld des Reinforcement Learnings entwickelt wurden, skalieren sehr schlecht mit der Komplexität des zu lösenden Problems. Deshalb findet diese wohl fundierte Theorie in der Praxis kaum Anwendung. Dieses Projekt will das Problem durch Approximation der Lösungssuche überwinden, ohne dabei irrationales Verhalten zu erzeugen oder in Sackgassen stecken zu bleiben. Die verwendeten Methoden passen sich selbstständig an Gegebenheiten und Eingabedaten an und können direkt mit den Sensorinformationen des Agenten arbeiten. Auf diese Weise wird eine komplette Wahrnehmung/Handlung Schleife erzeugt. Neu entwickelte Algorithmen werden in Simulationen und an Robotern getestet.

Danksagung: Diese Forschung wurde/wird von der Deutschen Forschungsgemeinschaft (DFG),
dem Human-Centric Communication Cluster (H-C3) und der Technischen Universität Berlin
gefördert.

Ausgewählte Publikationen:

Böhmer, W., Grünewälder, S., Shen, Y., Musial, M. and Obermayer, K. (2013). Construction of Approximation Spaces for Reinforcement Learning. Journal of Machine Learning Research, 14, 2067–2118.


Shen, Y., Stannat, W. and Obermayer, K. (2013). Risk-sensitive Markov Control Processes. SIAM Journal on Control and Optimization, 51, 3652–3672.


Böhmer, W. and Obermayer, K. (2013). Towards Structural Generalization: Factored Approximate Planning. ICRA Workshop on Autonomous Learning


Böhmer, W., Grünewalder, S., Nickisch, H. and Obermayer, K. (2012). Generating feature spaces for linear algorithms with regularized sparse kernel slow feature analysis. Machine Learning, 89, 67–86.


Böhmer, W., Grünewälder, S., Nickisch, H. and Obermayer, K. (2011). Regularized Sparse Kernel Slow Feature Analysis. Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, 235–248.,


Grünwälder, S. and Obermayer, K. (2011). The Optimal Unbiased Extimator and its Relation to LSTD, TD and MC. Machine Learning, 83, 289 – 330.


Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe