TU Berlin

Neuronale InformationsverarbeitungApproximatives Reinforcement Learning

Neuronale Informationsverarbeitung

Inhalt

zur Navigation

Approximatives Reinforcement Learning

Lupe

Vollständig autonom mit ihrer Umgebung interagierende Agenten (z.B. Menschen oder Roboter) stellen das maschinelle Lernen vor ganz neue Herausforderungen. Ein Agent muss zukünftige Vorteile von Entscheidungen gegen deren Kosten aufwiegen, ohne (wie im maschinellen Lernen sonst üblich) dabei von einem menschlichen Experten angewiesen zu werden oder seine Umgebung zu kennen. Exakte Lösungen hiervon, wie sie im Feld des Reinforcement Learnings entwickelt wurden, skalieren sehr schlecht mit der Komplexität des zu lösenden Problems. Deshalb findet diese wohl fundierte Theorie in der Praxis kaum Anwendung. Dieses Projekt will das Problem durch Approximation der Lösungssuche überwinden, ohne dabei irrationales Verhalten zu erzeugen oder in Sackgassen stecken zu bleiben. Die verwendeten Methoden passen sich selbstständig an Gegebenheiten und Eingabedaten an und können direkt mit den Sensorinformationen des Agenten arbeiten. Auf diese Weise wird eine komplette Wahrnehmung/Handlung Schleife erzeugt. Neu entwickelte Algorithmen werden in Simulationen und an Robotern getestet.

Danksagung: Diese Forschung wurde/wird von der Deutschen Forschungsgemeinschaft (DFG),
dem Human-Centric Communication Cluster (H-C3) und der Technischen Universität Berlin
gefördert.

Ausgewählte Publikationen:

Construction of Approximation Spaces for Reinforcement Learning
Zitatschlüssel Boehmer2013a
Autor Böhmer, W. and Grünewälder, S. and Shen, Y. and Musial, M. and Obermayer, K.
Seiten 2067–2118
Jahr 2013
Journal Journal of Machine Learning Research
Jahrgang 14
Monat July
Zusammenfassung Linear reinforcement learning (RL) algorithms like least-squares temporal difference learning (LSTD) require basis functions that span approximation spaces of potential value functions. This article investigates methods to construct these bases from samples. We hypothesize that an ideal approximation spaces should encode diffusion distances and that slow feature analysis (SFA) constructs such spaces. To validate our hypothesis we provide theoretical statements about the LSTD value approximation error and induced metric of approximation spaces constructed by SFA and the state-of-the-art methods Krylov bases and proto-value functions (PVF). In particular, we prove that SFA minimizes the average (over all tasks in the same environment) bound on the above approximation error. Compared to other methods, SFA is very sensitive to sampling and can sometimes fail to encode the whole state space. We derive a novel importance sampling modification to compensate for this effect. Finally, the LSTD and least squares policy iteration (LSPI) performance of approximation spaces constructed by Krylov bases, PVF, SFA and PCA is compared in benchmark tasks and a visual robot navigation experiment (both in a realistic simulation and with a robot). The results support our hypothesis and suggest that (i) SFA provides subspace-invariant features for MDPs with self-adjoint transition operators, which allows strong guarantees on the approximation error, (ii) the modified SFA algorithm is best suited for LSPI in both discrete and continuous state spaces and (iii) approximation spaces encoding diffusion distances facilitate LSPI performance.
Typ der Publikation Selected:main selected:reinforcement selected:publications
Link zur Publikation Download Bibtex Eintrag

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe