TU Berlin

Neuronale InformationsverarbeitungApproximatives Reinforcement Learning

Neuronale Informationsverarbeitung

Inhalt

zur Navigation

Approximatives Reinforcement Learning

Lupe

Vollständig autonom mit ihrer Umgebung interagierende Agenten (z.B. Menschen oder Roboter) stellen das maschinelle Lernen vor ganz neue Herausforderungen. Ein Agent muss zukünftige Vorteile von Entscheidungen gegen deren Kosten aufwiegen, ohne (wie im maschinellen Lernen sonst üblich) dabei von einem menschlichen Experten angewiesen zu werden oder seine Umgebung zu kennen. Exakte Lösungen hiervon, wie sie im Feld des Reinforcement Learnings entwickelt wurden, skalieren sehr schlecht mit der Komplexität des zu lösenden Problems. Deshalb findet diese wohl fundierte Theorie in der Praxis kaum Anwendung. Dieses Projekt will das Problem durch Approximation der Lösungssuche überwinden, ohne dabei irrationales Verhalten zu erzeugen oder in Sackgassen stecken zu bleiben. Die verwendeten Methoden passen sich selbstständig an Gegebenheiten und Eingabedaten an und können direkt mit den Sensorinformationen des Agenten arbeiten. Auf diese Weise wird eine komplette Wahrnehmung/Handlung Schleife erzeugt. Neu entwickelte Algorithmen werden in Simulationen und an Robotern getestet.

Danksagung: Diese Forschung wurde/wird von der Deutschen Forschungsgemeinschaft (DFG),
dem Human-Centric Communication Cluster (H-C3) und der Technischen Universität Berlin
gefördert.

Ausgewählte Publikationen:

Generating feature spaces for linear algorithms with regularized sparse kernel slow feature analysis
Zitatschlüssel Boehmer2012
Autor Böhmer, W. and Grünewalder, S. and Nickisch, H. and Obermayer, K.
Seiten 67–86
Jahr 2012
ISSN 0885-6125
DOI 10.1007/s10994-012-5300-0
Journal Machine Learning
Jahrgang 89
Nummer 1
Verlag Springer US
Zusammenfassung Without non-linear basis functions many problems can not be solved by linear algorithms. This article proposes a method to automatically construct such basis functions with slow feature analysis (SFA). Non-linear optimization of this unsupervised learning method generates an orthogonal basis on the unknown latent space for a given time series. In contrast to methods like PCA, SFA is thus well suited for techniques that make direct use of the latent space. Real-world time series can be complex, and current SFA algorithms are either not powerful enough or tend to over-fit. We make use of the kernel trick in combination with sparsification to develop a kernelized SFA algorithm which provides a powerful function class for large data sets. Sparsity is achieved by a novel matching pursuit approach that can be applied to other tasks as well. For small data sets, however, the kernel SFA approach leads to over-fitting and numerical instabilities. To enforce a stable solution, we introduce regularization to the SFA objective. We hypothesize that our algorithm generates a feature space that resembles a Fourier basis in the unknown space of latent variables underlying a given real-world time series. We evaluate this hypothesis at the example of a vowel classification task in comparison to sparse kernel PCA. Our results show excellent classification accuracy and demonstrate the superiority of kernel SFA over kernel PCA in encoding latent variables.
Typ der Publikation Selected:reinforcement
Link zur Publikation Download Bibtex Eintrag

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe