Das ist es:
Reinforcement Learning (dt. bestärkendes Lernen) gehört zu einer der drei Machine Learning Lernmethoden (Supervised Learning, Unsupervised Learning und Reinforcement Learning). Eine KI trainiert sich hierbei mit der trial-and-error Methode. Die KI bekommt eine Aufgabe gestellt und hat alle Freiheiten sie zu lösen. Beim Reinforcement Leaning erhält die Künstliche Intelligenz Belohnungen für Versuche, die in die richtige Richtung gehen und wird bestraft, wenn sie am Ziel vorbeischießt. Ein Beispiel für eine KI, die via „learning by doing“ Laufen gelernt hat, finden Sie hier im Reiter „Schatzkiste“.
Reinforcement Learning ist besonders dann praktisch und notwendig, wenn der Mensch die Funktionsweise hinter etwas nicht versteht. Am genannten Beispiel „Laufen lernen“ kann man das sehr gut nachvollziehen. Wir wissen, wie man läuft, können es jedoch nicht so einfach erklären und nur sehr schwer in einzelne Bewegungen runterbrechen – denn es gibt viele Variablen, die sich bei Steigungen oder dem Lauftempo verändern: In welchem Winkel müssen die Füße stehen, wie verlagert man das Gewicht, wie beschleunigt oder bremst man ohne hinzufallen, etc..
So funktioniert es:
Mit Reinforcement Learning kann eine KI komplizierte Aufgaben, bei denen die relevanten Parameter komplett unbekannt sind, Stück für Stück selbst lösen. Dieses Training wird mit Belohnungen durchgeführt. Wenn das Ziel „Laufen lernen“ ist, gibt man der KI z.B. eine erste Belohnung, sobald sie verstanden hat, wie sie stehen bleiben kann. Danach erhält sie eine, wenn sie sich nach vorne bewegt, anschließend immer mehr Belohnungen, je weiter sie läuft. Diese Belohnungen bestehen schlicht und einfach aus „gut gemacht“, Bestrafungen aus „mach das nochmal“.
Das Problem bzw. die Herausforderung des Reinforcement Learning besteht in der fundamentalen Belohnungsmethode. Wenn man einer Künstlichen Intelligenz eine Aufgabe gibt, bei der der Mensch die „Kreativität“ der KI nicht einschränken möchte, darf man ihr zwangsläufig nur am Ende (bei der richtigen Problemlösung) eine Belohnung geben. Die Künstliche Intelligenz probiert also so lange verschiedene Dinge aus, bis sie durch Zufall genau das tut was der Mensch als Ergebnis erzielen wollte. Dabei hat sie jedoch viele unnötige Schritte dazwischen durchgeführt, welche nicht für die Erfüllung der Aufgabe notwendig waren. Die Künstliche Intelligenz muss, um die relevanten Aktionen zu filtern, reflektierend den vergangenen Prozess beurteilen und unnötige Aktionen streichen. Dieser Prozess ist beim Reinforcement Learning essenziell, sie gehört zum Lernen dazu. Während des Reinforcement Learning analysiert eine Künstliche Intelligenz also ihren Lösungsweg und versucht, diesen zu perfektionieren, wodurch teilweise ganz andere Lösungen für Probleme entstehen. Am Beispiel des „Laufen Lernens“ könnte eine KI so z.B. das Galoppieren entwickeln und sich so schneller die Belohnung sichern.
Beispiele für Reinforcement Learning:
Reinforcement Learning findet man vor allem in der Optimierung von Steuerungen z.B. wird das unterstützende Lernen im Deep Learning bei selbstfahrenden Autos angewandt. Die KI kann so die sich verändernde Umgebung analysieren und Probleme (wie Zusammenstöße mit Passanten auf dem Zebrastreifen) aus dem Weg räumen.
Reinforcement Learning in der Zukunft:
Reinforcement Learning existiert bereits seit längerem. Aber erst durch die aktuelle Verfügbarkeit von Rechenleistung und großen Datenmengen (Big Data), kann Reinforcement Learning wirklich praktisch angewandt werden. Diese Lernmethode ist jedoch auch aktuell immer noch sehr zeitaufwändig, da die Künstliche Intelligenz komplexe Herausforderungen durch trial-and-error lösen muss. Durch den weiteren technischen Fortschritt wird Reinforcement Learning schneller werden und damit auch wichtiger, besonders im Bereich Deep Learning. Denn hier kann eine Künstliche Intelligenz komplexe Themen schneller erfassen als andere Lernmethoden, wie z.B. Schach oder Go spielen lernen. Reinforcement Learning gilt als Schlüssel zur sogenannten „allgemeinen Künstlichen Intelligenz (AKI)“: Im Gegensatz zur sogenannten „engen KI“, die für die Lösung eines spezifischen Problems entwickelt worden sind, ist die AKI in der Lage, für verschiedene Probleme gleichzeitig Lösungen zu finden.