Spätestens seit dem 4:1 Sieg über Lee Sedol kennnt jeder die Deepmind-KI 'AlphaGo'. Was mit einem ersten Sieg des Prototypen über einen europäischen Profi begann, hat nun bereits den König der Szene in die Knie gezwungen. Trotz einer bemerkenswert starken Leistung musste sich der Mensch dem auf Weltklasse-Niveau spielendem Programm beugen. Dies war jedoch kein Zeugnis seiner Schwäche, sondern vielmehr der Stärke der Software.
Das Interessante und Neue an ihr: Sie verwendet nicht wie frühere Programme das Monte-Carlo-Prinzip (auch "Brute-Force-Algorithmen" genannt). Diese veraltete KI-Variante war für Schach bereits 1997 vollkommen ausreichend, scheiterte aber bisher sogar gegen Amateur-Go-Spieler. Zu zahlreich sind Möglichkeiten, zu komplex die Kampfmöglichkeiten.
Um die Königsklasse der Perfect-Information-Games zu erobern, braucht es neue Wege und Methoden. Dafür bedient es sich eines komplexen Zusammenspiels an Algorithmen, wie man es vorher nur selten gesehen hat. Sogenannte neuronale Netzwerke, wie sie bereits in einem früheren Artikel behandelt wurden, zeigen sich vergangenen Versuchen haushoch überlegen.
Deepmind AlphaGo, eine Super-KI?
Warum? Sie orientieren sich am menschlichen Gehirn! Ähnlich wie das biologische Vorbild besitzt es verschiedene Komponenten, um eine Situation zu beurteilen. Dabei stützt sich AlphaGo auf drei Hauptbestandteile. Das sogenannte "policy-network" bildet die empirische Basis für alle weiteren. Dieser Part könnte als "Erfahrungszentrum" des Systems beschrieben werden. Durch unzählige Matches gegen menschliche Gegner behält die Datenbank bestimmte Züge, zu denen Menschen neigen und die wichtige Punkte auf dem Spielfeld einnahmen oder Situationen vorteilhaft lösen. Es lernt, Menschen zu "imitieren" und tendiert dadurch primär zu Zügen aus seiner Datenbank. Diese erweiterte das Programm zusätzlich, indem es immer wieder gegen sich selbst spielte und so auch eigene Züge entwickelte.
Der Anfang vom Ende: Lee Seedols Niederlage nimmt ihren Lauf
Quelle: forbes.com
Bestandteil zwei: das "value-network". Es kann die momentane Lage der Partie analysieren und ermittelt so eine Siegwahrscheinlichkeit für AlphaGo. Dabei errechnet oder bestimmt es die Punkte näherungsweise, die die Kontrahenten haben. Dementsprechend besitzt auch die KI ein Gefühl dafür, wer im Moment vorne liegt, was sich natürlich maßgeblich auf die Spielweise auswirkt.
Zu guter Letzt verbleibt das für jeden Go-Spieler entscheidende "Lesen". Hierbei werden mögliche Spielverläufe durchgegangen und Konsequenzen - wofür die KI erneut das "value-network" nutzt - vorausgesehen. Dies geschieht aber nicht nach der Monte-Carlo-Variante, sondern bedient sich erneut des ersten Teils, analysiert also Züge, zu denen Menschen neigen würden. Dies schließt unorthodoxe Varianten nicht ganz aus, verringert aber die Wahrscheinlichkeit, von komplett neuen oder realitätsfernen Zügen. Trotzdem sollten viele Züge AlphaGos Lee Sedol überraschen.
https://www.youtube.com/watch?v=l-GsfyVCBu0]
Generell zeigte sich dieses neuronale Netzwerk in Topform: Aggressionslevel, Taktiken und Kampfverhalten waren alle auf Weltklasseniveau und ließen dem Gegner keinen Raum für Fehler. AlphaGo präsentierte kaum Schwächen, offenbarte aber einige Eigenarten zu Beginn des zweiten Matches. "Das ist charakteristisch für die von uns angewanden Algorithmen", so einer der Entwickler. Deswegen macht es durchaus Sinn, sich diese charakteristischen Eigenheiten einmal genauer anzugucken.
Keine Schwächen, aber viel Charakter
Besonders auffällig: Das Programm wählt nicht zwangsläufig den Weg, der am meisten Punkte macht. Es spielt vielmehr die Züge mit der höchsten Siegeswahrscheinlichkeit. Dementsprechend würde es einen Zug mit einer 1-Punkt-Siegeswahrscheinlichkeit mit 90 Prozent einem für 20 Punkte mit 80 prozentiger Siegeswahrscheinlichkeit vorziehen. Besonders wenn AlphaGo sich vermeintlich vorne sieht, wählt es daher teils überraschend passiv wirkende Züge, die dem Gegner deutlich mehr Luft zum Atmen geben. Es spielt nicht immer den stärksten Zug - es spielt den sichersten.
Umgekehrt war vor allem im vierten Spiel zu sehen, wie AlphaGo reagiert, wenn es denkt, dass es hinten liegt. Durch einen brillanten Zug, den selbst der kommentierende Profi nicht für möglich gehalten hatte, brachte Lee Sedol die Software aus dem Konzept. Hier zeigte sich, dass das Programm überraschend empfindlich auf scheinbar nicht vorhergesehene Züge reagiert. Während die ersten Antworten von AlphaGo noch den Kampf in der Waage hielten, wurden die Reaktionen im weiteren Verlauf der Schlacht immer schlechter.
Diese Schwäche bei unvorhersehbaren Zügen könnte besonders in Starcraft ausschlaggebend sein, da es kein Perfect-Information-Game ist. Hier besteht die Möglichkeit, seine Absichten, seine wahre Stärke beziehungsweise Schwäche zu verschleiern. Die Möglichkeit, Tech, Armee und Co. zu verstecken und sich gegebenfalls in falscher Sicherheit zu wiegen, könnte der KI das Genick brechen. Das Fällen von Entscheidungen auf Basis mangelnder Informationen ist somit mehr als nötig, um echte Bonjwas zu schlagen.
Ebenso wichtig: AlphaGo vermied sogenannte Kos. Dies sind Spielstellungen, in denen beide Spieler abwechselnd Schwächen in den gegnerischen Gruppen finden und bedrohen müssen, um eine "Schlacht" in einer bestimmten Region nicht zu verlieren. Kos sind oft spielentscheidend und daher äußerst wichtig. Dabei können auch vermeintliche Führungen schnell verloren gehen und so den Spielausgang verändern. Die KI zeigte zwar, dass sie, falls nötig, solche Situation lösen kann, aber die Vorsicht des Programms vor gefährlichen, wenn auch essentiellen, Taktiken könnte auch in Starcraft eine Schwachstelle offenbaren: das sogenannte Base-Race. Wenn beide Spieler alles auf die Tötung der gegnerischen Basis setzen, kann es zu oft chaotischen Situationen kommen - ähnlich wie bei Kos. Dementsprechend wird es eine weitere Herausforderung für die Entwickler sein, eben solche Möglichkeiten während der Erschaffung des angepassten neuronalen Netzwerkes zu berücksichtigen.
Turtle-Time: Wird das die Strategie einer sicherheitsliebenden KI im Duell gegen menschliche Gegner?
Quelle: youtube.com
Gleichzeitig wirft diese mangelnde Risikobereitschaft weitere Fragen auf: Wird die KI auch Macro-Openings oder Cheeses spielen? Diese sind immer mit einem gewissen Risiko behaftet, gegen frühe Pushes oder All-Ins zu scheitern und scheinen somit keine gute Wahl für eine sicherheitsliebende Software zu sein. Generell scheint der Pool an "sicheren" Openings vergleichsweise klein - das Programm läuft Gefahr, am Ende vorhersehbar zu werden.
Was bringt die Zukunft?
Welchen Herausforderungen sich ein menschlicher Gegner in Starcraft stellen muss, bleibt generell abzuwarten. Die Algorithmen lassen sich zwar grundsätzlich auch auf Starcraft übertragen, aber eine Anpassung scheint schwierig und zeitintensiv. Dies galt allerdings auch für die AlphaGo-KI - und trotzdem übertraf sie nun alle Erwartungen. So könnte es auch Starcraft ergehen. Noch gehen alle von einem deutlichen Sieg des Profis über den Computer aus, aber wie schnell sich das Blatt wendet, kann niemand wissen. Besonders die rasante Entwicklung der letzten Jahre lässt mit Spannung auf die Zukunft hoffen.
Ebenso interessant sind sogenannte "KI-Turniere". Hier treten von Programmierern geschaffene Systeme gegeneinander an und ermitteln ohne direkten menschlichen Einfluss einen Sieger. Der eSport löst sich somit von den menschlichen Spielern und offenbart damit die Frage: Wie wird er in Zukunft mit solchen künstlichen Intelligenzen umgehen? Werden dazugehörige Turniere ebenso populär werden können, wie ihre Pendants aus Fleisch und Blut, sofern das Niveau stimmt? Könnte es gemixte Wettbewerbe geben, in denen Menschen gegen die Kreationen von Informatikern antreten? Die Liste an Möglichkeiten scheint endlos und so muss sich jeder selbst fragen: Wo wird uns die KI-Entwicklung noch hinführen?
Was denkt ihr? Wann und wie wird eine Starcraft-KI den Thron übernehmen?
Wenn man die KI gar nicht limitiert wird der Mensch keine Schnitte sehen können. Selbst ein mittlemäßiges Strategieverständnis würde ausreichen, um bei 1000 APM und perfekten Micro + Macro jedes Spiel zu gewinnen.
Wenn wir über eine limitierte KI reden (in der sozusagen ein Mauzeiger simuliert wird und evt. auch noch ein Sichtfeld) wird die Sache interessant. Ich glaube nicht das der Mensch auf Dauer eine Chance hat, die Entwicklung wird aber schwerer als die von AlphaGO.
Hier liegt auch die Herausforderung die bereits in einem vorherigen Artikel angesprochen wurde. Es soll eben kein MicroBot sein, sondern eine "menschenähnliche" KI. Ich empfehl dir da unseren vorhergehenden Artikel, der abseits der Spielanalyse auf diese Frage eingegangen ist:
Kunstliche-Intelligenz-fordert-Starcraft-Elite