KI kommt in Schwung

Im Vergleich zu heutiger KI arbeiten natürliche Gehirne viel effizienter. Felix Effenberger untersucht in der Gruppe von Wolf Singer am Frankfurter Ernst Strüngmann Institut für Neurowissenschaften die Rolle rhythmischer Aktivität für die Verarbeitung von Information. Auf Basis der Forschungsergebnisse lassen sich möglicherweise neuartige Computerchips für KI entwickeln, die ähnlich wie Nervennetze im Gehirn funktionieren und deutlich weniger Energie benötigen als heutige digitale Chips.

Text: Tim Schröder

Auf den Punkt gebracht

  • Unterschiedliche Strategien zur Informationsverarbeitung in künstlichen und natürlichen Systemen: Erstere basieren auf der seriellen Verarbeitung digitaler Signale und weisen keine Dynamik auf. Letztere nutzen die Dynamik rekurrenter Netzwerke mit oszillierenden Knoten und bedienen sich analoger Signale.
  • Nachbildung natürlicher Systeme: Diese nutzen ein bislang kaum erforschtes Rechenprinzip, das Oszillationen, Wellen und Interferenzmuster zur Informationsverarbeitung nutzt. Das macht sie besonders leistungsfähig.
  • Paradigmenwechsel in der KI-Forschung: Die bisherige Strategie, die Leistung herkömmlicher Systeme durch schiere Erhöhung der Rechenkapazität zu steigern, wird durch die Entwicklung hybrider Systeme ersetzt werden, in denen digitale Technik mit biologisch inspirierter Analogtechnologie kombiniert wird.

Sowohl das Training als auch der laufende Betrieb heutiger KI-Sprachmodelle wie ChatGPT verbrauchen sehr viel Energie – ein weltweiter, schnell wachsender Bedarf, der mit zunehmender Verbreitung von KI-Anwendungen noch weiter steigen wird. So verschlingt allein das Training eines aktuellen Sprachmodels viele Gigawattstunden, und der laufende Betrieb von ChatGPT verbraucht wahrscheinlich mehr als 500 Megawattstunden pro Tag. Dabei sind die elementaren Rechenoperationen solcher Modelle nicht besonders komplex. Sie müssen jedoch extrem oft und auf gewaltigen Datenmengen ausgeführt werden.

Der Energiehunger heutiger KI-Systeme ist also Folge ihrer schieren Größe. Demgegenüber steht das menschliche Gehirn: Mit rund 30 Watt Leistung verbraucht es pro Tag unter einer Kilowattstunde an Energie und vollbringt damit Leistungen, die bislang von künstlichen Systemen nicht nachgeahmt werden können. Außerdem benötigt es nur einen geringen Bruchteil der Datenmenge, mit der moderne KI-Systeme trainiert werden müssen.

Was macht das Gehirn so effizient, und was lässt sich daraus für die Weiterentwicklung von KI lernen? Felix Effenberger erforscht zusammen mit seinen Kolleginnen und Kollegen der Arbeitsgruppe von Wolf Singer am Ernst Strüngmann Institut für Neurowissenschaften die Informationsverarbeitung im Gehirn. Das rechtlich selbstständige Institut wurde 2008 von den Brüdern Andreas und Thomas Strüngmann gegründet und ist mit der Max-Planck-Gesellschaft assoziiert. Effenbergers Erkenntnisse sind nicht nur für die Neurowissenschaften relevant. Sie könnten auch die Basis für eine neue Art von KI-Modellen sein, die ähnlich wie ihre natürlichen Vorbilder funktionieren, bestimmte Probleme eleganter lösen als heutige KI-Modelle und gleichzeitig wesentlich weniger Energie verbrauchen.

Von der Eingabe- zur Ausgabeschicht

Um eine höhere Leistung zu erreichen, müssen immer größere Modelle eingesetzt werden.
Felix Effenberger

Die meisten heutigen KI-Systeme basieren auf einem Prinzip der Informationsverarbeitung, das Mitte des letzten Jahrhunderts für die maschinelle Mustererkennung vorgeschlagen wurde, dem sogenannten Perzeptron. Pate für dieses Prinzip stand das damalige Wissen über die Organisation neuronaler Netze, wie sie in Tieren und Menschen vorkommen. In diesem Verarbeitungsmodell fließen Daten durch verschiedene Verarbeitungsschichten von einer Eingabe- zu einer Ausgabeschicht. „Das Problem mit aktuellen KI-Systemen ist, dass ihre Leistung hauptsächlich über Skalierung dieses Prinzips erreicht wird. Um eine höhere Leistung zu erreichen, müssen also immer größere Modelle eingesetzt werden. Und damit wächst der Rechenaufwand und Energiebedarf“, erklärt Effenberger.

So erfolgreich die Strategie der fortwährenden Vergrößerung der klassischen Modellstrukturen bislang war, sie gerät inzwischen an ihre Grenzen.  Ein Grund dafür ist, dass solche Systeme keine Dynamik aufweisen, der Zustand des Modells verändert sich also nicht mit der Zeit. Stattdessen erfolgen alle Verarbeitungsschritte seriell und werden getaktet.

Parallele Verarbeitung von Information

In natürlichen Nervennetzen interagieren jedoch alle Neuronen gleichzeitig miteinander, wodurch eine komplexe Dynamik entsteht, die zur parallelen Verarbeitung von Information genutzt werden kann. Deshalb können natürliche Systeme eine riesige Zahl von Variablen gleichzeitig miteinander vergleichen. Künstliche Systeme dagegen müssen solche Vergleiche nacheinander abarbeiten, weil sie wegen fehlender Dynamik zeitliche Beziehungen eigens simulieren müssen. Die Dimension „Zeit“ steht künstlichen Systemen für Berechnungen also nicht zur Verfügung. Zudem sind Rechenvorgänge und Speicherung auf heutigen Rechnern strikt getrennt – ein typisches Merkmal der aktuellen digitalen Rechner, die vom Taschenrechner bis zum Großrechner allesamt auf der Architektur beruhen, die der österreichisch-ungarische Mathematiker John von Neumann schon Mitte des letzten Jahrhunderts konzipierte. Der bei jedem Rechenschritt notwendige Transfer von Information zwischen Rechenwerk und Speicher ist aber ineffizient und energieaufwendig.

Das Gehirn funktioniert grundlegend anders: Es ist ein dynamisches System, dessen Verarbeitungseinheiten – einzelne Nervenzellen oder kleine Schaltkreise aus Nervenzellen – sich kontinuierlich untereinander über wechselseitige Verbindungen austauschen. „Wir sprechen daher von rekurrenten, also rückgekoppelten Netzwerken“, erläutert Wolf Singer. Im Gegensatz zu den seriell gekoppelten Netzen, die keine zeitliche Dynamik erlauben, können Gehirne mühelos räumliche und zeitliche Beziehungen zwischen den zu verarbeitenden Variablen gleichzeitig berechnen. Dies erlaubt es der Natur, mit kleineren und effizienteren Netzwerken zu arbeiten. Im Gehirn sind darüber hinaus Verarbeitung und Gedächtnis untrennbar miteinander verbunden, man spricht von „in-memory computing“.

Rhythmische Aktivität

Eine weitere charakteristische Eigenschaft natürlicher Netzwerke ist, dass sie schwingen können. Ihre Aktivität oszilliert in unterschiedlichen Frequenzbereichen. Die Antworten einzelner Nervenzellen sind rhythmisch. Sie weisen eine zeitliche Struktur auf, die zur Berechnung zeitlicher Beziehungen genutzt werden kann. Die Antworten oszillierender Neurone können synchronisiert werden und dann Resonanzphänomene erzeugen. „Ob diese Oszillationen eine bestimmte Funktion erfüllen, ist bis heute Gegenstand kontroverser Diskussionen. Sie könnten lediglich ein Nebenprodukt neuronaler Wechselwirkungen sein. Sie könnten aber auch der Koordination und Taktung von Rechenoperationen dienen oder gar Grundlage eines Rechenprinzipes darstellen“, meint Singer.

Um die Frage nach der Funktion der Oszillationen im Gehirn zu beantworten, hat das Team um Effenberger und Singer ein Modell entwickelt, das von Netzwerken inspiriert wurde, wie sie in der menschlichen Großhirnrinde verwirklicht sind. Das Besondere an diesem Ansatz ist, dass die Forscher die Knoten des in einem Computerexperiment simulierten Netzwerkes so auslegten, dass deren Fähigkeit zu schwingen, also rhythmisch zu antworten, kontrolliert werden konnte. Durch Kontrolle der individuellen Erregbarkeit, Eigenfrequenz und Dämpfung ließen sich die Oszillationen der Knoten und des Netzwerks gezielt steuern.

Neuartiges Rechenprinzip

Die Verarbeitung erfolgt nicht punktuell und seriell, sondern verteilt und ganzheitlich – vergleichbar mit Überlagerungsmustern von Wellen auf einer Wasseroberfläche.
Wolf Singer

Die Forschenden tauften ihre schwingenden Netzwerke „HORNs“, was für „Harmonisch Oszillierende Rekurrente Netzwerke“ steht. Zur ihrer Überraschung stellte sich heraus, dass diese Netzwerke nicht-oszillierenden neuronalen Netzen in jeder Hinsicht überlegen sind: Sie lernen schneller, tolerieren Rauschen besser und benötigen erheblich weniger Parameter bei vergleichbarer Leistung. Effenberger: „Mit den oszillierenden Netzwerken ist es uns gelungen, die Leistungsfähigkeit eines neuronalen Netzes extrem zu steigern. Sie können ein neuartiges Rechenprinzip verwirklichen, das auf Wellen und deren Interferenz basiert.“

Die oszillierenden Netze wandeln beliebige eingehende Signale in oszillierende Aktivitätsmuster um. Diese breiten sich wie Wellen über das gesamte Netzwerk aus, überlagern sich, interferieren und erzeugen dadurch komplexe Muster, in denen Information kodiert werden kann. „Die Verarbeitung erfolgt nicht punktuell und seriell, sondern verteilt und ganzheitlich – vergleichbar mit Überlagerungsmustern von Wellen auf einer Wasseroberfläche“, erklärt Singer. Die Interferenzmuster entwickeln sich über die Zeit, nutzen Resonanzphänomene und bilden dynamische Muster aus. In diesen überlagern sich Eingangssignale mit erfahrungsbedingtem Wissen, das in der Architektur des lernfähigen Netzwerkes gespeichert ist. In oszillierenden Netzwerken sind Rechenwerk und Speicher zudem nicht getrennt, sondern identisch.

Leistungsfähiger als nicht-oszillierende Netze

Die in harmonisch oszillierenden rekurrenten Netzwerken entstehenden Wellenmuster erlauben somit eine neuartige Art der Informationsverarbeitung. Durch die Phasenlage, die Frequenz und Amplitude der Wellen können die Wellenmuster Information kodieren, speichern und transportieren. Da sie eine Fülle experimentell bestätigter Eigenschaften der Großhirnrinde reproduzieren, vermuten die Frankfurter Forschenden, dass das in den oszillierenden Netzwerken verwirklichte Rechenprinzip auch von seinem natürlichen Vorbild genutzt wird. Um die Leistungsfähigkeit der schwingenden Netze mit herkömmlichen Systemen zu vergleichen, haben die Frankfurter Forschenden ihre Netzwerke darauf trainiert, handgeschriebene Zahlen und gesprochene Worte zu erkennen. Dabei zeigte sich, dass schon kleine Netze erstaunlich schnell lernen und auch mit stark verrauschten Daten besser zurechtkommen als nicht-oszillierende Netze.

Effenberger und sein Team verknüpfen also die Grundlagen des maschinellen Lernens und der Neurowissenschaften miteinander – ein Ansatz, der als „NeuroKI“ bezeichnet wird. Die mit den oszillierenden Netzwerken gewonnenen Erkenntnisse fließen auf diese Weise in die Hirnforschung zurück. Sie konnten Fragen beantworten, die in Fachkreisen seit Langem diskutiert werden, weil es die Simulationen erlaubten, Mechanismen aufzudecken, die experimentell nur schwer zu beweisen sind.

Sind Oszillationen die Lösung für das Bindungsproblem?

Ein Beispiel ist das von Wolf Singer untersuchte Bindungsproblem. Dieses beschreibt das Problem, beim Betrachten einer komplexen Szene herausfinden zu müssen, welche von den vielen sich überlappenden Konturen, Farben und Texturen zu einem bestimmten Objekt oder dem Hintergrund gehören. Das gleiche Problem entsteht, wenn Merkmale wie Gestalt, Geruch und Geräusche mit einem bestimmten Objekt verbunden werden müssen, obgleich diese Eigenschaften in unterschiedlichen, anatomisch getrennten Hirnregionen verarbeitet werden. Durch die Synchronisation von Nervenzellverbänden, so die Theorie, kann eindeutig definiert werden, welche Gruppen, sogenannte Ensembles, sich gerade an der Repräsentation eines bestimmten Objektes beteiligen.

Die Hypothese beruht auf experimentellen Befunden aus Singers Labor: Die Antworten oszillierender Nervenzellen werden synchronisiert, wenn diese von Konturen des gleichen Objektes erregt werden. In Experimenten zweifelsfrei bewiesen wurde die Theorie bislang jedoch nicht, denn Oszillationen können nicht isoliert manipuliert werden, ohne andere Prozesse zu stören. Doch mit den oszillierenden Netzwerken der Frankfurter Forschenden ließen sich die experimentellen Beobachtungen reproduzieren und die Voraussagen der Hypothese bestätigen.

Außerdem zeigten Analysen, dass die Leistungsfähigkeit der oszillierenden Netzwerke noch weiter gesteigert werden konnte, wenn sie mit weiteren, von der Natur inspirierten Eigenschaften ausgestattet wurden. Netzwerke, deren Knoten mit unterschiedlichen Frequenzen und Dämpfungen schwingen und mit zeitlicher Verzögerung gekoppelt sind, lernen wesentlich schneller als solche, in denen jeder Knoten identisch ist. Genau solche Eigenschaften finden sich auch in natürlichen Systemen, aber ihre Bedeutung blieb bisher unklar. „All diese Übereinstimmungen überzeugen mich davon, dass unsere Netzwerke nach denselben Prinzipien arbeiten wie natürliche Systeme und dass die Rechenoperationen weit komplexer sind als in nicht-oszillierenden Netzwerken“, sagt Effenberger.

Neue Hardware für KI

Wenn Oszillationen, Wellen und Interferenzmuster für die Informationsverarbeitung verwendet werden, dann beginnt KI wirklich intelligent zu werden.
Felix Effenberger

Bevor oszillierende rekurrente Netzwerke in energieeffiziente KI-Systeme eingebaut werden können, muss allerdings erst ein Hindernis aus dem Weg geräumt werden. Auf den bestehenden digitalen Chips ist die Simulation solcher Netzwerke ineffizient und aufwendig: Für jeden Schritt muss der Zustand des Netzwerks neu geladen, verarbeitet und zurückgeschrieben werden – ein typisches Merkmal der digitalen Von-Neumann-Architektur. Die eigentliche Stärke der Netzwerke entfaltet sich daher erst, wenn die Dynamik eines physikalischen Systems selbst zur Berechnung genutzt werden kann. „Wir wollen deshalb neue KI-Hardware konstruieren, die nicht mit digitalen Variablen, also 0 und 1, arbeitet, sondern mit kontinuierlichen analogen Werten, ähnlich wie alte Plattenspieler oder Radios. In diesen Chips sollen gekoppelte elektronische oder optische Oszillatoren die Rechenarbeit übernehmen – also kein serielles Abarbeiten von digitalen Rechenschritten, sondern kontinuierliche analoge Informationsverarbeitung“, erklärt Effenberger. Solche Chips wären nicht nur besonders sparsam, sondern wahrscheinlich auch schneller und anpassungsfähiger als die digitalen. Und sie wären der erste Schritt zu einer künstlichen Intelligenz, die ähnlich funktioniert wie ihre biologischen Vorbilder.

Wie sich durch die Ergebnisse des Teams aus Frankfurt herausstellte, sind Oszillationen also mitnichten ausschließlich ein Nebenprodukt neuronaler Wechselwirkungen, sondern vielmehr die Grundlage eines fundamentalen Rechenprinzips. Eine neue Generation von KI-Systemen, die nicht auf die reine Vermehrung der Rechenleistung, sondern auf effizientere Verarbeitungsstrategien setzt, könnte von dieser Erkenntnis profitieren. „Wenn Oszillationen, Wellen und Interferenzmuster für die Informationsverarbeitung verwendet werden, dann beginnt KI wirklich intelligent zu werden“, so Effenberger.

Ihre Erkenntnisse wollen die Forschenden aus Frankfurt nun auch in konkrete Anwendungen einfließen lassen. Sie planen die Gründung eines Start-ups, das mit finanzieller Unterstützung aus privater und öffentlicher Hand Computerchips entwickeln möchte, die auf dem Rechnen mit Oszillationen basieren. Vielleicht liegt der nächste Paradigmenwechsel in der KI also nicht in immer größeren Modellen mit mehr Rechenleistung, sondern in kleineren, dynamischen Systemen, deren Effizienz von der Evolution längst erprobt ist.

Weitere interessante Beiträge

Zur Redakteursansicht
OSZAR »