Immer noch sprechen die meisten Autoren im Zusammenhang mit dem autonomen Fahren von Künstlicher Intelligenz. So wie im Beispiel des autonomen Fahrens wird KI heruntergebrochen als ein intelligentes System, insofern es lernfähig ist wie vorher unser Beispiel einer naiven Welterfahrung. Aber was passiert wirklich auf den Trainingsparcours selbstfahrender Autos? Indem das System Auto fahren lernt, lernt es sich an vorgegebene Regeln des Verkehrs und an möglichst viele Verkehrssituationen in einem Schema von Input und Output anzupassen. Naive Welterfahrung kann man durchaus so beschreiben, aber auf dem Trainingsparcours passiert doch noch etwas mehr. Denn alle Daten werden verarbeitet auf der Grundlage einer illusionierten, einer virtuellen Realität, unseren Minkowski-Raum. Hier werden nicht nur Daten erfasst und auf einfache mathematische Weise berechnet, sondern sie werden in dieser Berechnung stets angepasst an mathematische Größen, solange, bis deren optimale Anpassung erreicht wird. Optimierung findet also statt und nicht einfache Anpassung und eben diese neue optimierte Größe ist nun das Maß bzw. die Größe, die für den nächsten Lernschritt des Systems die Grundlage weiterer iterativer Extensionen bildet. Da eine mathematische Größe in ihren Extensionen nicht limitiert ist, kann also die Optimierung ein fast unendlicher Prozess der Iteration werden. Und noch ein weiteres passiert auf dem Trainingsparcours, jede optimierte Berechnung stellt nun eine ideelle Größe dar, die über den Weg der verteilten Anwendung in die Fahrzeuge zurückfindet. Wir sehen, diese ideelle Größe darf nun nicht Teil des Trainingsparcours selbst sein, denn dann wäre sie wie ein selbstfahrendes Auto die Ursache für ein anderes selbstfahrendes Auto und nichts geschähe mehr in einer gleichzeitigen Lernsystematik, würde doch so ein Auto von einem anderen lernen und diese Größe wäre Maß für alle anderen.
Maschinelles Lernen setzt also eine prinzipiell unendliche Extension aller Kriterien innerhalb von Regeln, aller Messgrößen von Sensoren innerhalb einer räumlichen und zeitlichen Extension usw., also eine ideelle Aufzeichnungs- und Verarbeitungsfläche von Daten voraus, gleichsam einen leeren Verkehrsraum, in dem alle Objekte in rein virtueller, sprich maschineller Beziehung zueinander stehen, und diesen virtuellen Raum haben wir die Cloud genannt, in der die Rechenleistungen stattfinden. Die Cloud kann also nicht Teil des Verkehrs sein, es sei denn, jedes Fahrzeug wäre selbst eine Cloud und interagierte mit allen anderen Clouds in Realtime. Das versucht die Blockchain Technologie. Aber bleiben wir vorerst noch im aktuellen Set des maschinellen Lernens. Ein ideeller oder virtueller Raum ist bis hierhin gedacht eine Voraussetzung für maschinelles Lernen bis hin zu dem, was man heute als Deep Learning auch kennt. Deep Learning ist wie eben gezeigt, ein optimiertes naives Lernen, also auch eine Form eines selbstlernenden, scheinbar autonomen Systems, welches die Berechnung, Aufzeichnung und erweitere Berechnung in Schleifen optimiert. Die Optimierungen sind immer präziser werdende mathematische Berechnungen in einem vektoriellen Raum, wobei die physikalischen wie z.B. Beschleunigung in mathematische Größen (Berechnungen) transformiert werden und mit räumlichen Größen (Vektoren) weiterberechnet und dargestellt (aufgezeichnet) werden. Ein selbstfahrendes Auto ‚sieht‘ also nicht einfach eine Ampel, berechnet also ein farbiges Objekt an einer bestimmten Stelle, sondern sieht es gewissermaßen im Raum und interpretiert alle Angaben in diesem Raum, wie etwa ein stehendes Fahrzeug gegenüber, ein anfahrendes an einer anderen, etwa auf Gelb wechselnden Ampel mit den eigenen Geo- und Verkehrsdaten und bleibt stehen.
Deep Learning ist, bezogen auf unsere Verkehrssituation also ein optimierender Abgleich von zweidimensionalen Daten, die zu Vektoren extendieren, also in einem dreidimensionalen Raum als Richtungsgrößen berechnet werden. Ein selbstfahrendes Auto fährt also gewissermaßen auf Linien bzw. Kurven durch einen „leeren Raum“, in dem alle anderen Informationen resp. Daten nun in einer Beziehung zueinander stehen als grafische Abstraktionen räumlicher Bewegungen, die ein Cluster mathematischer Größen bilden. Jedes Fahrzeug bildet durch die vernetzten Bordcomputer mit einer Cloud und anderen Bordcomputern, die in direktem Austausch miteinander stehen, ein weiteres Cluster, einen Rechnerverbund, der zusammen eine virtuelle Welt von zweidimensionalen Bewegungen, Extensionen, in einen virtuellen Raum aufzeichnet – und das alles ähnlich wie ein modernes Computerspiel funktioniert. Nur die Rechnerleistung stand bislang noch gegen eine permanente dreidimensionale Bildschirmdarstellung aller Umfeld-Verkehrsinformationen in den Navigationssystemen der einzelnen Verkehrsteilnehmer heute. Infinitesimalrechnung und ihr räumliches Pendant, die Integralrechnung zusammen ergeben also mit Vektorrechnung für Richtung und Orientierung, was Deep Learning vom reinen, maschinellen Lernen unterscheidet; viel Intelligenz ist das noch nicht. Aber es rechnet schnell. Und es lernt schnell.
Würde man menschliche mit künstlicher bzw. maschineller Intelligenz vergleichen, was man tunlichst vermeiden sollte, um nicht erneut aus einem komplementären ein relationales Verhältnis zu machen, dann ist selbst die Geschwindigkeit der Rechenoperationen bezogen auf die „Vorhersage“ eines kommenden Ereignisses im Straßenverkehr verglichen mit der eines durchschnittlichen menschlichen Verkehrsteilnehmers lausig schlecht. Aber nicht die „Denkgeschwindigkeiten“ sind das Maß aller Dinge, selbst für Mathematiker nicht. Aber belassen wir es bei den Unterschieden zwischen Mensch und Maschine. Was wir aber eben genau darin erkennen können ist, dass vieles z.B., was wir Menschen wenig bis schlecht bzw. nur mühsam verstehen, damit zusammenhängt, dass wir eine Abfolge physikalischer Ereignisse wie den (Schatten)-Lauf der Sonne uns „grafisch“ oder bildlich nicht oder kaum vorstellen konnten und uns auch die Sprache dabei mehr schlecht als recht geholfen hat; wir kommen auf den Zusammenhang von Logos (griech. legein) und Sein zurück.
Was Deep Learning (DL) auszeichnet, ist nun zusammengefasst, eine Transformation physikalischer Ereignisse in mathematische Größen-Cluster. Aber diese Cluster haben noch eine andere Funktion, die spezifisch ist für alle Formen der KI. Dadurch, dass die eigentliche Rechnerleistung an einem virtuellen Ort stattfindet, der alle Daten aufnimmt, verarbeitet und wieder zurücksendet, um mit den Zwischenergebnissen weitere Optimierungsschritte zu berechnen und dadurch, dass diese wiederum an die vernetzten Cluster übergeben werden (usw.) sich Skaleneffekte auf bauen. Skalierungen basieren auf dynamisch systematisierten Vergleichen von Daten (Iterationen), die ohne zusätzliche Ressourcen gleichsam aus einem inneren Wachstum (Optimierung) heraus für viele Nutzer oder Anwendungen eingesetzt (verteilt) werden können. Wir sprechen nicht von „Schwarmintelligenz“, weil das den tatsächlichen Zusammenhang meilenweit verfehlt. Deep Learning, das halten wir einmal fest, ist Scalable Learning. Skalierbares Lernen zeichnet sich also durch folgende Eigenschaften aus: je mehr Daten verarbeitet werden können, desto optimaler sind die Ergebnisse. Je optimaler die Ergebnisse, desto genauer sind deren grafische Extensionen und damit deren Vorhersagbarkeit. Um in einem iterativen Berechnungsprozess skalierbare Ergebnisse zu erzielen, muss es (bislang) einen zentralen Rechnerort außerhalb der Datencluster geben, eine Cloud, die sowohl die jeweils „letzten“ Daten verarbeitet und an alle vernetzten Rechencluster verteilt. Und schließlich muss die Skalierung, also das Verhältnis einer Ausgangsgröße zur nächst größeren Einheit am besten ohne oder mit nur gering größerem Ressourceneinsatz erreichbar sein; Ressourcen können wiederum sehr unterschiedliche Größen sein wie etwa Rechnerzeiten, finanzielle oder personelle Ressourcen, marktspezifische und regulatorische Anpassungen etc.
Deep Learning unterscheidet sich somit von einem naiven, maschinellen Lernen durch eine skalenspezifische Optimierbarkeit. Es macht ja wenig Sinn, zu skalieren um der Skalierbarkeit willen. Ist eine Aufgabe selbst approximativ zufriedenstellend gelöst, wird eine weitere Optimierung des Lösungsweges am Ergebnis so wenig ändern, dass der Aufwand also nicht lohnt. Mehr Input führt nicht zu mehr Output, jedenfalls nicht nach qualitativen Maßstäben.
Im Terminus Scalable Learning sind dem gegenüber eines naiven, maschinellen Lernens zwei Seiten ein- und desselben Prozesses von Bedeutung, einmal große Datenmengen, wobei groß nicht definiert ist, und zum zweiten ein nicht-definiertes Lernziel bzw. Rechenergebnis. Man kann durchaus die Einteilung festhalten, wonach Deep Learning ein Teilgebiet des maschinellen Lernens ist, allein, gewonnen ist damit nicht viel. Zu sehr doch wiegen die Unterschiede. Der wesentliche Unterschied besteht darin, dass beim maschinellen Lernen stets der Mensch die Art und Weise, wie Daten analysiert werden sollen, bestimmt, also zwischen Input und Output ein vorgegebener Rechenprozess stattfindet, der sich einem gewünschten, also einem definierten Lernziel bzw. einem gewünschten Ergebnis annähert, dem möglichst nahe kommt. Auch die Auswahl der Ausgangsdaten ist vorgegeben, selektiert nach für das Ergebnis sinnvollen Einheiten. Technisch formuliert besteht ein nicht lernendes Programm aus einem objektorientierten oder prozessualen Algorithmus, der bestimmte Eingaben annimmt und entsprechend des Algorithmus deduktiv Ausgaben erzeugt. Greift der Mensch beim maschinellen Lernen in die Analyse der Daten ein, so sorgt er beim Deep Learning lediglich dafür, dass die Daten verfügbar sind und die Analyseprozesse dokumentiert sind. Deep Learning nennt man ein Verfahren, das Maschinen zu lernenden Maschinen macht, also keine Steuerungsmechanismen wie etwa die Steuerung von Roboterarmen in der industriellen Produktion. Das Verfahren kann nicht durch Input-Output beschrieben werden, da DL Maschinen dazu in die Lage versetzt, ohne menschliche Eingriffe, also maschinell-autonom, mechanische und elektronische Fähigkeiten zu entwickeln und diese selbstständig zu verbessern.
Ein Algorithmus zur Risikobewertung von Bankkunden z.B. hat Kriterien identifiziert, die in Hamburg und Berlin trennscharf bis auf fast den letzten Kunden die guten von den schlechten Kunden unterscheiden und schlechte Schuldner herausfiltern kann. Man stellt möglicherweise jedoch fest, dass sie in München auch Kunden ausschließen, mit denen ein gutes Geschäft zu machen wäre, do dort dieselben Kriterien in anderen Extensionen andere Bedeutung haben. Diese Problematik, die eine generelle Problematik ist, sowohl beim maschinellen wie beim Deep Learning, wird Überanpassung genannt, da alle naive menschliche Intelligenz sich dadurch auszeichnet, dass sie gewissermaßen mit einfachen Kriterien die Welt auslegt. Einfach dabei ist, dass die Kriterien dem unmittelbaren Eindruck, der bloß sinnlichen Erfahrung folgen und das, was ist, als eine Art des Soseins begreift, also mit sichtbaren oder von einer Allgemeinheit bestätigten vorstellbaren Eigenschaften arbeitet; das sind Klischees und Vorurteile, die in bestimmten Milieus oder Berufsgruppen nicht selten vorkommen.
Alle naive Intelligenz arbeitet mit der Einbettung von sinnlichen Wahrnehmungen, Ereignissen und verschiedensten Themen in ein bestimmtes Deutungsraster, den heute sogenannten Frames. Komplexe Inhalte und Informationen werden durch Frames, durch vorab bestehende Deutungsmuster selektiert und strukturiert aufbereitet, sodass eine bestimmte Problemdefinition, Ursachenzuschreibung, moralische Bewertung und/oder Handlungsempfehlung in dem jeweiligen Deutungsmuster überbetont wird; wir kennen das aus der aktuellen Diskussion um das „social profiling“ im Polizeialltag im Zusammenhang mit Rassismus und Antisemitismus etc.; selbst bei der Vorbereitung bzw. Auswahl von Daten für die Programmierung von Algorithmen hat man jüngst eine ganze Reihe von sozialen Selektionen nach Geschlecht und Rasse gefunden . Framing bezeichnet eine Zuschreibung (in einen Rahmen setzen) von Eigenschaften, etwa eines Menschen für den ganzen Menschen oder Gruppen von Menschen. Dem Ausdruck Framing steht der Ausdruck Deframing gegenüber. Überangepasstheit ist somit eine Form des Framings, eine Form des „pars pro toto“, die grundsätzlich in der Datenverarbeitung, aber auch bereits bei der Datenbereitstellung vorkommen kann. Ohne nun an dieser Stelle weiter auf die unterschiedlichen Framing-Theorien einzugehen, behalten wir dies im Hinterkopf, auch wenn wir über DL sprechen. Der Idealfall beim DL ist, wenn sehr große Datenmengen verarbeitet werden, weil dann bei der Datenauswahl keine Framing-Effekte auftreten, zumindest die Wahrscheinlichkeit sehr gering ist.