Zur Entstehung der nun folgenden Musterklassen und Grafiken möchte
ich auf den Abschnitt 2.4 „Entstehung der 2D
Bilder“ verweisen. Um einen Vergleich von SOM und LVQ zu ermöglichen,
habe ich die selben Musterklassen mit der SOM klassifizieren lassen. Ich
habe die 4 Musterbeispiele mit einer zum LVQ ähnlichen Anzahl von
Neuronen klassifiziert. Ein gewähltes weiteres Trainingsbeispiel,
daß mit der SomGrafik dargestellt ist, soll ergänzend die Stärken
und Schwächen der SOM demonstrieren.
Im Unterschied zum LVQ kennt die SOM nur die Positionen der Eingabevektoren
im Musterraum. Der SOM sind die Klassenzugehörigkeiten der Eingabevektoren
zu Beginn des Trainings nicht bekannt. Man könnte das bei den 2D-Beispielen
mit einem Schwarzweißbild veranschaulichen. Zu Beginn des Trainings
sieht die SOM nur ein Schwarzweißbild. Am Ende des Trainings werden
der SOM ausgewählte Eingabevektoren und deren Klassenzugehörigkeit
„verraten“ (
----->
).
Die Kalibrierung der SOM wird in meinem Simulator folgendermaßen
durchgeführt:
Wie bekannt ist sind die Eingabevektoren der Trainingsdaten mit ihrer
Klassenzugehörigkeit gespeichert. Für jeden dieser Eingabevektoren
wird das Gewinnerneuron der SOM bestimmt. Für jedes Neuron wird klassenweise
die Anzahl der Gewinne gespeichert. Ein Neuron wird der Klasse zugeordnet,
bei der die Anzahl der Gewinne maximal ist.
Linear trennbare Klassen:
![]() |
![]() |
![]() |
| Beschreibung der Musterklassen s. Abb. 2.13: Zwei kompakte Klassen mit gleichem Stichprobenumfang (5878 Eingabevektoren je Klasse);großer Abstand zwischen den Klassengrenzen der beiden Teilgebiete; innerhalb der Teilgebiete sind die Eingabevektoren gleichmäßig verteilt |
Einstellung des SOM-Simulators:
für Abb. 3.9:
4 Neuronen (2x2); Lernschrittweite 0.5; 100 Epochen
für Abb. 3.10/3.11: 36 Neuronen (6x6); Lernschrittweite
0.5; 100 Epochen
Verhalten des SOM-Algorithmus:
Für Abb. 3.9: Der SOM-Algorithmus kann die zwei kompakten
Klassen
mit vier Neuronen problemlos trennen. Die Neuronen werden in das Zentrum
einer Ballung von Eingabevektoren gezogen. Die großen Abstände
der Klassengrenzen ermöglichen die eindeutige Kalibrierung der SOM.
Für Abb. 3.10/3.11: Die Verwendung von vielen Neuronen
führt dazu, daß die
Neuronen gleichmäßig in den Ballungsräumen verteilt
werden. Ein geringer Teil der Neuronen kann sich anfangs nicht für
ein Ballungsgebiet entscheiden. Durch die rasante Senkung der Lernschrittweite
und des Nachbarschaftsradius werden die Neuronen zwischen den Ballungsgebieten
zu „Dead Neurons“.
Linear trennbare Klassen:
![]() |
![]() |
![]() |
| Beschreibung der Musterklassen s.
Abb. 2.15: Zwei kompakte Klassen;
geringer Abstand zwischen den Klassengrenzen der einzelnen Teilgebiete; die rote Klasse hat 2 kompakte Teilgebiete; ungleicher Stichprobenumfang (1554 Eingabevektoren der roten Klasse und 12863 Eingabevektoren der blaue Klasse). |
Verhalten des SOM-Algorithmus:
Für Abb. 3.12: Die wenigen Neuronen werden in den Ballungsräumen
der Eingabevektoren gleichmäßig verteilt. Dies führt zur
ungünstigen Aufteilung der Gewichte. Die SOM liefert in diesem Fall
ein schlechtes Ergebnis. Der Ausweg ist die Verwendung einer größeren
SOM.
Für Abb. 3.13/3.14: Die Verwendung einer großen Anzahl
von Gewichten führt zu einer deutlich besseren Klassifikationsrate.
An den Klassengrenzen wird jedoch auffällig falsch klassifiziert.
Das ist auf die geringen Abstände zwischen den Klassengrenzen zurückzuführen.
Nur die Erhöhung der Neuronenzahl kann zu einem besseren Ergebnis
führen.
Die fehlenden Klasseninformationen während des Trainings verursachen
eine scheinbare Klasseneinheit der roten und blauen Eingabevektoren. Der
LVQ-Algorithmus hat in einem solchen Fall deutlich bessere Ergebnisse,
da ihm mehr Informationen zur Verfügung stehen. Diese bessere
Informationsversorgung kann sich aber auch ungünstig auswirken. Der
Abschnitt 2.5 (Abb. 2.21) beschreibt
diesen Fall.
Nicht linear trennbare Klassen:
![]() |
![]() |
![]() |
| Beschreibung der Musterklassen s. Abb. 2.18: 2 kompakte Klassen mit ungleichem Stichprobenumfang (732 Eingabevektoren der roten Klasse und 7243 Eingabevektoren der blaue Klasse); die rote Klasse wird vollständig von der blauen Klasse umschlossen; die Abstände zwischen den Klassengrenzen ist relativ groß. |
Verhalten des SOM-Algorithmus:
Für Abb. 3.15: Die Musterklassen können nicht
getrennt werden, da zu wenige Neuronen zur Verfügung stehen. Die Abbildung
zeigt, daß die Neuronen gleichmäßig auf die Eingabevektoren
verteilt werden.
Für Abb. 3.16/3.17: Durch die höhere Anzahl von Neuronen
kann das Problem einwandfrei gelöst werden. In dieser Abbildung ist
die Stärke der SOM zu finden. Der Algorithmus sucht selbständig
die günstigste Aufteilung und Lage der Gewichte, um die Musterklassen
zu trennen. Im zweidimensionalen Raum erscheint die Aufteilung der Neuronen
trivial. Eine sinnvolle Lage kann man sich im vier- und höherdimensionalen
Musterraum nicht mehr vorstellen. Doch für den SOM-Algorithmus spielt
die Anzahl der Dimensionen keine Rolle.
![]() |
![]() |
![]() |
| Beschreibung der Musterklassen s. Abb. 2.21: Drei verrauschte Klassen mit etwa gleichem Stichprobenumfang (6140 Eingabevektoren der roten Klasse, 6095 Eingabevektoren der grünen und 5904 der blaue Klasse); die Klassen gehen ineinander über; es sind schwache Ballungsgebiete der einzelnen Klassen ausgeprägt |
Verhalten des SOM-Algorithmus:
Für Abb. 3.18: Mit vier Neuronen kann die SOM ein günstiges
Ergebnis erzielen. Die blaue Klasse kann mit den wenigen Neuronen noch
nicht berücksichtigt werden, da diese Klasse die kleinsten Ballungsgebiete
hat. Der Ausweg ist, eine höhere Anzahl von Neuronen zu verwenden.
Für Abb. 3.19/3.20: Eine der wesentlichen Stärken
der SOM kann aus diesem 2D-Beispiel abgeleitet werden. Der SOM-Algorithmus
teilt alle Neuronen während des Trainings gleichmäßig auf
die Ballungsgebiete der Eingabevektoren auf. Durch die Kalibrierung der
Karte wird die Klassenzugehörigkeit der Neuronen ermittelt („Verfahren
ohne Vorurteile“). Somit können die Neuronen nicht divergieren.
Der LVQ-Algorithmus hat bei dieser Musterklasse große Probleme,
die ich im Abschnitt 2.5 beschrieben
habe.
Resümee /4/
Der SOM-Algorithmus ist wie der LVQ ein robuster Algorithmus. Der SOM-Algorithmus findet automatisch die Bereiche im Eingaberaum, wo die Eingabevektoren signifikant viele Ausprägungen haben. Die räumliche Lage eines Neurons im Gewichtsraum korrespondiert mit einem Teilbereich des Eingaberaums. Ähnliche Muster werden durch topologisch benachbarte Neuronen repräsentiert. Diese Eigenschaft ist eine unmittelbare Folge der Nachbarschaftsfunktion in der Lernregel. Regionen des Eingaberaums mit hoher Verteilungsdichte werden auf größere Bereiche der SOM abgebildet. Regionen mit geringerer Verteilungsdichte werden schlechter quantisiert. Es besteht eine leichte Tendenz zur Überpräsentation dieser Regionen. An den Rändern der SOM ist die Nachbarschaftsbeziehung eingeschränkt, dadurch kann sich die Karte an den Rändern schlechter entfalten. Der Einfluß der Anzahl der Epochen sowie der Startwert der Lernschrittweite spielt keine so maßgebliche Rolle auf das Lernergebnis. Im Gegensatz zum LVQ ist die Initialisierung der Karte unkritisch.