Gradient Descent
Wähle eine Verlustfunktion, klicke ins Diagramm für den Startpunkt und beobachte, wie Lernrate und Momentum den Optimierungspfad beeinflussen.
Verlustfunktion
Klicke ins Diagramm, um den Startpunkt zu setzen. ✕ = globales Minimum.
Geschwindigkeit
Update-Regel
Gradient Descent:
w := w − α · ∇L(w)
w = Parameter (Gewicht)
α = Lernrate (learning rate)
∇L = Gradient der Verlustfunktion
Mit Momentum (β):
v := β·v − α · ∇L(w)
w := w + v
v = Geschwindigkeit (velocity)
β = Momentum-Faktor
β=0 → Standard GD
Konzepte
Was ist eine Verlustfunktion?
Die Verlustfunktion (Loss) misst, wie falsch das Modell liegt. Das Ziel des Trainings ist es, diesen Wert zu minimieren. In 2D wird sie als Landschaft dargestellt: Täler = niedriger Loss, Gipfel = hoher Loss.
Was ist der Gradient?
Der Gradient ∇L ist ein Vektor, der in die Richtung des steilsten Anstiegs zeigt. Gradient Descent geht in die entgegengesetzte Richtung – bergab. Der orangene Pfeil im Diagramm zeigt die Abstiegsrichtung.
Was macht die Lernrate?
Die Lernrate α bestimmt die Schrittgröße. Zu klein: sehr langsame Konvergenz. Zu groß: der Algorithmus springt über das Minimum hinaus und divergiert. Bei der länglichen Schüssel siehst du diesen Effekt deutlich.
Was ist Momentum?
Momentum speichert die 'Richtung' der letzten Schritte und setzt sie fort – wie eine rollende Kugel. Das hilft, flache Regionen schneller zu durchqueren und in engen Tälern (z. B. Rosenbrock) stabiler zu bleiben. Moderne Optimizer wie Adam nutzen Momentum.