Gradient Descent

Wähle eine Verlustfunktion, klicke ins Diagramm für den Startpunkt und beobachte, wie Lernrate und Momentum den Optimierungspfad beeinflussen.

Verlustfunktion

Klicke ins Diagramm, um den Startpunkt zu setzen. ✕ = globales Minimum.

0Schritte

10.2500Loss

6.4031|∇L|

Lernrateα = 0.1000

0.00010.5

Momentumβ = 0.00

0 (kein)0.99

Geschwindigkeit

Update-Regel

Gradient Descent:

w := w − α · ∇L(w)

w = Parameter (Gewicht)

α = Lernrate (learning rate)

∇L = Gradient der Verlustfunktion

Mit Momentum (β):

v := β·v − α · ∇L(w)

w := w + v

v = Geschwindigkeit (velocity)

β = Momentum-Faktor

β=0 → Standard GD

Konzepte

Was ist eine Verlustfunktion?

Die Verlustfunktion (Loss) misst, wie falsch das Modell liegt. Das Ziel des Trainings ist es, diesen Wert zu minimieren. In 2D wird sie als Landschaft dargestellt: Täler = niedriger Loss, Gipfel = hoher Loss.

∇

Was ist der Gradient?

Der Gradient ∇L ist ein Vektor, der in die Richtung des steilsten Anstiegs zeigt. Gradient Descent geht in die entgegengesetzte Richtung – bergab. Der orangene Pfeil im Diagramm zeigt die Abstiegsrichtung.

Was macht die Lernrate?

Die Lernrate α bestimmt die Schrittgröße. Zu klein: sehr langsame Konvergenz. Zu groß: der Algorithmus springt über das Minimum hinaus und divergiert. Bei der länglichen Schüssel siehst du diesen Effekt deutlich.

Was ist Momentum?

Momentum speichert die 'Richtung' der letzten Schritte und setzt sie fort – wie eine rollende Kugel. Das hilft, flache Regionen schneller zu durchqueren und in engen Tälern (z. B. Rosenbrock) stabiler zu bleiben. Moderne Optimizer wie Adam nutzen Momentum.