Softmax & Temperatur
Passe Logits und Temperatur an und sieh, wie Softmax die Rohwerte in Wahrscheinlichkeiten umwandelt – und wie Temperatur das Sampling steuert.
Szenario
Kontext: Vervollständige: "The ___ barks"
Temperatur
Wahrscheinlichkeit
Formel
softmax(x_i, T) =
exp(x_i / T)
─────────────
Σ_j exp(x_j / T)
x_i = Logit des Tokens i
T = Temperatur
T=1 → Standard Softmax
Schritt-für-Schritt-Berechnung
| Token | Logit | Logit / T (÷ 1.0) | exp(Logit / T) | Wahrscheinlichkeit |
|---|---|---|---|---|
| “dog” | 8.5 | 8.500 | 1.000 | 98.3 % |
| “wolf” | 4.2 | 4.200 | 0.014 | 1.3 % |
| “bear” | 2.1 | 2.100 | 0.002 | 0.2 % |
| “fox” | 1.8 | 1.800 | 0.001 | 0.1 % |
| “lion” | 1.2 | 1.200 | 0.001 | 0.1 % |
Konzepte
Was ist Softmax?
Softmax wandelt beliebige reelle Zahlen (Logits) in eine Wahrscheinlichkeitsverteilung um – alle Werte liegen zwischen 0 und 1 und summieren sich auf genau 1. Höhere Logits bekommen mehr Wahrscheinlichkeit, aber dank der Exponentialfunktion ist der Effekt nicht linear.
Was ist Temperatur?
Temperatur ist ein Skalierungsfaktor, der die Logits vor dem Softmax teilt: x_i / T. Bei T=1 ist es Standard-Softmax. Bei T<1 werden Unterschiede vergrößert, bei T>1 verkleinert. Der Name kommt aus der Thermodynamik – höhere Temperatur = mehr zufällige Energie.
T → 0: Greedy Decoding
Je kleiner T, desto mehr dominiert das wahrscheinlichste Token. Bei T→0 bekommt der Top-Token fast 100 % – das Modell wählt immer den 'sichersten' nächsten Token. Das Ergebnis ist deterministisch, aber oft repetitiv und langweilig.
T > 1: Kreative Ausgabe
Hohe Temperaturen glätten die Verteilung – unwahrscheinliche Tokens bekommen eine faire Chance. Das macht die Ausgabe kreativer und überraschender, aber auch fehleranfälliger. Bei T=2 nähern sich alle Wahrscheinlichkeiten dem Gleichgewicht. ChatGPT nutzt standardmäßig T≈0.7.