Softmax & Temperatur

Passe Logits und Temperatur an und sieh, wie Softmax die Rohwerte in Wahrscheinlichkeiten umwandelt – und wie Temperatur das Sampling steuert.

Szenario

Kontext: Vervollständige: "The ___ barks"

Temperatur

deterministischT = 1.0kreativ / zufällig

0.11.02.0

Schnellwahl:

Wahrscheinlichkeit

“dog”

98.3 %

Logit8.5

“wolf”

1.3 %

Logit4.2

“bear”

0.2 %

Logit2.1

“fox”

0.1 %

Logit1.8

“lion”

0.1 %

Logit1.2

Formel

softmax(x_i, T) =

exp(x_i / T)

─────────────

Σ_j exp(x_j / T)

x_i = Logit des Tokens i

T = Temperatur

T=1 → Standard Softmax

Schritt-für-Schritt-Berechnung

Token	Logit	Logit / T (÷ 1.0)	exp(Logit / T)	Wahrscheinlichkeit
“dog”	8.5	8.500	1.000	98.3 %
“wolf”	4.2	4.200	0.014	1.3 %
“bear”	2.1	2.100	0.002	0.2 %
“fox”	1.8	1.800	0.001	0.1 %
“lion”	1.2	1.200	0.001	0.1 %

Konzepte

Was ist Softmax?

Softmax wandelt beliebige reelle Zahlen (Logits) in eine Wahrscheinlichkeitsverteilung um – alle Werte liegen zwischen 0 und 1 und summieren sich auf genau 1. Höhere Logits bekommen mehr Wahrscheinlichkeit, aber dank der Exponentialfunktion ist der Effekt nicht linear.

Was ist Temperatur?

Temperatur ist ein Skalierungsfaktor, der die Logits vor dem Softmax teilt: x_i / T. Bei T=1 ist es Standard-Softmax. Bei T<1 werden Unterschiede vergrößert, bei T>1 verkleinert. Der Name kommt aus der Thermodynamik – höhere Temperatur = mehr zufällige Energie.

→0

T → 0: Greedy Decoding

Je kleiner T, desto mehr dominiert das wahrscheinlichste Token. Bei T→0 bekommt der Top-Token fast 100 % – das Modell wählt immer den 'sichersten' nächsten Token. Das Ergebnis ist deterministisch, aber oft repetitiv und langweilig.

T > 1: Kreative Ausgabe

Hohe Temperaturen glätten die Verteilung – unwahrscheinliche Tokens bekommen eine faire Chance. Das macht die Ausgabe kreativer und überraschender, aber auch fehleranfälliger. Bei T=2 nähern sich alle Wahrscheinlichkeiten dem Gleichgewicht. ChatGPT nutzt standardmäßig T≈0.7.