Gollnick Data Solutions LogoGollnick Data
Zurück zur Übersicht

Softmax & Temperatur

Passe Logits und Temperatur an und sieh, wie Softmax die Rohwerte in Wahrscheinlichkeiten umwandelt – und wie Temperatur das Sampling steuert.

Szenario

Kontext: Vervollständige: "The ___ barks"

Temperatur

deterministischT = 1.0kreativ / zufällig
0.11.02.0
Schnellwahl:

Wahrscheinlichkeit

dog
98.3 %
Logit8.5
wolf
1.3 %
Logit4.2
bear
0.2 %
Logit2.1
fox
0.1 %
Logit1.8
lion
0.1 %
Logit1.2

Formel

softmax(x_i, T) =

exp(x_i / T)

─────────────

Σ_j exp(x_j / T)

x_i = Logit des Tokens i

T = Temperatur

T=1 → Standard Softmax

Schritt-für-Schritt-Berechnung

TokenLogitLogit / T (÷ 1.0)exp(Logit / T)Wahrscheinlichkeit
dog8.58.5001.00098.3 %
wolf4.24.2000.0141.3 %
bear2.12.1000.0020.2 %
fox1.81.8000.0010.1 %
lion1.21.2000.0010.1 %

Konzepte

σ

Was ist Softmax?

Softmax wandelt beliebige reelle Zahlen (Logits) in eine Wahrscheinlichkeitsverteilung um – alle Werte liegen zwischen 0 und 1 und summieren sich auf genau 1. Höhere Logits bekommen mehr Wahrscheinlichkeit, aber dank der Exponentialfunktion ist der Effekt nicht linear.

T

Was ist Temperatur?

Temperatur ist ein Skalierungsfaktor, der die Logits vor dem Softmax teilt: x_i / T. Bei T=1 ist es Standard-Softmax. Bei T<1 werden Unterschiede vergrößert, bei T>1 verkleinert. Der Name kommt aus der Thermodynamik – höhere Temperatur = mehr zufällige Energie.

→0

T → 0: Greedy Decoding

Je kleiner T, desto mehr dominiert das wahrscheinlichste Token. Bei T→0 bekommt der Top-Token fast 100 % – das Modell wählt immer den 'sichersten' nächsten Token. Das Ergebnis ist deterministisch, aber oft repetitiv und langweilig.

>1

T > 1: Kreative Ausgabe

Hohe Temperaturen glätten die Verteilung – unwahrscheinliche Tokens bekommen eine faire Chance. Das macht die Ausgabe kreativer und überraschender, aber auch fehleranfälliger. Bei T=2 nähern sich alle Wahrscheinlichkeiten dem Gleichgewicht. ChatGPT nutzt standardmäßig T≈0.7.