Transformer Attention

Wähle einen Satz und einen Attention Head. Klicke auf ein Token und lies ab, worauf es 'achtet' – und warum.

Satz

Attention Head

Attention-Matrix

Klicke auf eine Zeile oder einen Token, um die Berechnung zu sehen.

Von (Query) →	Die	Katze	saß	auf	der	Matte
Die	14	23	14	14	14	23
Katze	17	17	17	17	17	17
saß	17	17	17	17	17	17
auf	17	17	17	17	17	17
der	14	22	14	14	14	22
Matte	17	17	17	17	17	17
	← Nach (Key)

Formel

Attention(Q, K, V) =

softmax(Q Kᵀ / √d_k) · V

Q = X · W_Q (Query)

K = X · W_K (Key)

V = X · W_V (Value)

d_k = 4 (Dimension)

Was dieser Head lernt

Head 1 – Artikel → Nomen

W_Q aktiviert sich für Artikel (Dim. 0), W_K für Nomen (Dim. 1). Artikel-Queries passen auf Nomen-Keys – deshalb zeigen die und der auf ihre Nomen.

W_Q

Art

Nom

Ver

Prä

W_K

Art

Nom

Ver

Prä

Konzepte

Was ist Attention?

Attention erlaubt einem Modell, beim Verarbeiten jedes Tokens gleichzeitig auf alle anderen Tokens zu schauen und zu entscheiden, welche davon relevant sind. Jedes Token 'fragt' die anderen: Bist du wichtig für meinen Kontext? Das Ergebnis ist eine gewichtete Zusammenfassung des gesamten Satzes.

QKV

Warum Q, K und V?

Die Namen kommen aus der Datenbankwelt: Query (Anfrage), Key (Schlüssel), Value (Wert). Stelle dir ein Archiv vor: Q ist deine Suchanfrage, K sind die Etiketten auf den Mappen, V ist der eigentliche Inhalt. Je ähnlicher Q und K, desto mehr V fließt in die Ausgabe.

√

Warum ÷ √d_k?

Bei großem d_k werden Dot-Products sehr groß – Softmax friert dann ein und gibt fast alles auf einen einzigen Token. Die Division durch √d_k stabilisiert die Werte und hält die Attention-Verteilung gleichmäßig.

×4

Warum mehrere Heads?

Ein einzelner Head kann nur eine Art Beziehung gleichzeitig lernen. Mehrere Heads laufen parallel mit eigenen Gewichtsmatrizen – Head 1 lernt vielleicht Artikel-Nomen-Bindungen, Head 4 globalen Verbankerpunkte. Die Ausgaben werden danach zusammengeführt.

Attention-Inspektor

Klicke auf eine Zeile in der Matrix oder einen Token