Gollnick Data Solutions LogoGollnick Data
Zurück zur Übersicht

Transformer Attention

Wähle einen Satz und einen Attention Head. Klicke auf ein Token und lies ab, worauf es 'achtet' – und warum.

Attention Head

Attention-Matrix

Klicke auf eine Zeile oder einen Token, um die Berechnung zu sehen.

Von (Query) →DieKatzesaßaufderMatte
Die
14
23
14
14
14
23
Katze
17
17
17
17
17
17
saß
17
17
17
17
17
17
auf
17
17
17
17
17
17
der
14
22
14
14
14
22
Matte
17
17
17
17
17
17
← Nach (Key)

Formel

Attention(Q, K, V) =

softmax(Q Kᵀ / √d_k) · V

Q = X · W_Q  (Query)

K = X · W_K  (Key)

V = X · W_V  (Value)

d_k = 4  (Dimension)

Was dieser Head lernt

Head 1 – Artikel → Nomen

W_Q aktiviert sich für Artikel (Dim. 0), W_K für Nomen (Dim. 1). Artikel-Queries passen auf Nomen-Keys – deshalb zeigen die und der auf ihre Nomen.

W_Q

1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Art
Nom
Ver
Prä

W_K

0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
Art
Nom
Ver
Prä

Konzepte

?

Was ist Attention?

Attention erlaubt einem Modell, beim Verarbeiten jedes Tokens gleichzeitig auf alle anderen Tokens zu schauen und zu entscheiden, welche davon relevant sind. Jedes Token 'fragt' die anderen: Bist du wichtig für meinen Kontext? Das Ergebnis ist eine gewichtete Zusammenfassung des gesamten Satzes.

QKV

Warum Q, K und V?

Die Namen kommen aus der Datenbankwelt: Query (Anfrage), Key (Schlüssel), Value (Wert). Stelle dir ein Archiv vor: Q ist deine Suchanfrage, K sind die Etiketten auf den Mappen, V ist der eigentliche Inhalt. Je ähnlicher Q und K, desto mehr V fließt in die Ausgabe.

Warum ÷ √d_k?

Bei großem d_k werden Dot-Products sehr groß – Softmax friert dann ein und gibt fast alles auf einen einzigen Token. Die Division durch √d_k stabilisiert die Werte und hält die Attention-Verteilung gleichmäßig.

×4

Warum mehrere Heads?

Ein einzelner Head kann nur eine Art Beziehung gleichzeitig lernen. Mehrere Heads laufen parallel mit eigenen Gewichtsmatrizen – Head 1 lernt vielleicht Artikel-Nomen-Bindungen, Head 4 globalen Verbankerpunkte. Die Ausgaben werden danach zusammengeführt.

Attention-Inspektor

Klicke auf eine Zeile in der Matrix oder einen Token