Transformer Attention
Wähle einen Satz und einen Attention Head. Klicke auf ein Token und lies ab, worauf es 'achtet' – und warum.
Attention-Matrix
Klicke auf eine Zeile oder einen Token, um die Berechnung zu sehen.
| Von (Query) → | Die | Katze | saß | auf | der | Matte |
|---|---|---|---|---|---|---|
| Die | 14 | 23 | 14 | 14 | 14 | 23 |
| Katze | 17 | 17 | 17 | 17 | 17 | 17 |
| saß | 17 | 17 | 17 | 17 | 17 | 17 |
| auf | 17 | 17 | 17 | 17 | 17 | 17 |
| der | 14 | 22 | 14 | 14 | 14 | 22 |
| Matte | 17 | 17 | 17 | 17 | 17 | 17 |
| ← Nach (Key) | ||||||
Formel
Attention(Q, K, V) =
softmax(Q Kᵀ / √d_k) · V
Q = X · W_Q (Query)
K = X · W_K (Key)
V = X · W_V (Value)
d_k = 4 (Dimension)
Was dieser Head lernt
Head 1 – Artikel → Nomen
W_Q aktiviert sich für Artikel (Dim. 0), W_K für Nomen (Dim. 1). Artikel-Queries passen auf Nomen-Keys – deshalb zeigen die und der auf ihre Nomen.
W_Q
W_K
Konzepte
Was ist Attention?
Attention erlaubt einem Modell, beim Verarbeiten jedes Tokens gleichzeitig auf alle anderen Tokens zu schauen und zu entscheiden, welche davon relevant sind. Jedes Token 'fragt' die anderen: Bist du wichtig für meinen Kontext? Das Ergebnis ist eine gewichtete Zusammenfassung des gesamten Satzes.
Warum Q, K und V?
Die Namen kommen aus der Datenbankwelt: Query (Anfrage), Key (Schlüssel), Value (Wert). Stelle dir ein Archiv vor: Q ist deine Suchanfrage, K sind die Etiketten auf den Mappen, V ist der eigentliche Inhalt. Je ähnlicher Q und K, desto mehr V fließt in die Ausgabe.
Warum ÷ √d_k?
Bei großem d_k werden Dot-Products sehr groß – Softmax friert dann ein und gibt fast alles auf einen einzigen Token. Die Division durch √d_k stabilisiert die Werte und hält die Attention-Verteilung gleichmäßig.
Warum mehrere Heads?
Ein einzelner Head kann nur eine Art Beziehung gleichzeitig lernen. Mehrere Heads laufen parallel mit eigenen Gewichtsmatrizen – Head 1 lernt vielleicht Artikel-Nomen-Bindungen, Head 4 globalen Verbankerpunkte. Die Ausgaben werden danach zusammengeführt.
Attention-Inspektor
Klicke auf eine Zeile in der Matrix oder einen Token