Tokenisierung
Gib Text ein und beobachte, wie GPT-2 BPE ihn Zeichen für Zeichen zu Tokens zusammensetzt.
Tokenizer-Modell
Token-Visualisierung
Die KI versteht natürliche Sprache.
Token-Tabelle
| # | ID | Text | Bytes |
|---|---|---|---|
| 0 | 18674 | Die | 3 |
| 1 | 735 | ·K | 2 |
| 2 | 40 | I | 1 |
| 3 | 2807 | ·ver | 4 |
| 4 | 5455 | ste | 3 |
| 5 | 427 | ht | 2 |
| 6 | 18050 | ·nat | 4 |
| 7 | 5297 | ür | 3 |
| 8 | 20603 | liche | 5 |
| 9 | 15883 | ·Spr | 4 |
| 10 | 1815 | ache | 4 |
| 11 | 13 | . | 1 |
Konzepte
Was ist ein Token?
LLMs lesen keinen Text buchstabenweise, sondern zerlegen ihn in Teilwörter – sogenannte Tokens. 'Künstliche' wird z. B. zu ['K', 'ünstliche'] oder ['Künst', 'liche'], je nach Vokabular. Das Vokabular umfasst typischerweise 50 000–100 000 Einträge.
Ein Token ≠ ein Wort
Kurze, häufige englische Wörter sind oft ein einzelnes Token ('the', 'and'). Seltene Wörter, Namen oder Deutsch werden in mehrere Tokens aufgeteilt. Das macht Deutsch rechnerisch 'teurer' als Englisch.
Sprache & Effizienz
Weil das GPT-Vokabular hauptsächlich auf englischen Texten trainiert wurde, brauchen andere Sprachen durchschnittlich mehr Tokens für denselben Inhalt. Für Deutsch liegt das Verhältnis bei etwa 1,3–1,5× gegenüber Englisch.
Tokens & Kosten
API-Kosten für LLMs werden pro Token berechnet – sowohl für Eingabe (Prompt) als auch für Ausgabe. Ein langer Prompt mit viel Kontext kann schnell tausende Tokens verbrauchen. Kurze, präzise Prompts sparen bares Geld.