Tokenisierung

Gib Text ein und beobachte, wie GPT-2 BPE ihn Zeichen für Zeichen zu Tokens zusammensetzt.

Tokenizer-Modell

Text eingeben

Beispiele:

12Tokens

35Zeichen

36Bytes

Token-Visualisierung

Die KI versteht natürliche Sprache.

Token-Tabelle

#	ID	Text	Bytes
0	18674	Die	3
1	735	·K	2
2	40	I	1
3	2807	·ver	4
4	5455	ste	3
5	427	ht	2
6	18050	·nat	4
7	5297	ür	3
8	20603	liche	5
9	15883	·Spr	4
10	1815	ache	4
11	13	.	1

Konzepte

BPE

Was ist ein Token?

LLMs lesen keinen Text buchstabenweise, sondern zerlegen ihn in Teilwörter – sogenannte Tokens. 'Künstliche' wird z. B. zu ['K', 'ünstliche'] oder ['Künst', 'liche'], je nach Vokabular. Das Vokabular umfasst typischerweise 50 000–100 000 Einträge.

≠

Ein Token ≠ ein Wort

Kurze, häufige englische Wörter sind oft ein einzelnes Token ('the', 'and'). Seltene Wörter, Namen oder Deutsch werden in mehrere Tokens aufgeteilt. Das macht Deutsch rechnerisch 'teurer' als Englisch.

🌍

Sprache & Effizienz

Weil das GPT-Vokabular hauptsächlich auf englischen Texten trainiert wurde, brauchen andere Sprachen durchschnittlich mehr Tokens für denselben Inhalt. Für Deutsch liegt das Verhältnis bei etwa 1,3–1,5× gegenüber Englisch.

Tokens & Kosten

API-Kosten für LLMs werden pro Token berechnet – sowohl für Eingabe (Prompt) als auch für Ausgabe. Ein langer Prompt mit viel Kontext kann schnell tausende Tokens verbrauchen. Kurze, präzise Prompts sparen bares Geld.