Gollnick Data Solutions LogoGollnick Data
Zurück zur Übersicht

Tokenisierung

Gib Text ein und beobachte, wie GPT-2 BPE ihn Zeichen für Zeichen zu Tokens zusammensetzt.

Tokenizer-Modell

Beispiele:
12Tokens
35Zeichen
36Bytes

Token-Visualisierung

Die KI versteht natürliche Sprache.

Token-Tabelle

#IDTextBytes
018674Die3
1735·K2
240I1
32807·ver4
45455ste3
5427ht2
618050·nat4
75297ür3
820603liche5
915883·Spr4
101815ache4
1113.1

Konzepte

BPE

Was ist ein Token?

LLMs lesen keinen Text buchstabenweise, sondern zerlegen ihn in Teilwörter – sogenannte Tokens. 'Künstliche' wird z. B. zu ['K', 'ünstliche'] oder ['Künst', 'liche'], je nach Vokabular. Das Vokabular umfasst typischerweise 50 000–100 000 Einträge.

Ein Token ≠ ein Wort

Kurze, häufige englische Wörter sind oft ein einzelnes Token ('the', 'and'). Seltene Wörter, Namen oder Deutsch werden in mehrere Tokens aufgeteilt. Das macht Deutsch rechnerisch 'teurer' als Englisch.

🌍

Sprache & Effizienz

Weil das GPT-Vokabular hauptsächlich auf englischen Texten trainiert wurde, brauchen andere Sprachen durchschnittlich mehr Tokens für denselben Inhalt. Für Deutsch liegt das Verhältnis bei etwa 1,3–1,5× gegenüber Englisch.

$

Tokens & Kosten

API-Kosten für LLMs werden pro Token berechnet – sowohl für Eingabe (Prompt) als auch für Ausgabe. Ein langer Prompt mit viel Kontext kann schnell tausende Tokens verbrauchen. Kurze, präzise Prompts sparen bares Geld.