LLM-Leaderboard

Stelle rund 20 aktuelle Large Language Models direkt gegenüber. Sortiere nach der Metrik, die dir wichtig ist, filtere nach Anbieter und vergleiche die Werte auf einen Blick als Balkendiagramm.

Modelle im Vergleich

Sortieren nachAnbieterEingabe-ModalitätAusgabe-Modalität

#	Modell	Anbieter									Modalitäten (Ein-/Ausgabe)
1	GPT-5.6 SolInfos	OpenAI	90	92	93	76	130 tok/s	$5.50	2.8%	400K	EinText: ✓Bild: ✓Audio: ✓Video: ✗ AusText: ✓Bild: ✓Audio: ✓Video: ✗
2	Claude Opus 4.8Infos	Anthropic	89	89	84	85	58 tok/s	$15.00	2.5%	1M	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
3	Claude Fable 5Infos	Anthropic	88	90	85	90	72 tok/s	$12.00	2.2%	1M	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
4	GPT-5.5Infos	OpenAI	86	88	90	74	78 tok/s	$4.35	3.2%	400K	EinText: ✓Bild: ✓Audio: ✓Video: ✗ AusText: ✓Bild: ✓Audio: ✓Video: ✗
5	Claude Sonnet 5Infos	Anthropic	85	85	82	82	72 tok/s	$4.50	2.8%	1M	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
6	GPT-5.6 TerraInfos	OpenAI	84	85	86	74	150 tok/s	$2.20	3.5%	400K	EinText: ✓Bild: ✓Audio: ✓Video: ✗ AusText: ✓Bild: ✓Audio: ✓Video: ✗
7	Gemini 3.1 ProInfos	Google	83	88	90	76	137 tok/s	$1.74	3.5%	1M	EinText: ✓Bild: ✓Audio: ✓Video: ✓ AusText: ✓Bild: ✓Audio: ✓Video: ✓
8	DeepSeek V4 ProInfos	DeepSeek	82	85	88	66	62 tok/s	$0.18	5%	1M	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
9	Grok 4.3Infos	xAI	82	86	88	78	100 tok/s	$5.00	4%	256K	EinText: ✓Bild: ✓Audio: ✗Video: ✓ AusText: ✓Bild: ✓Audio: ✗Video: ✗
10	Gemini 3.5 FlashInfos	Google	80	82	85	73	184 tok/s	$1.31	4.2%	1M	EinText: ✓Bild: ✓Audio: ✓Video: ✓ AusText: ✓Bild: ✓Audio: ✗Video: ✗
11	Qwen 3.7 MaxInfos	Alibaba	80	82	86	70	200 tok/s	$1.43	5%	1M	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗
12	Grok 4.1 ThinkingInfos	xAI	78	84	84	88	80 tok/s	$5.00	4.5%	256K	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗
13	GPT-5.6 LunaInfos	OpenAI	74	74	76	70	250 tok/s	$0.70	5%	400K	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗
14	Mistral Medium 3.5Infos	Mistral AI	74	75	77	71	130 tok/s	$0.90	5%	256K	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
15	Claude Haiku 4.5Infos	Anthropic	73	71	70	74	200 tok/s	$1.50	4.5%	200K	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
16	Mistral Large 3Infos	Mistral AI	72	74	76	70	90 tok/s	$2.00	5.5%	256K	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗
17	DeepSeek V4 FlashInfos	DeepSeek	72	74	80	63	99 tok/s	$0.06	6%	1M	EinText: ✓Bild: ✗Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
18	Qwen 3.6Infos	Alibaba	70	74	80	66	150 tok/s	$0.40	6%	256K	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
19	Llama 4 MaverickInfos	Meta	66	68	70	66	160 tok/s	$0.50	7%	1M	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
20	Mistral Small 4Infos	Mistral AI	64	64	66	66	200 tok/s	$0.20	6.5%	128K	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗
21	Llama 4 ScoutInfos	Meta	58	60	62	62	240 tok/s	$0.30	8.5%	10M	EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗

Coding-Score · Geschwindigkeit …Kosten / 1 Mio. Token · Halluzinationsrate (niedriger ist besser)

So liest du das Leaderboard

Jede numerische Metrik wird als Balken relativ zum stärksten Modell dieser Spalte dargestellt – der Zahlenwert steht immer daneben. Blaue Balken bedeuten „höher ist besser“ (z. B. Coding, Geschwindigkeit, Kontextfenster), terrakottafarbene Balken „niedriger ist besser“ (Kosten, Halluzinationsrate). Klicke auf eine Spaltenüberschrift oder nutze das Auswahlfeld, um zu sortieren; über die Filter für Anbieter sowie Ein- und Ausgabe-Modalität grenzt du die Auswahl ein (z. B. nur Modelle, die Video verarbeiten oder Bilder erzeugen). Ein Klick auf das ⓘ neben einer Spalte zeigt, aus welchem Benchmark der jeweilige Wert stammt. Coding, Reasoning, Mathematik und EQ sind Benchmark-Indizes (0–100), Geschwindigkeit in Token/Sekunde, Kosten als gemischter Preis pro einer Million Token. Die Modalitäts-Symbole zeigen, welche Ein- und Ausgaben ein Modell beherrscht (T = Text, ◨ = Bild, ♪ = Audio, ▶ = Video).

Quellen: Näherungswerte aus öffentlichen Ranglisten und Anbieterangaben (u. a. Artificial Analysis, LMArena, EQ-Bench 3, Vectara/HHEM Hallucination Leaderboard).

Stand Juli 2026 · Modelle, Benchmarks und Preise ändern sich sehr schnell – die Werte sind gerundete Orientierungswerte, kein exakter Benchmark. Bitte vor wichtigen Entscheidungen an der Originalquelle prüfen.