LLM-Leaderboard
Stelle rund 20 aktuelle Large Language Models direkt gegenüber. Sortiere nach der Metrik, die dir wichtig ist, filtere nach Anbieter und vergleiche die Werte auf einen Blick als Balkendiagramm.
Modelle im Vergleich
| # | Modell | Anbieter | Modalitäten (Ein-/Ausgabe) | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | GPT-5.6 SolInfos | OpenAI | 90 | 92 | 93 | 76 | 130 tok/s | $5.50 | 2.8% | 400K | EinText: ✓Bild: ✓Audio: ✓Video: ✗ AusText: ✓Bild: ✓Audio: ✓Video: ✗ |
| 2 | Claude Opus 4.8Infos | Anthropic | 89 | 89 | 84 | 85 | 58 tok/s | $15.00 | 2.5% | 1M | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 3 | Claude Fable 5Infos | Anthropic | 88 | 90 | 85 | 90 | 72 tok/s | $12.00 | 2.2% | 1M | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 4 | GPT-5.5Infos | OpenAI | 86 | 88 | 90 | 74 | 78 tok/s | $4.35 | 3.2% | 400K | EinText: ✓Bild: ✓Audio: ✓Video: ✗ AusText: ✓Bild: ✓Audio: ✓Video: ✗ |
| 5 | Claude Sonnet 5Infos | Anthropic | 85 | 85 | 82 | 82 | 72 tok/s | $4.50 | 2.8% | 1M | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 6 | GPT-5.6 TerraInfos | OpenAI | 84 | 85 | 86 | 74 | 150 tok/s | $2.20 | 3.5% | 400K | EinText: ✓Bild: ✓Audio: ✓Video: ✗ AusText: ✓Bild: ✓Audio: ✓Video: ✗ |
| 7 | Gemini 3.1 ProInfos | 83 | 88 | 90 | 76 | 137 tok/s | $1.74 | 3.5% | 1M | EinText: ✓Bild: ✓Audio: ✓Video: ✓ AusText: ✓Bild: ✓Audio: ✓Video: ✓ | |
| 8 | DeepSeek V4 ProInfos | DeepSeek | 82 | 85 | 88 | 66 | 62 tok/s | $0.18 | 5% | 1M | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 9 | Grok 4.3Infos | xAI | 82 | 86 | 88 | 78 | 100 tok/s | $5.00 | 4% | 256K | EinText: ✓Bild: ✓Audio: ✗Video: ✓ AusText: ✓Bild: ✓Audio: ✗Video: ✗ |
| 10 | Gemini 3.5 FlashInfos | 80 | 82 | 85 | 73 | 184 tok/s | $1.31 | 4.2% | 1M | EinText: ✓Bild: ✓Audio: ✓Video: ✓ AusText: ✓Bild: ✓Audio: ✗Video: ✗ | |
| 11 | Qwen 3.7 MaxInfos | Alibaba | 80 | 82 | 86 | 70 | 200 tok/s | $1.43 | 5% | 1M | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗ |
| 12 | Grok 4.1 ThinkingInfos | xAI | 78 | 84 | 84 | 88 | 80 tok/s | $5.00 | 4.5% | 256K | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗ |
| 13 | GPT-5.6 LunaInfos | OpenAI | 74 | 74 | 76 | 70 | 250 tok/s | $0.70 | 5% | 400K | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗ |
| 14 | Mistral Medium 3.5Infos | Mistral AI | 74 | 75 | 77 | 71 | 130 tok/s | $0.90 | 5% | 256K | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 15 | Claude Haiku 4.5Infos | Anthropic | 73 | 71 | 70 | 74 | 200 tok/s | $1.50 | 4.5% | 200K | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 16 | Mistral Large 3Infos | Mistral AI | 72 | 74 | 76 | 70 | 90 tok/s | $2.00 | 5.5% | 256K | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✓Audio: ✗Video: ✗ |
| 17 | DeepSeek V4 FlashInfos | DeepSeek | 72 | 74 | 80 | 63 | 99 tok/s | $0.06 | 6% | 1M | EinText: ✓Bild: ✗Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 18 | Qwen 3.6Infos | Alibaba | 70 | 74 | 80 | 66 | 150 tok/s | $0.40 | 6% | 256K | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 19 | Llama 4 MaverickInfos | Meta | 66 | 68 | 70 | 66 | 160 tok/s | $0.50 | 7% | 1M | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 20 | Mistral Small 4Infos | Mistral AI | 64 | 64 | 66 | 66 | 200 tok/s | $0.20 | 6.5% | 128K | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
| 21 | Llama 4 ScoutInfos | Meta | 58 | 60 | 62 | 62 | 240 tok/s | $0.30 | 8.5% | 10M | EinText: ✓Bild: ✓Audio: ✗Video: ✗ AusText: ✓Bild: ✗Audio: ✗Video: ✗ |
So liest du das Leaderboard
Jede numerische Metrik wird als Balken relativ zum stärksten Modell dieser Spalte dargestellt – der Zahlenwert steht immer daneben. Blaue Balken bedeuten „höher ist besser“ (z. B. Coding, Geschwindigkeit, Kontextfenster), terrakottafarbene Balken „niedriger ist besser“ (Kosten, Halluzinationsrate). Klicke auf eine Spaltenüberschrift oder nutze das Auswahlfeld, um zu sortieren; über die Filter für Anbieter sowie Ein- und Ausgabe-Modalität grenzt du die Auswahl ein (z. B. nur Modelle, die Video verarbeiten oder Bilder erzeugen). Ein Klick auf das ⓘ neben einer Spalte zeigt, aus welchem Benchmark der jeweilige Wert stammt. Coding, Reasoning, Mathematik und EQ sind Benchmark-Indizes (0–100), Geschwindigkeit in Token/Sekunde, Kosten als gemischter Preis pro einer Million Token. Die Modalitäts-Symbole zeigen, welche Ein- und Ausgaben ein Modell beherrscht (T = Text, ◨ = Bild, ♪ = Audio, ▶ = Video).
Quellen: Näherungswerte aus öffentlichen Ranglisten und Anbieterangaben (u. a. Artificial Analysis, LMArena, EQ-Bench 3, Vectara/HHEM Hallucination Leaderboard).
Stand Juli 2026 · Modelle, Benchmarks und Preise ändern sich sehr schnell – die Werte sind gerundete Orientierungswerte, kein exakter Benchmark. Bitte vor wichtigen Entscheidungen an der Originalquelle prüfen.