/api_keys/rate_limits ist die maßgebliche Quelle, um Ihre aktuellen Limits abzurufen. Sie können Ihre genauen Limits jederzeit prüfen:
Ihre Limits ansehen
Interaktiver Playground
Rate-Limit-Logs
Sehen Sie, welche Anfragen Limits erreicht haben
Standardlimits
Textmodelle
Textmodelle sind in Stufen nach Größe gruppiert. Jede Modellkarte auf der Models-Seite zeigt ihr Stufen-Badge an.| Stufe | Requests/min | Tokens/min |
|---|---|---|
| XS | 500 | 1.000.000 |
| S | 75 | 750.000 |
| M | 50 | 750.000 |
| L | 20 | 500.000 |
Welche Modelle sind in jeder Stufe?
Welche Modelle sind in jeder Stufe?
XS
qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120bAndere Modelle
| Typ | Requests/min |
|---|---|
| Image | 20 |
| Audio | 60 |
| Embedding | 500 |
| Video (queue) | 40 |
| Video (retrieve) | 120 |
Fehlerbehandlung
Fehlgeschlagene Anfragen (500, 503, 429) sollten mit exponentiellem Backoff wiederholt werden. Speziell bei 429-Fehlern prüfen Sie den Headerx-ratelimit-reset-requests für den genauen Unix-Zeitstempel, ab dem Sie es erneut versuchen können. Die meisten HTTP-Bibliotheken verfügen über integrierte Retry-Mechanismen, die dies automatisch übernehmen.
Missbrauchsschutz
Wenn Sie mehr als 20 fehlgeschlagene Anfragen in 30 Sekunden erzeugen, blockiert die API weitere Anfragen für 30 Sekunden:Response-Header
Jede Antwort enthält diese Header:| Header | Beschreibung |
|---|---|
x-ratelimit-limit-requests | Max. Anfragen, die im aktuellen Fenster erlaubt sind |
x-ratelimit-remaining-requests | Verbleibende Anfragen im aktuellen Fenster |
x-ratelimit-reset-requests | Unix-Zeitstempel, wann das Fenster zurückgesetzt wird |
x-ratelimit-limit-tokens | Max. erlaubte Tokens pro Minute |
x-ratelimit-remaining-tokens | Verbleibende Tokens in der aktuellen Minute |
x-ratelimit-reset-tokens | Sekunden bis zum Zurücksetzen des Token-Limits |
Partner-Stufe
Partner erhalten deutlich höhere Rate-Limits:| Stufe | Requests/min | Tokens/min |
|---|---|---|
| XS | 500 | 2.000.000 |
| S | 150 | 1.500.000 |
| M | 100 | 1.500.000 |
| L | 60 | 1.000.000 |
| Typ | Requests/min |
|---|---|
| Image | 60 |
| Audio | 120 |
| Embedding | 500 |