/api_keys/rate_limits est la manière canonique de récupérer vos limites actuelles. Vous pouvez vérifier vos limites exactes à tout moment :
Voir vos limites
Playground interactif
Journaux de limite de débit
Voir quelles requêtes ont atteint les limites
Limites par défaut
Modèles de texte
Les modèles de texte sont regroupés en niveaux selon leur taille. Chaque carte de modèle sur la page Modèles affiche son badge de niveau.| Niveau | Requêtes/min | Tokens/min |
|---|---|---|
| XS | 500 | 1 000 000 |
| S | 75 | 750 000 |
| M | 50 | 750 000 |
| L | 20 | 500 000 |
Quels modèles sont dans chaque niveau ?
Quels modèles sont dans chaque niveau ?
XS
qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120bAutres modèles
| Type | Requêtes/min |
|---|---|
| Image | 20 |
| Audio | 60 |
| Embedding | 500 |
| Vidéo (queue) | 40 |
| Vidéo (retrieve) | 120 |
Gestion des erreurs
Les requêtes échouées (500, 503, 429) doivent être relancées avec un backoff exponentiel. Pour les erreurs 429 spécifiquement, consultez l’en-têtex-ratelimit-reset-requests pour l’horodatage Unix exact auquel vous pouvez réessayer. La plupart des bibliothèques HTTP disposent de mécanismes de relance intégrés qui gèrent cela automatiquement.
Protection contre les abus
Si vous générez plus de 20 requêtes échouées en 30 secondes, l’API bloquera les requêtes suivantes pendant 30 secondes :En-têtes de réponse
Chaque réponse inclut ces en-têtes :| En-tête | Description |
|---|---|
x-ratelimit-limit-requests | Nombre maximum de requêtes autorisées dans la fenêtre actuelle |
x-ratelimit-remaining-requests | Requêtes restantes dans la fenêtre actuelle |
x-ratelimit-reset-requests | Horodatage Unix de réinitialisation de la fenêtre |
x-ratelimit-limit-tokens | Nombre maximum de tokens autorisés par minute |
x-ratelimit-remaining-tokens | Tokens restants dans la minute actuelle |
x-ratelimit-reset-tokens | Secondes avant la réinitialisation de la limite de tokens |
Niveau Partenaire
Les partenaires obtiennent des limites de débit significativement plus élevées :| Niveau | Requêtes/min | Tokens/min |
|---|---|---|
| XS | 500 | 2 000 000 |
| S | 150 | 1 500 000 |
| M | 100 | 1 500 000 |
| L | 60 | 1 000 000 |
| Type | Requêtes/min |
|---|---|
| Image | 60 |
| Audio | 120 |
| Embedding | 500 |