Passer au contenu principal
Les limites de débit varient selon le modèle et le niveau. Les limites par défaut ci-dessous constituent une référence utile, mais l’endpoint API /api_keys/rate_limits est la manière canonique de récupérer vos limites actuelles. Vous pouvez vérifier vos limites exactes à tout moment :

Voir vos limites

Playground interactif

Journaux de limite de débit

Voir quelles requêtes ont atteint les limites
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

Limites par défaut

Modèles de texte

Les modèles de texte sont regroupés en niveaux selon leur taille. Chaque carte de modèle sur la page Modèles affiche son badge de niveau.
NiveauRequêtes/minTokens/min
XS5001 000 000
S75750 000
M50750 000
L20500 000
XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

Autres modèles

TypeRequêtes/min
Image20
Audio60
Embedding500
Vidéo (queue)40
Vidéo (retrieve)120

Gestion des erreurs

Les requêtes échouées (500, 503, 429) doivent être relancées avec un backoff exponentiel. Pour les erreurs 429 spécifiquement, consultez l’en-tête x-ratelimit-reset-requests pour l’horodatage Unix exact auquel vous pouvez réessayer. La plupart des bibliothèques HTTP disposent de mécanismes de relance intégrés qui gèrent cela automatiquement.

Protection contre les abus

Si vous générez plus de 20 requêtes échouées en 30 secondes, l’API bloquera les requêtes suivantes pendant 30 secondes :
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

En-têtes de réponse

Chaque réponse inclut ces en-têtes :
En-têteDescription
x-ratelimit-limit-requestsNombre maximum de requêtes autorisées dans la fenêtre actuelle
x-ratelimit-remaining-requestsRequêtes restantes dans la fenêtre actuelle
x-ratelimit-reset-requestsHorodatage Unix de réinitialisation de la fenêtre
x-ratelimit-limit-tokensNombre maximum de tokens autorisés par minute
x-ratelimit-remaining-tokensTokens restants dans la minute actuelle
x-ratelimit-reset-tokensSecondes avant la réinitialisation de la limite de tokens

Niveau Partenaire

Les partenaires obtiennent des limites de débit significativement plus élevées :
NiveauRequêtes/minTokens/min
XS5002 000 000
S1501 500 000
M1001 500 000
L601 000 000
TypeRequêtes/min
Image60
Audio120
Embedding500
Si vous atteignez constamment vos limites de débit et que vos modèles d’utilisation montrent une demande soutenue dans le temps, contactez-nous pour discuter de l’accès partenaire : [email protected]. Les limites du niveau partenaire peuvent être ajustées en fonction de vos besoins spécifiques.