Limites de débit | Venice API Docs

Les limites de débit varient selon le modèle et le niveau. Les limites par défaut ci-dessous constituent une référence utile, mais l’endpoint API /api_keys/rate_limits est la manière canonique de récupérer vos limites actuelles. Vous pouvez vérifier vos limites exactes à tout moment :

Voir vos limites

Playground interactif

Journaux de limite de débit

Voir quelles requêtes ont atteint les limites

curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

Limites par défaut

Modèles de texte

Les modèles de texte sont regroupés en niveaux selon leur taille. Chaque carte de modèle sur la page Modèles affiche son badge de niveau.

Niveau	Requêtes/min	Tokens/min
XS	500	1 000 000
S	75	750 000
M	50	750 000
L	20	500 000

Quels modèles sont dans chaque niveau ?

XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

Autres modèles

Type	Requêtes/min
Image	20
Audio	60
Embedding	500
Vidéo (queue)	40
Vidéo (retrieve)	120

Gestion des erreurs

Les requêtes échouées (500, 503, 429) doivent être relancées avec un backoff exponentiel. Pour les erreurs 429 spécifiquement, consultez l’en-tête x-ratelimit-reset-requests pour l’horodatage Unix exact auquel vous pouvez réessayer. La plupart des bibliothèques HTTP disposent de mécanismes de relance intégrés qui gèrent cela automatiquement.

Protection contre les abus

Si vous générez plus de 20 requêtes échouées en 30 secondes, l’API bloquera les requêtes suivantes pendant 30 secondes :

Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

En-têtes de réponse

Chaque réponse inclut ces en-têtes :

En-tête	Description
`x-ratelimit-limit-requests`	Nombre maximum de requêtes autorisées dans la fenêtre actuelle
`x-ratelimit-remaining-requests`	Requêtes restantes dans la fenêtre actuelle
`x-ratelimit-reset-requests`	Horodatage Unix de réinitialisation de la fenêtre
`x-ratelimit-limit-tokens`	Nombre maximum de tokens autorisés par minute
`x-ratelimit-remaining-tokens`	Tokens restants dans la minute actuelle
`x-ratelimit-reset-tokens`	Secondes avant la réinitialisation de la limite de tokens

Niveau Partenaire

Les partenaires obtiennent des limites de débit significativement plus élevées :

Niveau	Requêtes/min	Tokens/min
XS	500	2 000 000
S	150	1 500 000
M	100	1 500 000
L	60	1 000 000

Type	Requêtes/min
Image	60
Audio	120
Embedding	500

Si vous atteignez constamment vos limites de débit et que vos modèles d’utilisation montrent une demande soutenue dans le temps, contactez-nous pour discuter de l’accès partenaire : [email protected]. Les limites du niveau partenaire peuvent être ajustées en fonction de vos besoins spécifiques.

Voir vos limites

Journaux de limite de débit

​Limites par défaut

​Modèles de texte

​Autres modèles

​Gestion des erreurs

​Protection contre les abus

​En-têtes de réponse

​Niveau Partenaire