Rate Limits | Venice API Docs

Los límites de velocidad varían según el modelo y el nivel. Los límites predeterminados que aparecen a continuación son una referencia útil, pero el endpoint /api_keys/rate_limits de la API es la forma canónica de obtener tus límites actuales. Puedes consultar tus límites exactos en cualquier momento:

Ver tus límites

Playground interactivo

Registros de límites

Mira qué solicitudes alcanzaron los límites

curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

Límites predeterminados

Modelos de texto

Los modelos de texto se agrupan en niveles según su tamaño. Cada tarjeta de modelo en la página de Modelos muestra su insignia de nivel.

Nivel	Solicitudes/min	Tokens/min
XS	500	1.000.000
S	75	750.000
M	50	750.000
L	20	500.000

¿Qué modelos hay en cada nivel?

XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

Otros modelos

Tipo	Solicitudes/min
Imagen	20
Audio	60
Embedding	500
Vídeo (cola)	40
Vídeo (recuperar)	120

Gestión de errores

Las solicitudes fallidas (500, 503, 429) deben reintentarse con backoff exponencial. Para los errores 429 en particular, comprueba la cabecera x-ratelimit-reset-requests para conocer la marca de tiempo Unix exacta en la que puedes reintentar. La mayoría de las bibliotecas HTTP tienen mecanismos de reintento integrados que lo gestionan automáticamente.

Protección frente a abusos

Si generas más de 20 solicitudes fallidas en 30 segundos, la API bloqueará nuevas solicitudes durante 30 segundos:

Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

Cabeceras de respuesta

Cada respuesta incluye estas cabeceras:

Cabecera	Descripción
`x-ratelimit-limit-requests`	Máximo de solicitudes permitidas en la ventana actual
`x-ratelimit-remaining-requests`	Solicitudes restantes en la ventana actual
`x-ratelimit-reset-requests`	Marca de tiempo Unix cuando se restablece la ventana
`x-ratelimit-limit-tokens`	Máximo de tokens permitidos por minuto
`x-ratelimit-remaining-tokens`	Tokens restantes en el minuto actual
`x-ratelimit-reset-tokens`	Segundos hasta que se restablece el límite de tokens

Nivel Partner

Los partners obtienen límites de velocidad significativamente más altos:

Nivel	Solicitudes/min	Tokens/min
XS	500	2.000.000
S	150	1.500.000
M	100	1.500.000
L	60	1.000.000

Tipo	Solicitudes/min
Imagen	60
Audio	120
Embedding	500

Si estás alcanzando consistentemente tus límites de velocidad y tus patrones de uso muestran demanda sostenida en el tiempo, ponte en contacto para hablar sobre acceso de partner: [email protected]. Los límites del nivel Partner pueden ajustarse según tus necesidades específicas.

Venice APIs

Límites de velocidad

Ver tus límites

Registros de límites

Límites predeterminados

Modelos de texto

Otros modelos

Gestión de errores

Protección frente a abusos

Cabeceras de respuesta

Nivel Partner

Ver tus límites

Registros de límites

​Límites predeterminados

​Modelos de texto

​Otros modelos

​Gestión de errores

​Protección frente a abusos

​Cabeceras de respuesta

​Nivel Partner

Límites predeterminados

Modelos de texto

Otros modelos

Gestión de errores

Protección frente a abusos

Cabeceras de respuesta

Nivel Partner