Saltar al contenido principal
Los límites de velocidad varían según el modelo y el nivel. Los límites predeterminados que aparecen a continuación son una referencia útil, pero el endpoint /api_keys/rate_limits de la API es la forma canónica de obtener tus límites actuales. Puedes consultar tus límites exactos en cualquier momento:

Ver tus límites

Playground interactivo

Registros de límites

Mira qué solicitudes alcanzaron los límites
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

Límites predeterminados

Modelos de texto

Los modelos de texto se agrupan en niveles según su tamaño. Cada tarjeta de modelo en la página de Modelos muestra su insignia de nivel.
NivelSolicitudes/minTokens/min
XS5001.000.000
S75750.000
M50750.000
L20500.000
XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

Otros modelos

TipoSolicitudes/min
Imagen20
Audio60
Embedding500
Vídeo (cola)40
Vídeo (recuperar)120

Gestión de errores

Las solicitudes fallidas (500, 503, 429) deben reintentarse con backoff exponencial. Para los errores 429 en particular, comprueba la cabecera x-ratelimit-reset-requests para conocer la marca de tiempo Unix exacta en la que puedes reintentar. La mayoría de las bibliotecas HTTP tienen mecanismos de reintento integrados que lo gestionan automáticamente.

Protección frente a abusos

Si generas más de 20 solicitudes fallidas en 30 segundos, la API bloqueará nuevas solicitudes durante 30 segundos:
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

Cabeceras de respuesta

Cada respuesta incluye estas cabeceras:
CabeceraDescripción
x-ratelimit-limit-requestsMáximo de solicitudes permitidas en la ventana actual
x-ratelimit-remaining-requestsSolicitudes restantes en la ventana actual
x-ratelimit-reset-requestsMarca de tiempo Unix cuando se restablece la ventana
x-ratelimit-limit-tokensMáximo de tokens permitidos por minuto
x-ratelimit-remaining-tokensTokens restantes en el minuto actual
x-ratelimit-reset-tokensSegundos hasta que se restablece el límite de tokens

Nivel Partner

Los partners obtienen límites de velocidad significativamente más altos:
NivelSolicitudes/minTokens/min
XS5002.000.000
S1501.500.000
M1001.500.000
L601.000.000
TipoSolicitudes/min
Imagen60
Audio120
Embedding500
Si estás alcanzando consistentemente tus límites de velocidad y tus patrones de uso muestran demanda sostenida en el tiempo, ponte en contacto para hablar sobre acceso de partner: [email protected]. Los límites del nivel Partner pueden ajustarse según tus necesidades específicas.