Rate Limits | Venice API Docs

I rate limit variano in base al modello e al tier. I limiti predefiniti qui sotto sono un riferimento utile, ma l’endpoint API /api_keys/rate_limits è il modo canonico per ottenere i tuoi limiti correnti. Puoi controllare i tuoi limiti esatti in qualsiasi momento:

Visualizza i tuoi limiti

Playground interattivo

Log dei rate limit

Scopri quali richieste hanno raggiunto i limiti

curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

Limiti predefiniti

Modelli di testo

I modelli di testo sono raggruppati in tier in base alle dimensioni. Ogni card di modello sulla pagina Modelli mostra il badge del proprio tier.

Tier	Richieste/min	Token/min
XS	500	1.000.000
S	75	750.000
M	50	750.000
L	20	500.000

Quali modelli sono in ciascun tier?

XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

Altri modelli

Tipo	Richieste/min
Image	20
Audio	60
Embedding	500
Video (queue)	40
Video (retrieve)	120

Gestione degli errori

Le richieste fallite (500, 503, 429) dovrebbero essere ritentate con backoff esponenziale. Per gli errori 429 specificamente, controlla l’header x-ratelimit-reset-requests per il timestamp Unix esatto in cui puoi riprovare. La maggior parte delle librerie HTTP dispone di meccanismi di retry integrati che gestiscono questo automaticamente.

Protezione anti-abuso

Se generi più di 20 richieste fallite in 30 secondi, l’API bloccherà ulteriori richieste per 30 secondi:

Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

Response headers

Ogni risposta include questi header:

Header	Descrizione
`x-ratelimit-limit-requests`	Numero massimo di richieste consentite nella finestra corrente
`x-ratelimit-remaining-requests`	Richieste rimanenti nella finestra corrente
`x-ratelimit-reset-requests`	Timestamp Unix quando la finestra si resetta
`x-ratelimit-limit-tokens`	Numero massimo di token consentiti al minuto
`x-ratelimit-remaining-tokens`	Token rimanenti nel minuto corrente
`x-ratelimit-reset-tokens`	Secondi al reset del limite di token

Tier Partner

I partner ottengono rate limit significativamente più alti:

Tier	Richieste/min	Token/min
XS	500	2.000.000
S	150	1.500.000
M	100	1.500.000
L	60	1.000.000

Tipo	Richieste/min
Image	60
Audio	120
Embedding	500

Se raggiungi costantemente i tuoi rate limit e i tuoi pattern di utilizzo mostrano una domanda sostenuta nel tempo, contattaci per discutere l’accesso partner: [email protected]. I limiti del tier partner possono essere regolati in base alle tue esigenze specifiche.

Venice APIs

Rate limit

Visualizza i tuoi limiti

Log dei rate limit

Limiti predefiniti

Modelli di testo

Altri modelli

Gestione degli errori

Protezione anti-abuso

Response headers

Tier Partner

Visualizza i tuoi limiti

Log dei rate limit

​Limiti predefiniti

​Modelli di testo

​Altri modelli

​Gestione degli errori

​Protezione anti-abuso

​Response headers

​Tier Partner

Limiti predefiniti

Modelli di testo

Altri modelli

Gestione degli errori

Protezione anti-abuso

Response headers

Tier Partner