Vai al contenuto principale
I rate limit variano in base al modello e al tier. I limiti predefiniti qui sotto sono un riferimento utile, ma l’endpoint API /api_keys/rate_limits è il modo canonico per ottenere i tuoi limiti correnti. Puoi controllare i tuoi limiti esatti in qualsiasi momento:

Visualizza i tuoi limiti

Playground interattivo

Log dei rate limit

Scopri quali richieste hanno raggiunto i limiti
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

Limiti predefiniti

Modelli di testo

I modelli di testo sono raggruppati in tier in base alle dimensioni. Ogni card di modello sulla pagina Modelli mostra il badge del proprio tier.
TierRichieste/minToken/min
XS5001.000.000
S75750.000
M50750.000
L20500.000
XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

Altri modelli

TipoRichieste/min
Image20
Audio60
Embedding500
Video (queue)40
Video (retrieve)120

Gestione degli errori

Le richieste fallite (500, 503, 429) dovrebbero essere ritentate con backoff esponenziale. Per gli errori 429 specificamente, controlla l’header x-ratelimit-reset-requests per il timestamp Unix esatto in cui puoi riprovare. La maggior parte delle librerie HTTP dispone di meccanismi di retry integrati che gestiscono questo automaticamente.

Protezione anti-abuso

Se generi più di 20 richieste fallite in 30 secondi, l’API bloccherà ulteriori richieste per 30 secondi:
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

Response headers

Ogni risposta include questi header:
HeaderDescrizione
x-ratelimit-limit-requestsNumero massimo di richieste consentite nella finestra corrente
x-ratelimit-remaining-requestsRichieste rimanenti nella finestra corrente
x-ratelimit-reset-requestsTimestamp Unix quando la finestra si resetta
x-ratelimit-limit-tokensNumero massimo di token consentiti al minuto
x-ratelimit-remaining-tokensToken rimanenti nel minuto corrente
x-ratelimit-reset-tokensSecondi al reset del limite di token

Tier Partner

I partner ottengono rate limit significativamente più alti:
TierRichieste/minToken/min
XS5002.000.000
S1501.500.000
M1001.500.000
L601.000.000
TipoRichieste/min
Image60
Audio120
Embedding500
Se raggiungi costantemente i tuoi rate limit e i tuoi pattern di utilizzo mostrano una domanda sostenuta nel tempo, contattaci per discutere l’accesso partner: [email protected]. I limiti del tier partner possono essere regolati in base alle tue esigenze specifiche.