/api_keys/rate_limits è il modo canonico per ottenere i tuoi limiti correnti. Puoi controllare i tuoi limiti esatti in qualsiasi momento:
Visualizza i tuoi limiti
Playground interattivo
Log dei rate limit
Scopri quali richieste hanno raggiunto i limiti
Limiti predefiniti
Modelli di testo
I modelli di testo sono raggruppati in tier in base alle dimensioni. Ogni card di modello sulla pagina Modelli mostra il badge del proprio tier.| Tier | Richieste/min | Token/min |
|---|---|---|
| XS | 500 | 1.000.000 |
| S | 75 | 750.000 |
| M | 50 | 750.000 |
| L | 20 | 500.000 |
Quali modelli sono in ciascun tier?
Quali modelli sono in ciascun tier?
XS
qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120bAltri modelli
| Tipo | Richieste/min |
|---|---|
| Image | 20 |
| Audio | 60 |
| Embedding | 500 |
| Video (queue) | 40 |
| Video (retrieve) | 120 |
Gestione degli errori
Le richieste fallite (500, 503, 429) dovrebbero essere ritentate con backoff esponenziale. Per gli errori 429 specificamente, controlla l’headerx-ratelimit-reset-requests per il timestamp Unix esatto in cui puoi riprovare. La maggior parte delle librerie HTTP dispone di meccanismi di retry integrati che gestiscono questo automaticamente.
Protezione anti-abuso
Se generi più di 20 richieste fallite in 30 secondi, l’API bloccherà ulteriori richieste per 30 secondi:Response headers
Ogni risposta include questi header:| Header | Descrizione |
|---|---|
x-ratelimit-limit-requests | Numero massimo di richieste consentite nella finestra corrente |
x-ratelimit-remaining-requests | Richieste rimanenti nella finestra corrente |
x-ratelimit-reset-requests | Timestamp Unix quando la finestra si resetta |
x-ratelimit-limit-tokens | Numero massimo di token consentiti al minuto |
x-ratelimit-remaining-tokens | Token rimanenti nel minuto corrente |
x-ratelimit-reset-tokens | Secondi al reset del limite di token |
Tier Partner
I partner ottengono rate limit significativamente più alti:| Tier | Richieste/min | Token/min |
|---|---|---|
| XS | 500 | 2.000.000 |
| S | 150 | 1.500.000 |
| M | 100 | 1.500.000 |
| L | 60 | 1.000.000 |
| Tipo | Richieste/min |
|---|---|
| Image | 60 |
| Audio | 120 |
| Embedding | 500 |