/api_keys/rate_limits da API é a forma canônica de buscar seus limites atuais. Você pode verificar seus limites exatos a qualquer momento:
Veja seus limites
Playground interativo
Logs de limite de taxa
Veja quais requisições atingiram limites
Limites padrão
Modelos de texto
Os modelos de texto são agrupados em tiers com base no tamanho. Cada cartão de modelo na página de modelos exibe seu badge de tier.| Tier | Requisições/min | Tokens/min |
|---|---|---|
| XS | 500 | 1.000.000 |
| S | 75 | 750.000 |
| M | 50 | 750.000 |
| L | 20 | 500.000 |
Quais modelos estão em cada tier?
Quais modelos estão em cada tier?
XS
qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120bOutros modelos
| Tipo | Requisições/min |
|---|---|
| Imagem | 20 |
| Áudio | 60 |
| Embedding | 500 |
| Vídeo (queue) | 40 |
| Vídeo (retrieve) | 120 |
Tratamento de erros
Requisições com falha (500, 503, 429) devem ser repetidas com backoff exponencial. Para erros 429 especificamente, verifique o cabeçalhox-ratelimit-reset-requests para o timestamp Unix exato em que você pode tentar novamente. A maioria das bibliotecas HTTP tem mecanismos de retry integrados que tratam isso automaticamente.
Proteção contra abuso
Se você gerar mais de 20 requisições com falha em 30 segundos, a API bloqueará novas requisições por 30 segundos:Cabeçalhos de resposta
Toda resposta inclui estes cabeçalhos:| Cabeçalho | Descrição |
|---|---|
x-ratelimit-limit-requests | Máximo de requisições permitidas na janela atual |
x-ratelimit-remaining-requests | Requisições restantes na janela atual |
x-ratelimit-reset-requests | Timestamp Unix de quando a janela é redefinida |
x-ratelimit-limit-tokens | Máximo de tokens permitidos por minuto |
x-ratelimit-remaining-tokens | Tokens restantes no minuto atual |
x-ratelimit-reset-tokens | Segundos até o limite de tokens ser redefinido |
Tier Partner
Parceiros recebem limites de taxa significativamente maiores:| Tier | Requisições/min | Tokens/min |
|---|---|---|
| XS | 500 | 2.000.000 |
| S | 150 | 1.500.000 |
| M | 100 | 1.500.000 |
| L | 60 | 1.000.000 |
| Tipo | Requisições/min |
|---|---|
| Imagem | 60 |
| Áudio | 120 |
| Embedding | 500 |