/api_keys/rate_limits API 엔드포인트가 현재 제한을 가져오는 표준 방법입니다. 언제든지 정확한 제한을 확인할 수 있습니다:
제한 보기
인터랙티브 플레이그라운드
속도 제한 로그
제한에 도달한 요청 확인
기본 제한
텍스트 모델
텍스트 모델은 크기에 따라 등급으로 그룹화됩니다. 모델 페이지의 각 모델 카드에는 해당 등급 배지가 표시됩니다.| 등급 | 요청/분 | 토큰/분 |
|---|---|---|
| XS | 500 | 1,000,000 |
| S | 75 | 750,000 |
| M | 50 | 750,000 |
| L | 20 | 500,000 |
각 등급에 어떤 모델이 있나요?
각 등급에 어떤 모델이 있나요?
XS
qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b기타 모델
| 유형 | 요청/분 |
|---|---|
| 이미지 | 20 |
| 오디오 | 60 |
| 임베딩 | 500 |
| 비디오 (queue) | 40 |
| 비디오 (retrieve) | 120 |
오류 처리
실패한 요청(500, 503, 429)은 지수 백오프로 재시도해야 합니다. 특히 429 오류의 경우, 재시도할 수 있는 정확한 Unix 타임스탬프는x-ratelimit-reset-requests 헤더를 확인하세요. 대부분의 HTTP 라이브러리는 이를 자동으로 처리하는 내장 재시도 메커니즘을 가지고 있습니다.
남용 방지
30초 내에 20개 이상의 실패한 요청을 생성하면 API는 30초 동안 추가 요청을 차단합니다:응답 헤더
모든 응답에는 다음 헤더가 포함됩니다:| Header | Description |
|---|---|
x-ratelimit-limit-requests | 현재 윈도우에서 허용된 최대 요청 |
x-ratelimit-remaining-requests | 현재 윈도우에서 남은 요청 |
x-ratelimit-reset-requests | 윈도우가 재설정되는 Unix 타임스탬프 |
x-ratelimit-limit-tokens | 분당 허용된 최대 토큰 |
x-ratelimit-remaining-tokens | 현재 분에 남은 토큰 |
x-ratelimit-reset-tokens | 토큰 제한이 재설정될 때까지의 초 |
파트너 등급
파트너는 훨씬 더 높은 속도 제한을 받습니다:| 등급 | 요청/분 | 토큰/분 |
|---|---|---|
| XS | 500 | 2,000,000 |
| S | 150 | 1,500,000 |
| M | 100 | 1,500,000 |
| L | 60 | 1,000,000 |
| 유형 | 요청/분 |
|---|---|
| 이미지 | 60 |
| 오디오 | 120 |
| 임베딩 | 500 |