Rate Limits | Venice API Docs

속도 제한은 모델 및 등급에 따라 다릅니다. 아래의 기본 제한은 유용한 참고 자료이지만, /api_keys/rate_limits API 엔드포인트가 현재 제한을 가져오는 표준 방법입니다. 언제든지 정확한 제한을 확인할 수 있습니다:

제한 보기

인터랙티브 플레이그라운드

속도 제한 로그

제한에 도달한 요청 확인

curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

기본 제한

텍스트 모델

텍스트 모델은 크기에 따라 등급으로 그룹화됩니다. 모델 페이지의 각 모델 카드에는 해당 등급 배지가 표시됩니다.

등급	요청/분	토큰/분
XS	500	1,000,000
S	75	750,000
M	50	750,000
L	20	500,000

각 등급에 어떤 모델이 있나요?

XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

기타 모델

유형	요청/분
이미지	20
오디오	60
임베딩	500
비디오 (queue)	40
비디오 (retrieve)	120

오류 처리

실패한 요청(500, 503, 429)은 지수 백오프로 재시도해야 합니다. 특히 429 오류의 경우, 재시도할 수 있는 정확한 Unix 타임스탬프는 x-ratelimit-reset-requests 헤더를 확인하세요. 대부분의 HTTP 라이브러리는 이를 자동으로 처리하는 내장 재시도 메커니즘을 가지고 있습니다.

남용 방지

30초 내에 20개 이상의 실패한 요청을 생성하면 API는 30초 동안 추가 요청을 차단합니다:

Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

응답 헤더

모든 응답에는 다음 헤더가 포함됩니다:

Header	Description
`x-ratelimit-limit-requests`	현재 윈도우에서 허용된 최대 요청
`x-ratelimit-remaining-requests`	현재 윈도우에서 남은 요청
`x-ratelimit-reset-requests`	윈도우가 재설정되는 Unix 타임스탬프
`x-ratelimit-limit-tokens`	분당 허용된 최대 토큰
`x-ratelimit-remaining-tokens`	현재 분에 남은 토큰
`x-ratelimit-reset-tokens`	토큰 제한이 재설정될 때까지의 초

파트너 등급

파트너는 훨씬 더 높은 속도 제한을 받습니다:

등급	요청/분	토큰/분
XS	500	2,000,000
S	150	1,500,000
M	100	1,500,000
L	60	1,000,000

유형	요청/분
이미지	60
오디오	120
임베딩	500

지속적으로 속도 제한에 도달하고 사용 패턴이 지속적인 수요를 보이는 경우, 파트너 액세스를 논의하기 위해 연락하세요: [email protected]. 파트너 등급 제한은 특정 요구 사항에 따라 조정할 수 있습니다.

제한 보기

속도 제한 로그

​기본 제한

​텍스트 모델

​기타 모델

​오류 처리

​남용 방지

​응답 헤더

​파트너 등급