메인 콘텐츠로 건너뛰기
속도 제한은 모델 및 등급에 따라 다릅니다. 아래의 기본 제한은 유용한 참고 자료이지만, /api_keys/rate_limits API 엔드포인트가 현재 제한을 가져오는 표준 방법입니다. 언제든지 정확한 제한을 확인할 수 있습니다:

제한 보기

인터랙티브 플레이그라운드

속도 제한 로그

제한에 도달한 요청 확인
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

기본 제한

텍스트 모델

텍스트 모델은 크기에 따라 등급으로 그룹화됩니다. 모델 페이지의 각 모델 카드에는 해당 등급 배지가 표시됩니다.
등급요청/분토큰/분
XS5001,000,000
S75750,000
M50750,000
L20500,000
XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

기타 모델

유형요청/분
이미지20
오디오60
임베딩500
비디오 (queue)40
비디오 (retrieve)120

오류 처리

실패한 요청(500, 503, 429)은 지수 백오프로 재시도해야 합니다. 특히 429 오류의 경우, 재시도할 수 있는 정확한 Unix 타임스탬프는 x-ratelimit-reset-requests 헤더를 확인하세요. 대부분의 HTTP 라이브러리는 이를 자동으로 처리하는 내장 재시도 메커니즘을 가지고 있습니다.

남용 방지

30초 내에 20개 이상의 실패한 요청을 생성하면 API는 30초 동안 추가 요청을 차단합니다:
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

응답 헤더

모든 응답에는 다음 헤더가 포함됩니다:
HeaderDescription
x-ratelimit-limit-requests현재 윈도우에서 허용된 최대 요청
x-ratelimit-remaining-requests현재 윈도우에서 남은 요청
x-ratelimit-reset-requests윈도우가 재설정되는 Unix 타임스탬프
x-ratelimit-limit-tokens분당 허용된 최대 토큰
x-ratelimit-remaining-tokens현재 분에 남은 토큰
x-ratelimit-reset-tokens토큰 제한이 재설정될 때까지의 초

파트너 등급

파트너는 훨씬 더 높은 속도 제한을 받습니다:
등급요청/분토큰/분
XS5002,000,000
S1501,500,000
M1001,500,000
L601,000,000
유형요청/분
이미지60
오디오120
임베딩500
지속적으로 속도 제한에 도달하고 사용 패턴이 지속적인 수요를 보이는 경우, 파트너 액세스를 논의하기 위해 연락하세요: [email protected]. 파트너 등급 제한은 특정 요구 사항에 따라 조정할 수 있습니다.