Zum Hauptinhalt springen
Rate-Limits variieren je nach Modell und Stufe. Die folgenden Standardlimits sind eine hilfreiche Referenz, aber der API-Endpoint /api_keys/rate_limits ist die maßgebliche Quelle, um Ihre aktuellen Limits abzurufen. Sie können Ihre genauen Limits jederzeit prüfen:

Ihre Limits ansehen

Interaktiver Playground

Rate-Limit-Logs

Sehen Sie, welche Anfragen Limits erreicht haben
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"

Standardlimits

Textmodelle

Textmodelle sind in Stufen nach Größe gruppiert. Jede Modellkarte auf der Models-Seite zeigt ihr Stufen-Badge an.
StufeRequests/minTokens/min
XS5001.000.000
S75750.000
M50750.000
L20500.000
XS qwen3-4b llama-3.2-3bS mistral-31-24b venice-uncensoredM zai-org-glm-5 qwen3-next-80b google-gemma-3-27b-itL qwen3-235b-a22b-instruct-2507 qwen3-235b-a22b-thinking-2507 deepseek-ai-DeepSeek-R1 grok-41-fast kimi-k2-thinking gemini-3-pro-preview hermes-3-llama-3.1-405b qwen3-coder-480b-a35b-instruct zai-org-glm-4.7 openai-gpt-oss-120b

Andere Modelle

TypRequests/min
Image20
Audio60
Embedding500
Video (queue)40
Video (retrieve)120

Fehlerbehandlung

Fehlgeschlagene Anfragen (500, 503, 429) sollten mit exponentiellem Backoff wiederholt werden. Speziell bei 429-Fehlern prüfen Sie den Header x-ratelimit-reset-requests für den genauen Unix-Zeitstempel, ab dem Sie es erneut versuchen können. Die meisten HTTP-Bibliotheken verfügen über integrierte Retry-Mechanismen, die dies automatisch übernehmen.

Missbrauchsschutz

Wenn Sie mehr als 20 fehlgeschlagene Anfragen in 30 Sekunden erzeugen, blockiert die API weitere Anfragen für 30 Sekunden:
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.

Response-Header

Jede Antwort enthält diese Header:
HeaderBeschreibung
x-ratelimit-limit-requestsMax. Anfragen, die im aktuellen Fenster erlaubt sind
x-ratelimit-remaining-requestsVerbleibende Anfragen im aktuellen Fenster
x-ratelimit-reset-requestsUnix-Zeitstempel, wann das Fenster zurückgesetzt wird
x-ratelimit-limit-tokensMax. erlaubte Tokens pro Minute
x-ratelimit-remaining-tokensVerbleibende Tokens in der aktuellen Minute
x-ratelimit-reset-tokensSekunden bis zum Zurücksetzen des Token-Limits

Partner-Stufe

Partner erhalten deutlich höhere Rate-Limits:
StufeRequests/minTokens/min
XS5002.000.000
S1501.500.000
M1001.500.000
L601.000.000
TypRequests/min
Image60
Audio120
Embedding500
Wenn Sie konstant Ihre Rate-Limits erreichen und Ihre Nutzungsmuster eine anhaltende Nachfrage über die Zeit zeigen, kontaktieren Sie uns, um über Partner-Zugang zu sprechen: [email protected]. Partner-Tier-Limits können an Ihre spezifischen Anforderungen angepasst werden.