Référence API | Venice API Docs

L’API Venice propose des interfaces REST HTTP et streaming pour créer des applications d’IA avec des modèles non censurés et une inférence privée. Vous pouvez créer avec de la génération de texte, de la création d’image, des embeddings et plus encore, le tout sans politiques de contenu restrictives. Des exemples d’intégration et des SDK sont disponibles dans la documentation. Notre référence API est également disponible sous forme de spec OpenAPI YAML.

Authentification

L’API Venice utilise des clés API pour l’authentification. Créez et gérez vos clés API dans vos paramètres API. Toutes les requêtes API nécessitent une authentification HTTP Bearer :

Authorization: Bearer VENICE_API_KEY

Votre clé API est un secret. Ne la partagez pas et ne l’exposez pas dans du code côté client.

Compatibilité OpenAI

L’API de Venice implémente la spécification API d’OpenAI, garantissant la compatibilité avec les clients et outils OpenAI existants. Cela vous permet d’intégrer Venice en utilisant l’interface OpenAI familière tout en accédant aux fonctionnalités uniques de Venice et à ses modèles non censurés.

Configuration

Configurez votre client pour utiliser l’URL de base de Venice (https://api.venice.ai/api/v1) et effectuez votre première requête :

curl https://api.venice.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "venice-uncensored",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.VENICE_API_KEY,
  baseURL: "https://api.venice.ai/api/v1",
});

const response = await client.chat.completions.create({
  model: "venice-uncensored",
  messages: [{ role: "user", content: "Hello!" }]
});

console.log(response.choices[0].message.content);

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("VENICE_API_KEY"),
    base_url="https://api.venice.ai/api/v1"
)

response = client.chat.completions.create(
    model="venice-uncensored",
    messages=[{"role": "user", "content": "Hello!"}]
)

print(response.choices[0].message.content)

Fonctionnalités spécifiques à Venice

Prompts système

Venice fournit des prompts système par défaut conçus pour garantir des réponses de modèle non censurées et naturelles. Vous avez deux options pour gérer les prompts système :

Comportement par défaut : Vos prompts système sont ajoutés aux valeurs par défaut de Venice
Comportement personnalisé : Désactiver entièrement les prompts système de Venice

Désactiver les prompts système de Venice

Utilisez l’option venice_parameters pour supprimer les prompts système par défaut de Venice :

curl https://api.venice.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "venice-uncensored",
    "messages": [
      {"role": "system", "content": "Your custom system prompt"},
      {"role": "user", "content": "Why is the sky blue?"}
    ],
    "venice_parameters": {
      "include_venice_system_prompt": false
    }
  }'

const completion = await client.chat.completions.create({
  model: "venice-uncensored",
  messages: [
    {
      role: "system",
      content: "Your custom system prompt",
    },
    {
      role: "user",
      content: "Why is the sky blue?",
    },
  ],
  venice_parameters: {
    include_venice_system_prompt: false,
  },
});

response = client.chat.completions.create(
    model="venice-uncensored",
    messages=[
        {"role": "system", "content": "Your custom system prompt"},
        {"role": "user", "content": "Why is the sky blue?"}
    ],
    extra_body={
        "venice_parameters": {
            "include_venice_system_prompt": False
        }
    }
)

Paramètres Venice

L’objet venice_parameters vous permet d’accéder aux fonctionnalités spécifiques à Venice qui ne sont pas disponibles dans l’API OpenAI standard :

Paramètre	Type	Description	Par défaut
`character_slug`	string	Le slug d’un personnage Venice public (visible comme « Public ID » sur la page du personnage publié)	-
`strip_thinking_response`	boolean	Retire les blocs `<think></think>` de la réponse (modèles utilisant l’ancien format de balise `<think>`). Voir Modèles de raisonnement.	`false`
`disable_thinking`	boolean	Sur les modèles de raisonnement pris en charge, désactive la réflexion et retire les blocs `<think></think>` de la réponse	`false`
`enable_web_search`	string	Active la recherche web pour cette requête (`off`, `on`, `auto` - auto active selon la discrétion du modèle) Une tarification supplémentaire à l’usage s’applique, voir tarification.	`off`
`enable_web_scraping`	boolean	Active le scraping web de jusqu’à 5 URL détectées dans le message utilisateur. Le contenu scrapé enrichit les réponses et contourne la recherche web. Seules les URL scrapées avec succès sont facturées. Une tarification supplémentaire à l’usage s’applique, voir tarification.	`false`
`enable_x_search`	boolean	Active la recherche native de xAI (web + X/Twitter) pour les modèles Grok pris en charge (par ex. `grok-4-20-beta`). Fournit des résultats de recherche de meilleure qualité en utilisant l’infrastructure de recherche de xAI. Lorsque cette option est activée, la recherche web standard de Venice est contournée. Une tarification supplémentaire à l’usage s’applique, voir tarification.	`false`
`enable_web_citations`	boolean	Lorsque la recherche web est activée, demande au LLM de citer ses sources au format `[REF]0[/REF]`	`false`
`include_search_results_in_stream`	boolean	Expérimental : Inclut les résultats de recherche dans le stream en tant que premier chunk émis	`false`
`return_search_results_as_documents`	boolean	Expose les résultats de recherche dans un appel d’outil compatible OpenAI nommé `venice_web_search_documents` pour l’intégration LangChain	`false`
`include_venice_system_prompt`	boolean	Indique s’il faut inclure les prompts système par défaut de Venice avec les prompts système spécifiés	`true`

Ces paramètres peuvent également être spécifiés en tant que suffixes de modèle ajoutés au nom du modèle (par ex. zai-org-glm-5:enable_web_search=auto). Voir Suffixes de fonctionnalité de modèle pour plus de détails.

Mise en cache des prompts

Venice prend en charge la mise en cache des prompts sur certains modèles afin de réduire la latence et les coûts pour le contenu répété. Pour les modèles pris en charge, Venice met automatiquement en cache les prompts système — aucune modification de code requise. Vous pouvez également marquer manuellement le contenu pour la mise en cache en utilisant la propriété cache_control sur le contenu du message.

Paramètre	Type	Description
`prompt_cache_key`	string	Indice de routage optionnel pour améliorer les taux de hit du cache. Lorsqu’il est fourni, Venice route les requêtes vers la même infrastructure backend, augmentant la probabilité de hits du cache sur les conversations multi-tour.

Voir Mise en cache des prompts pour les détails sur le fonctionnement du cache, la facturation et les bonnes pratiques.

Référence des en-têtes de réponse

Toutes les réponses de l’API Venice incluent des en-têtes HTTP qui fournissent des métadonnées sur la requête, les limites de débit, les informations sur le modèle et le solde du compte. En plus des codes d’erreur renvoyés par les réponses API, vous pouvez inspecter ces en-têtes pour obtenir l’ID unique d’une requête API particulière, surveiller les limites de débit et suivre le solde de votre compte. Venice recommande de journaliser les ID de requête (en-tête CF-RAY) dans les déploiements en production pour un dépannage plus efficace avec notre équipe de support, si le besoin se présente. Le tableau ci-dessous fournit une référence complète de tous les en-têtes que vous pouvez rencontrer :

En-tête	Type	Objet	Quand renvoyé
En-têtes HTTP standard
`Content-Type`	string	Type MIME du corps de la réponse (`application/json`, `text/csv`, `image/png`, etc.)	Toujours
`Content-Encoding`	string	Encodage utilisé pour compresser le corps de la réponse (`gzip`, `br`)	Lorsque le client envoie l’en-tête `Accept-Encoding`
`Content-Disposition`	string	Comment le contenu doit être affiché (par ex. `attachment; filename=export.csv`)	Lors du téléchargement de fichiers ou d’exports
`Date`	string	Horodatage au format RFC 7231 lorsque la réponse a été générée	Toujours
Identification de la requête
`CF-RAY`	string	Identifiant unique pour cette requête API, utilisé pour le dépannage et les demandes de support	Toujours
`x-venice-version`	string	Version/révision actuelle du service API Venice (par ex. `20250828.222653`)	Toujours
`x-venice-timestamp`	string	Horodatage serveur lorsque la requête a été traitée (format ISO 8601)	Lorsque le suivi d’horodatage est activé
`x-venice-host-name`	string	Nom d’hôte du serveur qui a traité la requête	Réponses d’erreur et scénarios de débogage
Informations sur le modèle
`x-venice-model-id`	string	Identifiant unique du modèle IA utilisé pour la requête (par ex. `venice-01-lite`)	Endpoints d’inférence utilisant des modèles IA
`x-venice-model-name`	string	Nom convivial/d’affichage du modèle IA utilisé (par ex. `Venice Lite`)	Endpoints d’inférence utilisant des modèles IA
`x-venice-model-router`	string	Routeur/service backend qui a géré l’inférence du modèle	Endpoints d’inférence lorsque les informations de routage sont disponibles
`x-venice-model-deprecation-warning`	string	Message d’avertissement pour les modèles programmés pour dépréciation	Lors de l’utilisation d’un modèle déprécié
`x-venice-model-deprecation-date`	string	Date à laquelle le modèle sera déprécié (date ISO 8601)	Lors de l’utilisation d’un modèle déprécié
Informations sur les limites de débit
`x-ratelimit-limit-requests`	number	Nombre maximum de requêtes autorisées dans la fenêtre temporelle actuelle	Toutes les requêtes authentifiées
`x-ratelimit-remaining-requests`	number	Nombre de requêtes restantes dans la fenêtre temporelle actuelle	Toutes les requêtes authentifiées
`x-ratelimit-reset-requests`	number	Horodatage Unix lorsque la limite de débit de requêtes se réinitialise	Toutes les requêtes authentifiées
`x-ratelimit-limit-tokens`	number	Nombre maximum de tokens (prompt + completion) autorisés dans la fenêtre temporelle	Toutes les requêtes authentifiées
`x-ratelimit-remaining-tokens`	number	Nombre de tokens restants dans la fenêtre temporelle actuelle	Toutes les requêtes authentifiées
`x-ratelimit-reset-tokens`	number	Durée en secondes avant la réinitialisation de la limite de tokens	Toutes les requêtes authentifiées
`x-ratelimit-type`	string	Type de limite de débit appliqué (`user`, `api_key`, `global`)	Lorsque la limite de débit est appliquée
En-têtes de pagination
`x-pagination-limit`	number	Nombre d’éléments par page	Endpoints paginés
`x-pagination-page`	number	Numéro de page actuel (à partir de 1)	Endpoints paginés
`x-pagination-total`	number	Nombre total d’éléments sur toutes les pages	Endpoints paginés
`x-pagination-total-pages`	number	Nombre total de pages	Endpoints paginés
Informations sur le solde du compte
`x-venice-balance-diem`	string	Votre solde de tokens DIEM avant le traitement de la requête	Toutes les requêtes authentifiées
`x-venice-balance-usd`	string	Votre solde de crédit USD avant le traitement de la requête	Toutes les requêtes authentifiées
En-têtes de sécurité de contenu
`x-venice-is-blurred`	string	Indique si l’image générée a été floutée en raison des politiques de contenu (`true`/`false`)	Génération d’image avec Safe Venice activé
`x-venice-is-content-violation`	string	Indique si le contenu viole les politiques de contenu de Venice (`true`/`false`)	Endpoints de génération de contenu
`x-venice-is-adult-model-content-violation`	string	Indique si le contenu viole les politiques de contenu des modèles pour adultes (`true`/`false`)	Endpoints de génération d’image
`x-venice-contains-minor`	string	Indique si l’image contient des mineurs (`true`/`false`)	Endpoints d’analyse d’image avec détection d’âge
Informations client
`x-venice-middleface-version`	string	Version du client middleface Venice	Requêtes des clients middleface Venice
`x-venice-mobile-version`	string	Version du client de l’application mobile Venice	Requêtes des applications mobiles
`x-venice-request-timestamp-ms`	number	Horodatage de la requête fourni par le client en millisecondes	Lorsque le client fournit un horodatage dans la requête
`x-venice-control-instance`	string	Identifiant d’instance de contrôle pour le débogage	Endpoints de génération d’image pour le débogage
En-têtes d’authentification
`x-auth-refreshed`	string	Indique que le token d’authentification a été rafraîchi pendant la requête (`true`/`false`)	Lorsque les tokens d’authentification sont auto-rafraîchis
`x-retry-count`	number	Nombre de tentatives de relance pour la requête	Lorsque des relances de requête se produisent

Notes importantes

Casse des noms d’en-tête : Les en-têtes HTTP sont insensibles à la casse, mais Venice utilise des minuscules avec des tirets pour la cohérence
Valeurs string : Les valeurs booléennes dans les en-têtes sont renvoyées sous forme de chaînes ("true" ou "false")
Valeurs numériques : Les grands nombres et valeurs de solde peuvent être renvoyés sous forme de chaînes pour éviter une perte de précision
En-têtes optionnels : Tous les en-têtes ne sont pas renvoyés dans chaque réponse ; leur présence dépend de l’endpoint et du contexte de la requête
Compression : Utilisez Accept-Encoding: gzip, br dans les requêtes pour recevoir des réponses compressées lorsque cela est pris en charge

Exemple : Accéder aux en-têtes de réponse

// Après avoir effectué une requête API, accédez aux en-têtes depuis l'objet de réponse
const requestId = response.headers.get('CF-RAY');
const remainingRequests = response.headers.get('x-ratelimit-remaining-requests');
const remainingTokens = response.headers.get('x-ratelimit-remaining-tokens');
const usdBalance = response.headers.get('x-venice-balance-usd');

// Vérifiez les avertissements de dépréciation de modèle
const deprecationWarning = response.headers.get('x-venice-model-deprecation-warning');
if (deprecationWarning) {
  console.warn(`Model Deprecation: ${deprecationWarning}`);
}

Bonnes pratiques

Limites de débit : Surveillez les en-têtes x-ratelimit-remaining-requests et x-ratelimit-remaining-tokens et implémentez un backoff exponentiel
Surveillance du solde : Suivez les en-têtes x-venice-balance-usd et x-venice-balance-diem pour éviter les interruptions de service
Prompts système : Testez avec et sans les prompts système de Venice pour trouver celui qui convient le mieux à votre cas d’usage
Clés API : Gardez vos clés API en sécurité et faites-les tourner régulièrement
Journalisation des requêtes : Journalisez les valeurs d’en-tête CF-RAY pour le dépannage avec le support
Dépréciation de modèle : Vérifiez les en-têtes x-venice-model-deprecation-warning lors de l’utilisation des modèles

Différences avec l’API d’OpenAI

Bien que Venice maintienne une grande compatibilité avec la spécification API d’OpenAI, il existe certaines différences clés :

venice_parameters : Des configurations supplémentaires comme enable_web_search, character_slug et strip_thinking_response pour des fonctionnalités étendues
Prompts système : Venice ajoute vos prompts système aux valeurs par défaut qui optimisent les réponses non censurées (désactivez avec include_venice_system_prompt: false)
Écosystème de modèles : Venice propose sa propre gamme de modèles, y compris des modèles non censurés et de raisonnement — utilisez les ID de modèle Venice plutôt que les mappages OpenAI
En-têtes de réponse : En-têtes uniques pour le suivi du solde (x-venice-balance-usd, x-venice-balance-diem), les avertissements de dépréciation de modèle et les indicateurs de sécurité de contenu
Politiques de contenu : Politiques plus permissives avec des modèles non censurés dédiés et un filtrage de contenu optionnel

Stabilité de l’API

Venice maintient la compatibilité ascendante pour les endpoints et paramètres v1. Pour la politique de cycle de vie des modèles, les avis de dépréciation et les conseils de migration, voir Dépréciations.

Spécification OpenAPI et données brutes

Pour un accès programmatique à la documentation et aux données de l’API Venice — y compris pour une utilisation avec RAG (Retrieval-Augmented Generation) — les ressources suivantes sont disponibles :

Spec OpenAPI (YAML) — la spécification API complète au format YAML
Source de la documentation API — toutes les pages de documentation (format .mdx) sous forme d’archive téléchargeable

_{Les champs de requête non listés dans cette documentation peuvent être transmis mais ne sont ni validés ni garantis fonctionner.}

Venice APIs

Introduction

Authentification

Compatibilité OpenAI

Configuration

Fonctionnalités spécifiques à Venice

Prompts système

Désactiver les prompts système de Venice

Paramètres Venice

Mise en cache des prompts

Référence des en-têtes de réponse

Notes importantes

Exemple : Accéder aux en-têtes de réponse

Bonnes pratiques

Différences avec l’API d’OpenAI

Stabilité de l’API

Spécification OpenAPI et données brutes

​Authentification

​Compatibilité OpenAI

​Configuration

​Fonctionnalités spécifiques à Venice

​Prompts système

​Désactiver les prompts système de Venice

​Paramètres Venice

​Mise en cache des prompts

​Référence des en-têtes de réponse

​Notes importantes

​Exemple : Accéder aux en-têtes de réponse

​Bonnes pratiques

​Différences avec l’API d’OpenAI

​Stabilité de l’API

​Spécification OpenAPI et données brutes

Authentification

Compatibilité OpenAI

Configuration

Fonctionnalités spécifiques à Venice

Prompts système

Désactiver les prompts système de Venice

Paramètres Venice

Mise en cache des prompts

Référence des en-têtes de réponse

Notes importantes

Exemple : Accéder aux en-têtes de réponse

Bonnes pratiques

Différences avec l’API d’OpenAI

Stabilité de l’API

Spécification OpenAPI et données brutes