Guide Reference to Video | Documentation de l'API Venice

Reference to Video vous permet de verrouiller l’apparence des personnages, des objets et des scènes afin que vos vidéos générées par IA restent visuellement cohérentes. Au lieu d’espérer que le modèle interprète correctement votre prompt, vous fournissez des ancres visuelles — des images de référence qui indiquent au modèle l’apparence exacte de votre sujet. Cette fonctionnalité est disponible sur les modèles Kling O3 et Grok Imagine R2V dans le Venice Video Studio. Chaque famille de modèles utilise une approche différente des images de référence — voir les sections spécifiques à chaque modèle ci-dessous.

Quand utiliser Reference to Video

Utilisez Reference to Video lorsque vous avez besoin de :

Cohérence des personnages — la même personne ou le même personnage à travers plusieurs plans
Précision produit — un produit réel qui doit être identique à l’original
Continuité de scène — un environnement ou un arrière-plan spécifique à travers les générations
Scènes multi-personnages — plusieurs personnages distincts interagissant sans se mélanger

Pour un text-to-video ou image-to-video simple où la cohérence n’est pas critique, les modèles standards fonctionnent bien sans références.

Modèles disponibles

Modèle	Approche	Idéal pour
Kling O3 Pro R2V	Éléments + images de scène	Scènes multi-personnages complexes avec un contrôle d’identité précis
Kling O3 Standard R2V	Éléments + images de scène	Itération plus rapide sur des scènes basées sur des éléments
Grok Imagine R2V	Images de référence simples	Génération rapide pilotée par références avec jusqu’à 7 images

Kling O3 utilise une approche structurée avec des Éléments (ancres d’identité de personnage avec image frontale + images de référence) et des Images de scène. Grok Imagine R2V adopte une approche plus simple — vous téléversez directement des images de référence et les référencez dans votre prompt avec @Image1, @Image2, etc.

Kling O3 Reference to Video

Concepts clés

Kling O3 Reference to Video utilise trois types d’entrée visuelle qui fonctionnent ensemble :

Entrée	Requis	Objectif	Comment la référencer dans le prompt
Éléments	Au moins une entrée visuelle*	Verrouiller l’identité d’un personnage ou d’un objet	`@Element1`, `@Element2`, etc.
Images de référence de scène	Au moins une entrée visuelle*	Définir l’environnement, le style et l’ambiance	`@Image1`, `@Image2`, etc.
Image de début	Au moins une entrée visuelle*	Contrôler la première image de la vidéo	S/O (défini via téléversement)
Image de fin	Non	Contrôler la dernière image de la vidéo	S/O (défini via téléversement)

*Au moins l’un de : image de début, éléments ou images de référence de scène est requis.

Éléments

Un Élément est un personnage ou un objet que vous souhaitez garder visuellement stable tout au long de la vidéo. Chaque élément se compose de :

Image frontale (requise par élément) — une photo claire de face du sujet. C’est l’ancre principale d’identité. Considérez-la comme la « photo de passeport » de votre personnage ou produit.
Images de référence (1–3, optionnelles) — angles supplémentaires du même sujet (vue de côté, angle 45 degrés, dos). Elles aident le modèle à comprendre le sujet en 3D. Si elles ne sont pas fournies, l’image frontale est automatiquement utilisée comme référence.

Vous pouvez ajouter jusqu’à 7 éléments par génération (limité par le total combiné). Référencez-les dans votre prompt avec @Element1, @Element2, etc.

Images de référence de scène

Les références de scène définissent la « scène » où l’action se déroule. Elles influencent :

L’éclairage et la palette de couleurs
L’architecture et les détails de l’environnement
Le style visuel global et l’ambiance

Vous pouvez ajouter jusqu’à 4 images de scène. Référencez-les avec @Image1, @Image2, etc. dans votre prompt.

Limitations

Le nombre total d’images à travers tous les types d’entrée est limité :

Limite	Valeur
Minimum requis	Au moins 1 entrée visuelle (image de début, élément ou image de scène)
Total combiné (image de début + image de fin + éléments + images de scène)	7 maximum
Éléments (sans image de début/fin)	7 maximum
Éléments (avec image de début ou de fin)	3 maximum
Images de référence de scène	4 maximum
Images de référence par élément	1–3

Exemples de scénarios :

7 éléments + 0 image de scène = 7 ✓ (pas de frames)
5 éléments + 2 images de scène = 7 ✓ (pas de frames)
Image de début (1) + 3 éléments + 3 images de scène = 7 ✓
Image de début (1) + image de fin (1) + 3 éléments + 2 images de scène = 7 ✓
Image de début (1) + 4 éléments = ✗ (max 3 éléments avec frame)
Image de début (1) + image de fin (1) + 4 éléments = ✗ (max 3 éléments avec frames)

Chaque élément requiert une image frontale. Si vous ne fournissez pas d’images de référence pour un élément, l’image frontale est automatiquement utilisée comme référence.

Mode multi-plans

Le mode multi-plans vous permet de diviser une seule génération en plusieurs scènes, chacune avec son propre prompt et sa propre durée. Les éléments et références de scène persistent à travers tous les plans, maintenant la cohérence. La durée totale à travers tous les plans ne peut pas dépasser 15 secondes.

Guide étape par étape (Video Studio)

1. Ouvrir Video Studio et sélectionner le modèle

Allez sur venice.ai/video. Dans le navigateur de modèles à gauche, sélectionnez l’un des modèles Kling O3 Reference to Video :

Kling O3 Pro R2V — qualité supérieure, temps de génération plus long (~6 min)
Kling O3 Standard R2V — plus rapide, plus économique pour l’itération

2. Ajouter des entrées visuelles (au moins une requise)

Vous devez fournir au moins une entrée visuelle pour générer une vidéo : une image de début, un élément ou une image de référence de scène. Dans le panneau d’entrée, vous verrez la section Éléments. Cliquez sur Ajouter un élément pour créer un élément pour les personnages ou objets que vous souhaitez garder visuellement cohérents. Pour chaque élément :

Cliquez sur la tuile Frontal pour téléverser une image claire de face de votre personnage ou objet
Optionnellement, cliquez sur Ajouter sous Images de référence pour téléverser des angles supplémentaires (1–3)

Répétez pour des personnages ou objets supplémentaires (jusqu’à 7 éléments au total, ou 3 si vous utilisez des images de début/fin).

Le total combiné de l’image de début, de l’image de fin, des éléments et des images de scène ne peut pas dépasser 7. Voir Limitations pour plus de détails.

Meilleures images de référence : utilisez des photos bien éclairées avec un arrière-plan propre. Fournissez des vues de face, de côté et à 45 degrés pour le verrouillage d’identité le plus fort. Assurez-vous que toutes les images de référence partagent le même style visuel (ne mélangez pas photoréaliste et anime).

3. Ajouter des images de référence de scène (optionnel)

Sous la section Éléments, vous verrez Images de référence de scène. Téléversez des images qui définissent l’environnement souhaité — un lieu spécifique, une configuration d’éclairage ou un style artistique. Elles sont étiquetées automatiquement comme @Image1, @Image2, etc.

4. Téléverser une image de début (optionnel)

Si vous voulez contrôler la première image exacte de votre vidéo, basculez vers le type d’entrée Image et téléversez une image de début. Vous pouvez également définir optionnellement une image de fin.

5. Écrire votre prompt

Dans le champ de prompt, décrivez l’action souhaitée en référençant vos éléments et images de scène à l’aide des tags @ :

@Element1 walks through the streets of @Image1, looking up at the buildings.
The camera slowly tracks from behind, revealing the city skyline.

Pour les scènes multi-personnages :

@Element1 and @Element2 enter the cafe in @Image1 from opposite sides.
@Element1 waves and walks toward @Element2, who is sitting at a corner table.

6. Configurer les paramètres

Ouvrez Paramètres vidéo pour ajuster :

Paramètre	Options	Par défaut
Durée	3s – 15s	5s
Ratio d’aspect	16:9, 9:16, 1:1	16:9
Générer l’audio	On/Off	Off

La génération audio ajoute des effets sonores natifs, des dialogues et de l’audio ambiant synchronisés avec la vidéo. Elle augmente le coût d’environ 25 %.

7. Générer

Cliquez sur Générer la vidéo. Kling O3 prend généralement de 4 à 6 minutes selon le palier du modèle et la durée. Vous pouvez mettre en file d’attente plusieurs générations et parcourir les résultats dans la galerie vidéo.

Storyboard multi-plans

Pour les séquences narratives, utilisez le mode multi-plans pour définir des scènes distinctes au sein d’une seule génération.

Dans la zone de prompt, cliquez sur Ajouter un plan pour créer des plans supplémentaires
Écrivez un prompt distinct pour chaque plan
Définissez la durée de chaque plan (3–15 s chacun, total ≤ 15 s)

Les éléments et références de scène persistent automatiquement à travers tous les plans :

Shot 1 (5s): @Element1 stands at the edge of @Image1, looking out at the horizon.
Slow camera push forward.

Shot 2 (5s): Close-up of @Element1's face as they turn toward the camera.
Soft natural lighting, shallow depth of field.

Shot 3 (5s): @Element1 walks away from camera into the distance.
Wide cinematic shot, golden hour lighting.

La durée totale en multi-plans ne peut pas dépasser 15 secondes. Par exemple, trois plans de 5 secondes = 15 s maximum.

Conseils de prompting

Structurez votre prompt

Suivez ce modèle pour des résultats fiables :

[sujet avec tag @Element] + [action] + [environnement avec tag @Image] + [mouvement de caméra] + [éclairage/style]

Exemple :

@Element1 hops happily across the candy ground of @Image1, stops to look at a
giant lollipop, tilts its head curiously. Cinematic tracking shot, soft warm lighting.

Gardez les prompts entre 50 et 150 mots

Les prompts trop courts manquent de détails. Les prompts trop longs introduisent des contradictions. Visez le juste équilibre.

Utilisez un langage simple pour la caméra

Le modèle répond mieux aux directives de caméra simples :

Utilisez	Évitez
`slow camera push forward`	`dolly zoom with rack focus transition`
`tracking shot from behind`	`complex handheld parallax movement`
`close-up`	`extreme macro with tilt-shift bokeh`
`wide cinematic shot`	`anamorphic ultra-wide establishing crane shot`

Utilisez un vocabulaire cohérent

Si vous décrivez un personnage portant « a red jacket » dans un prompt, ne passez pas à « crimson coat » dans le suivant. Le modèle traite les mots différents comme des intentions différentes.

Placez les instructions de caméra tôt

Placez la direction de caméra près du début du prompt pour des résultats plus fiables :

Cinematic tracking shot of @Element1 walking through @Image1, leaves
blowing in the wind, golden afternoon light.

Tarification Kling O3

Les modèles Kling O3 Reference to Video utilisent une tarification basée sur la durée :

Modèle	Par seconde (sans audio)	Par seconde (avec audio)
Kling O3 Pro R2V	0,112 $	0,140 $
Kling O3 Standard R2V	0,112 $	0,140 $

Exemple : une vidéo de 10 secondes avec audio = 10 × 0,14

= **1,40

** Utilisez l’API Video Quote pour obtenir un tarif exact avant la génération.

Utilisation de l’API Kling O3

Kling O3 Reference to Video est également disponible via l’API Venice. Voir l’API Video Queue pour les détails complets.

Python

import requests

response = requests.post(
    "https://api.venice.ai/api/v1/video/queue",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "kling-o3-pro-reference-to-video",
        "prompt": "@Element1 walks through @Image1, camera tracking from behind",
        "duration": "8",
        "aspect_ratio": "16:9",
        "audio": True,
        "elements": [
            {
                "frontal_image_url": "https://example.com/character-front.jpg",
                "reference_image_urls": [
                    "https://example.com/character-side.jpg",
                    "https://example.com/character-angle.jpg"
                ]
            }
        ],
        "image_urls": [
            "https://example.com/scene-background.jpg"
        ]
    }
)

queue_id = response.json()["id"]

Node.js

const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    model: "kling-o3-pro-reference-to-video",
    prompt: "@Element1 walks through @Image1, camera tracking from behind",
    duration: "8",
    aspect_ratio: "16:9",
    audio: true,
    elements: [
      {
        frontal_image_url: "https://example.com/character-front.jpg",
        reference_image_urls: [
          "https://example.com/character-side.jpg",
          "https://example.com/character-angle.jpg"
        ]
      }
    ],
    image_urls: [
      "https://example.com/scene-background.jpg"
    ]
  })
});

const { id: queueId } = await response.json();

cURL

curl https://api.venice.ai/api/v1/video/queue \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kling-o3-pro-reference-to-video",
    "prompt": "@Element1 walks through @Image1, camera tracking from behind",
    "duration": "8",
    "aspect_ratio": "16:9",
    "audio": true,
    "elements": [
      {
        "frontal_image_url": "https://example.com/character-front.jpg",
        "reference_image_urls": [
          "https://example.com/character-side.jpg",
          "https://example.com/character-angle.jpg"
        ]
      }
    ],
    "image_urls": [
      "https://example.com/scene-background.jpg"
    ]
  }'

Schéma d’élément

Chaque élément du tableau elements accepte :

Champ	Type	Requis	Description
`frontal_image_url`	string	Oui	URL d’image claire de face
`reference_image_urls`	string[]	Non	URL d’angles supplémentaires (1–3). Si omis, l’image frontale est utilisée comme référence.

L’API prend également en charge video_url pour les éléments basés sur une vidéo, mais cette option n’est pas actuellement disponible dans l’interface du Video Studio.

Dépannage Kling O3

Problème	Cause probable	Solution
Le bouton Générer est désactivé	Aucune entrée visuelle fournie	Ajoutez au moins une entrée visuelle : image de début, élément ou image de référence de scène
Erreur « Number of images exceeds the limit »	Trop d’entrées combinées	Le total de l’image de début + image de fin + éléments + images de scène doit être ≤ 7
Le visage du personnage change entre les plans	Image frontale différente ou manquante	Utilisez la même image frontale de manière cohérente, gardez la description identique
Le mouvement de caméra semble aléatoire	Instructions de caméra multiples ou contradictoires	Utilisez une seule instruction de caméra, placez-la tôt dans le prompt
Le style change entre les générations	Références de scène incohérentes ou styles mélangés	Réutilisez les mêmes images de scène, gardez les mots-clés de style cohérents
Les éléments se mélangent dans les scènes multi-personnages	Instructions spatiales vagues	Soyez explicite sur la position de chaque élément : « foreground left », « entering from right »
L’arrière-plan semble déformé	Image de référence de scène encombrée ou complexe	Utilisez des images de référence de scène propres et de haute qualité
Le mouvement semble peu naturel	Trop d’actions dans un seul prompt	Simplifiez l’action, utilisez une durée plus courte, une action par plan

Testez avec un clip de 3–5 secondes avant de vous engager sur des durées plus longues. Les clips plus courts maintiennent une meilleure cohérence et vous permettent d’itérer plus rapidement.

Grok Imagine Reference to Video

Grok Imagine R2V adopte une approche plus simple que Kling O3. Au lieu d’Éléments structurés avec séparation image frontale/référence, vous téléversez des images de référence simples et les référencez directement dans votre prompt avec @Image1, @Image2, etc. Le modèle intègre ces sujets dans la vidéo générée.

Fonctionnement

Téléversez 1–7 images de référence — des photos de personnages, d’objets ou de scènes que vous souhaitez dans la vidéo
Écrivez un prompt qui décrit la vidéo, en utilisant @Image1, @Image2, etc. pour référencer des images spécifiques
Le modèle génère une vidéo intégrant ces références

Si vous n’incluez pas de tags @Image dans votre prompt, toutes les images téléversées sont référencées automatiquement.

Paramètres

Paramètre	Options	Par défaut
Ratio d’aspect	16:9, 4:3, 3:2, 1:1, 2:3, 3:4, 9:16	16:9
Résolution	480p, 720p	480p
Durée	5s, 8s, 10s	8s

Grok Imagine R2V ne prend pas en charge la génération audio, le mode multi-plans ni les Éléments. Pour ces fonctionnalités, utilisez Kling O3 R2V.

Guide étape par étape (Video Studio)

1. Sélectionner le modèle

Allez sur venice.ai/video. Dans le navigateur de modèles, sélectionnez Grok Imagine R2V.

2. Téléverser les images de référence

Cliquez sur Références dans la barre d’outils d’entrée (ou utilisez le menu +) pour ouvrir le panneau d’images de référence. Téléversez 1 à 7 images des personnages, objets ou scènes que vous voulez dans la vidéo. Chaque image est automatiquement étiquetée @Image1, @Image2, etc. dans l’ordre où vous les téléversez (de gauche à droite).

3. Écrire votre prompt

Décrivez la vidéo souhaitée. Utilisez les tags @Image pour référencer des images spécifiques :

@Image1 and @Image2 walking together through a sunlit park,
camera slowly tracking alongside them, warm afternoon light.

Tapez @ dans le champ de prompt pour voir un menu d’autocomplétion des références d’image disponibles.

Si vous omettez complètement les tags @Image, le backend ajoute automatiquement les références à toutes les images téléversées. C’est utile lorsque vous voulez que toutes les images soient utilisées sans préciser laquelle est laquelle.

4. Configurer les paramètres et générer

Ouvrez Paramètres vidéo pour ajuster le ratio d’aspect, la résolution et la durée. Cliquez sur Générer la vidéo.

Tarification Grok Imagine R2V

Grok Imagine R2V utilise une tarification basée sur la durée et la résolution :

Résolution	Par seconde
480p	~0,063 $
720p	~0,088 $

Exemple : une vidéo de 8 secondes en 480p = 8 × 0,063

= **~0,50

Grok Imagine facture des frais de modération de contenu pour les vidéos générées, même si la vidéo est rejetée. Cela est reflété dans le coût en crédits affiché avant la génération.

Utilisation de l’API Grok Imagine R2V

Python

import requests

response = requests.post(
    "https://api.venice.ai/api/v1/video/queue",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "grok-imagine-reference-to-video",
        "prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
        "duration": "8",
        "aspect_ratio": "16:9",
        "referenceImageUrls": [
            "https://example.com/character-a.jpg",
            "https://example.com/character-b.jpg"
        ]
    }
)

queue_id = response.json()["id"]

Node.js

const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    model: "grok-imagine-reference-to-video",
    prompt: "@Image1 and @Image2 walking through a park, cinematic tracking shot",
    duration: "8",
    aspect_ratio: "16:9",
    referenceImageUrls: [
      "https://example.com/character-a.jpg",
      "https://example.com/character-b.jpg"
    ]
  })
});

const { id: queueId } = await response.json();

cURL

curl https://api.venice.ai/api/v1/video/queue \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-imagine-reference-to-video",
    "prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
    "duration": "8",
    "aspect_ratio": "16:9",
    "referenceImageUrls": [
      "https://example.com/character-a.jpg",
      "https://example.com/character-b.jpg"
    ]
  }'

Paramètres de l’API

Champ	Type	Requis	Description
`model`	string	Oui	Doit être `grok-imagine-reference-to-video`
`prompt`	string	Oui	Prompt textuel avec références optionnelles `@Image1`, `@Image2`
`referenceImageUrls`	string[]	Oui	1–7 URL d’image ou URL data
`duration`	string	Non	`"5"`, `"8"` (par défaut) ou `"10"`
`aspect_ratio`	string	Non	par exemple, `"16:9"` (par défaut), `"9:16"`, `"1:1"`
`resolution`	string	Non	`"480p"` (par défaut) ou `"720p"`

Grok Imagine R2V n’utilise pas les champs elements, image_urls ou imageUrl. Toutes les images de référence sont passées via referenceImageUrls.

Dépannage Grok Imagine R2V

Problème	Cause probable	Solution
Le bouton Générer est désactivé	Aucune image de référence téléversée	Téléversez au moins 1 image de référence
Erreur « At least one reference image is required »	`referenceImageUrls` est vide ou manquant	Fournissez au moins une URL d’image dans `referenceImageUrls`
Mauvaise image associée au tag `@Image`	L’ordre des images ne correspond pas aux tags	`@Image1` correspond à la première image dans votre ordre de téléversement (de gauche à droite). Réorganisez les téléversements si nécessaire.
Le sujet n’apparaît pas dans la vidéo	Trop de références sans tags explicites	Utilisez les tags `@Image` dans votre prompt pour être explicite sur les images à utiliser
Sortie de basse qualité	Utilisation de la résolution 480p	Essayez 720p pour une meilleure qualité (coût plus élevé)
Vidéo trop courte	La durée par défaut est de 8 s	Définissez la durée sur `"10"` pour des vidéos plus longues

​Quand utiliser Reference to Video

​Modèles disponibles

​Kling O3 Reference to Video

​Concepts clés

​Éléments

​Images de référence de scène

​Limitations

​Mode multi-plans

​Guide étape par étape (Video Studio)

​1. Ouvrir Video Studio et sélectionner le modèle

​2. Ajouter des entrées visuelles (au moins une requise)

​3. Ajouter des images de référence de scène (optionnel)

​4. Téléverser une image de début (optionnel)

​5. Écrire votre prompt

​6. Configurer les paramètres

​7. Générer

​Storyboard multi-plans

​Conseils de prompting

​Structurez votre prompt

​Gardez les prompts entre 50 et 150 mots

​Utilisez un langage simple pour la caméra

​Utilisez un vocabulaire cohérent

​Placez les instructions de caméra tôt

​Tarification Kling O3

​Utilisation de l’API Kling O3

​Python

​Node.js

​cURL

​Schéma d’élément

​Dépannage Kling O3

​Grok Imagine Reference to Video

​Fonctionnement

​Paramètres

​Guide étape par étape (Video Studio)

​1. Sélectionner le modèle

​2. Téléverser les images de référence

​3. Écrire votre prompt

​4. Configurer les paramètres et générer

​Tarification Grok Imagine R2V

​Utilisation de l’API Grok Imagine R2V

​Python

​Node.js

​cURL

​Paramètres de l’API

​Dépannage Grok Imagine R2V

Quand utiliser Reference to Video

Modèles disponibles

Kling O3 Reference to Video

Concepts clés

Éléments

Images de référence de scène

Limitations

Mode multi-plans

Guide étape par étape (Video Studio)

1. Ouvrir Video Studio et sélectionner le modèle

2. Ajouter des entrées visuelles (au moins une requise)

3. Ajouter des images de référence de scène (optionnel)

4. Téléverser une image de début (optionnel)

5. Écrire votre prompt

6. Configurer les paramètres

7. Générer

Storyboard multi-plans

Conseils de prompting

Structurez votre prompt

Gardez les prompts entre 50 et 150 mots

Utilisez un langage simple pour la caméra

Utilisez un vocabulaire cohérent

Placez les instructions de caméra tôt

Tarification Kling O3

Utilisation de l’API Kling O3

Python

Node.js

cURL

Schéma d’élément

Dépannage Kling O3

Grok Imagine Reference to Video

Fonctionnement

Paramètres

Guide étape par étape (Video Studio)

1. Sélectionner le modèle

2. Téléverser les images de référence

3. Écrire votre prompt

4. Configurer les paramètres et générer

Tarification Grok Imagine R2V

Utilisation de l’API Grok Imagine R2V

Python

Node.js

cURL

Paramètres de l’API

Dépannage Grok Imagine R2V