Passer au contenu principal
Reference to Video vous permet de verrouiller l’apparence des personnages, des objets et des scènes afin que vos vidéos générées par IA restent visuellement cohérentes. Au lieu d’espérer que le modèle interprète correctement votre prompt, vous fournissez des ancres visuelles — des images de référence qui indiquent au modèle l’apparence exacte de votre sujet. Cette fonctionnalité est disponible sur les modèles Kling O3 et Grok Imagine R2V dans le Venice Video Studio. Chaque famille de modèles utilise une approche différente des images de référence — voir les sections spécifiques à chaque modèle ci-dessous.

Quand utiliser Reference to Video

Utilisez Reference to Video lorsque vous avez besoin de :
  • Cohérence des personnages — la même personne ou le même personnage à travers plusieurs plans
  • Précision produit — un produit réel qui doit être identique à l’original
  • Continuité de scène — un environnement ou un arrière-plan spécifique à travers les générations
  • Scènes multi-personnages — plusieurs personnages distincts interagissant sans se mélanger
Pour un text-to-video ou image-to-video simple où la cohérence n’est pas critique, les modèles standards fonctionnent bien sans références.

Modèles disponibles

ModèleApprocheIdéal pour
Kling O3 Pro R2VÉléments + images de scèneScènes multi-personnages complexes avec un contrôle d’identité précis
Kling O3 Standard R2VÉléments + images de scèneItération plus rapide sur des scènes basées sur des éléments
Grok Imagine R2VImages de référence simplesGénération rapide pilotée par références avec jusqu’à 7 images
Kling O3 utilise une approche structurée avec des Éléments (ancres d’identité de personnage avec image frontale + images de référence) et des Images de scène. Grok Imagine R2V adopte une approche plus simple — vous téléversez directement des images de référence et les référencez dans votre prompt avec @Image1, @Image2, etc.

Kling O3 Reference to Video

Concepts clés

Kling O3 Reference to Video utilise trois types d’entrée visuelle qui fonctionnent ensemble :
EntréeRequisObjectifComment la référencer dans le prompt
ÉlémentsAu moins une entrée visuelle*Verrouiller l’identité d’un personnage ou d’un objet@Element1, @Element2, etc.
Images de référence de scèneAu moins une entrée visuelle*Définir l’environnement, le style et l’ambiance@Image1, @Image2, etc.
Image de débutAu moins une entrée visuelle*Contrôler la première image de la vidéoS/O (défini via téléversement)
Image de finNonContrôler la dernière image de la vidéoS/O (défini via téléversement)
*Au moins l’un de : image de début, éléments ou images de référence de scène est requis.

Éléments

Un Élément est un personnage ou un objet que vous souhaitez garder visuellement stable tout au long de la vidéo. Chaque élément se compose de :
  • Image frontale (requise par élément) — une photo claire de face du sujet. C’est l’ancre principale d’identité. Considérez-la comme la « photo de passeport » de votre personnage ou produit.
  • Images de référence (1–3, optionnelles) — angles supplémentaires du même sujet (vue de côté, angle 45 degrés, dos). Elles aident le modèle à comprendre le sujet en 3D. Si elles ne sont pas fournies, l’image frontale est automatiquement utilisée comme référence.
Vous pouvez ajouter jusqu’à 7 éléments par génération (limité par le total combiné). Référencez-les dans votre prompt avec @Element1, @Element2, etc.

Images de référence de scène

Les références de scène définissent la « scène » où l’action se déroule. Elles influencent :
  • L’éclairage et la palette de couleurs
  • L’architecture et les détails de l’environnement
  • Le style visuel global et l’ambiance
Vous pouvez ajouter jusqu’à 4 images de scène. Référencez-les avec @Image1, @Image2, etc. dans votre prompt.

Limitations

Le nombre total d’images à travers tous les types d’entrée est limité :
LimiteValeur
Minimum requisAu moins 1 entrée visuelle (image de début, élément ou image de scène)
Total combiné (image de début + image de fin + éléments + images de scène)7 maximum
Éléments (sans image de début/fin)7 maximum
Éléments (avec image de début ou de fin)3 maximum
Images de référence de scène4 maximum
Images de référence par élément1–3
Exemples de scénarios :
  • 7 éléments + 0 image de scène = 7 ✓ (pas de frames)
  • 5 éléments + 2 images de scène = 7 ✓ (pas de frames)
  • Image de début (1) + 3 éléments + 3 images de scène = 7 ✓
  • Image de début (1) + image de fin (1) + 3 éléments + 2 images de scène = 7 ✓
  • Image de début (1) + 4 éléments = ✗ (max 3 éléments avec frame)
  • Image de début (1) + image de fin (1) + 4 éléments = ✗ (max 3 éléments avec frames)
Chaque élément requiert une image frontale. Si vous ne fournissez pas d’images de référence pour un élément, l’image frontale est automatiquement utilisée comme référence.

Mode multi-plans

Le mode multi-plans vous permet de diviser une seule génération en plusieurs scènes, chacune avec son propre prompt et sa propre durée. Les éléments et références de scène persistent à travers tous les plans, maintenant la cohérence. La durée totale à travers tous les plans ne peut pas dépasser 15 secondes.

Guide étape par étape (Video Studio)

1. Ouvrir Video Studio et sélectionner le modèle

Allez sur venice.ai/video. Dans le navigateur de modèles à gauche, sélectionnez l’un des modèles Kling O3 Reference to Video :
  • Kling O3 Pro R2V — qualité supérieure, temps de génération plus long (~6 min)
  • Kling O3 Standard R2V — plus rapide, plus économique pour l’itération

2. Ajouter des entrées visuelles (au moins une requise)

Vous devez fournir au moins une entrée visuelle pour générer une vidéo : une image de début, un élément ou une image de référence de scène. Dans le panneau d’entrée, vous verrez la section Éléments. Cliquez sur Ajouter un élément pour créer un élément pour les personnages ou objets que vous souhaitez garder visuellement cohérents. Pour chaque élément :
  1. Cliquez sur la tuile Frontal pour téléverser une image claire de face de votre personnage ou objet
  2. Optionnellement, cliquez sur Ajouter sous Images de référence pour téléverser des angles supplémentaires (1–3)
Répétez pour des personnages ou objets supplémentaires (jusqu’à 7 éléments au total, ou 3 si vous utilisez des images de début/fin).
Le total combiné de l’image de début, de l’image de fin, des éléments et des images de scène ne peut pas dépasser 7. Voir Limitations pour plus de détails.
Meilleures images de référence : utilisez des photos bien éclairées avec un arrière-plan propre. Fournissez des vues de face, de côté et à 45 degrés pour le verrouillage d’identité le plus fort. Assurez-vous que toutes les images de référence partagent le même style visuel (ne mélangez pas photoréaliste et anime).

3. Ajouter des images de référence de scène (optionnel)

Sous la section Éléments, vous verrez Images de référence de scène. Téléversez des images qui définissent l’environnement souhaité — un lieu spécifique, une configuration d’éclairage ou un style artistique. Elles sont étiquetées automatiquement comme @Image1, @Image2, etc.

4. Téléverser une image de début (optionnel)

Si vous voulez contrôler la première image exacte de votre vidéo, basculez vers le type d’entrée Image et téléversez une image de début. Vous pouvez également définir optionnellement une image de fin.

5. Écrire votre prompt

Dans le champ de prompt, décrivez l’action souhaitée en référençant vos éléments et images de scène à l’aide des tags @ :
@Element1 walks through the streets of @Image1, looking up at the buildings.
The camera slowly tracks from behind, revealing the city skyline.
Pour les scènes multi-personnages :
@Element1 and @Element2 enter the cafe in @Image1 from opposite sides.
@Element1 waves and walks toward @Element2, who is sitting at a corner table.

6. Configurer les paramètres

Ouvrez Paramètres vidéo pour ajuster :
ParamètreOptionsPar défaut
Durée3s – 15s5s
Ratio d’aspect16:9, 9:16, 1:116:9
Générer l’audioOn/OffOff
La génération audio ajoute des effets sonores natifs, des dialogues et de l’audio ambiant synchronisés avec la vidéo. Elle augmente le coût d’environ 25 %.

7. Générer

Cliquez sur Générer la vidéo. Kling O3 prend généralement de 4 à 6 minutes selon le palier du modèle et la durée. Vous pouvez mettre en file d’attente plusieurs générations et parcourir les résultats dans la galerie vidéo.

Storyboard multi-plans

Pour les séquences narratives, utilisez le mode multi-plans pour définir des scènes distinctes au sein d’une seule génération.
  1. Dans la zone de prompt, cliquez sur Ajouter un plan pour créer des plans supplémentaires
  2. Écrivez un prompt distinct pour chaque plan
  3. Définissez la durée de chaque plan (3–15 s chacun, total ≤ 15 s)
Les éléments et références de scène persistent automatiquement à travers tous les plans :
Shot 1 (5s): @Element1 stands at the edge of @Image1, looking out at the horizon.
Slow camera push forward.

Shot 2 (5s): Close-up of @Element1's face as they turn toward the camera.
Soft natural lighting, shallow depth of field.

Shot 3 (5s): @Element1 walks away from camera into the distance.
Wide cinematic shot, golden hour lighting.
La durée totale en multi-plans ne peut pas dépasser 15 secondes. Par exemple, trois plans de 5 secondes = 15 s maximum.

Conseils de prompting

Structurez votre prompt

Suivez ce modèle pour des résultats fiables :
[sujet avec tag @Element] + [action] + [environnement avec tag @Image] + [mouvement de caméra] + [éclairage/style]
Exemple :
@Element1 hops happily across the candy ground of @Image1, stops to look at a
giant lollipop, tilts its head curiously. Cinematic tracking shot, soft warm lighting.

Gardez les prompts entre 50 et 150 mots

Les prompts trop courts manquent de détails. Les prompts trop longs introduisent des contradictions. Visez le juste équilibre.

Utilisez un langage simple pour la caméra

Le modèle répond mieux aux directives de caméra simples :
UtilisezÉvitez
slow camera push forwarddolly zoom with rack focus transition
tracking shot from behindcomplex handheld parallax movement
close-upextreme macro with tilt-shift bokeh
wide cinematic shotanamorphic ultra-wide establishing crane shot

Utilisez un vocabulaire cohérent

Si vous décrivez un personnage portant « a red jacket » dans un prompt, ne passez pas à « crimson coat » dans le suivant. Le modèle traite les mots différents comme des intentions différentes.

Placez les instructions de caméra tôt

Placez la direction de caméra près du début du prompt pour des résultats plus fiables :
Cinematic tracking shot of @Element1 walking through @Image1, leaves
blowing in the wind, golden afternoon light.

Tarification Kling O3

Les modèles Kling O3 Reference to Video utilisent une tarification basée sur la durée :
ModèlePar seconde (sans audio)Par seconde (avec audio)
Kling O3 Pro R2V0,112 $0,140 $
Kling O3 Standard R2V0,112 $0,140 $
Exemple : une vidéo de 10 secondes avec audio = 10 × 0,14 =1,40= **1,40** Utilisez l’API Video Quote pour obtenir un tarif exact avant la génération.

Utilisation de l’API Kling O3

Kling O3 Reference to Video est également disponible via l’API Venice. Voir l’API Video Queue pour les détails complets.

Python

import requests

response = requests.post(
    "https://api.venice.ai/api/v1/video/queue",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "kling-o3-pro-reference-to-video",
        "prompt": "@Element1 walks through @Image1, camera tracking from behind",
        "duration": "8",
        "aspect_ratio": "16:9",
        "audio": True,
        "elements": [
            {
                "frontal_image_url": "https://example.com/character-front.jpg",
                "reference_image_urls": [
                    "https://example.com/character-side.jpg",
                    "https://example.com/character-angle.jpg"
                ]
            }
        ],
        "image_urls": [
            "https://example.com/scene-background.jpg"
        ]
    }
)

queue_id = response.json()["id"]

Node.js

const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    model: "kling-o3-pro-reference-to-video",
    prompt: "@Element1 walks through @Image1, camera tracking from behind",
    duration: "8",
    aspect_ratio: "16:9",
    audio: true,
    elements: [
      {
        frontal_image_url: "https://example.com/character-front.jpg",
        reference_image_urls: [
          "https://example.com/character-side.jpg",
          "https://example.com/character-angle.jpg"
        ]
      }
    ],
    image_urls: [
      "https://example.com/scene-background.jpg"
    ]
  })
});

const { id: queueId } = await response.json();

cURL

curl https://api.venice.ai/api/v1/video/queue \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kling-o3-pro-reference-to-video",
    "prompt": "@Element1 walks through @Image1, camera tracking from behind",
    "duration": "8",
    "aspect_ratio": "16:9",
    "audio": true,
    "elements": [
      {
        "frontal_image_url": "https://example.com/character-front.jpg",
        "reference_image_urls": [
          "https://example.com/character-side.jpg",
          "https://example.com/character-angle.jpg"
        ]
      }
    ],
    "image_urls": [
      "https://example.com/scene-background.jpg"
    ]
  }'

Schéma d’élément

Chaque élément du tableau elements accepte :
ChampTypeRequisDescription
frontal_image_urlstringOuiURL d’image claire de face
reference_image_urlsstring[]NonURL d’angles supplémentaires (1–3). Si omis, l’image frontale est utilisée comme référence.
L’API prend également en charge video_url pour les éléments basés sur une vidéo, mais cette option n’est pas actuellement disponible dans l’interface du Video Studio.

Dépannage Kling O3

ProblèmeCause probableSolution
Le bouton Générer est désactivéAucune entrée visuelle fournieAjoutez au moins une entrée visuelle : image de début, élément ou image de référence de scène
Erreur « Number of images exceeds the limit »Trop d’entrées combinéesLe total de l’image de début + image de fin + éléments + images de scène doit être ≤ 7
Le visage du personnage change entre les plansImage frontale différente ou manquanteUtilisez la même image frontale de manière cohérente, gardez la description identique
Le mouvement de caméra semble aléatoireInstructions de caméra multiples ou contradictoiresUtilisez une seule instruction de caméra, placez-la tôt dans le prompt
Le style change entre les générationsRéférences de scène incohérentes ou styles mélangésRéutilisez les mêmes images de scène, gardez les mots-clés de style cohérents
Les éléments se mélangent dans les scènes multi-personnagesInstructions spatiales vaguesSoyez explicite sur la position de chaque élément : « foreground left », « entering from right »
L’arrière-plan semble déforméImage de référence de scène encombrée ou complexeUtilisez des images de référence de scène propres et de haute qualité
Le mouvement semble peu naturelTrop d’actions dans un seul promptSimplifiez l’action, utilisez une durée plus courte, une action par plan
Testez avec un clip de 3–5 secondes avant de vous engager sur des durées plus longues. Les clips plus courts maintiennent une meilleure cohérence et vous permettent d’itérer plus rapidement.

Grok Imagine Reference to Video

Grok Imagine R2V adopte une approche plus simple que Kling O3. Au lieu d’Éléments structurés avec séparation image frontale/référence, vous téléversez des images de référence simples et les référencez directement dans votre prompt avec @Image1, @Image2, etc. Le modèle intègre ces sujets dans la vidéo générée.

Fonctionnement

  1. Téléversez 1–7 images de référence — des photos de personnages, d’objets ou de scènes que vous souhaitez dans la vidéo
  2. Écrivez un prompt qui décrit la vidéo, en utilisant @Image1, @Image2, etc. pour référencer des images spécifiques
  3. Le modèle génère une vidéo intégrant ces références
Si vous n’incluez pas de tags @Image dans votre prompt, toutes les images téléversées sont référencées automatiquement.

Paramètres

ParamètreOptionsPar défaut
Ratio d’aspect16:9, 4:3, 3:2, 1:1, 2:3, 3:4, 9:1616:9
Résolution480p, 720p480p
Durée5s, 8s, 10s8s
Grok Imagine R2V ne prend pas en charge la génération audio, le mode multi-plans ni les Éléments. Pour ces fonctionnalités, utilisez Kling O3 R2V.

Guide étape par étape (Video Studio)

1. Sélectionner le modèle

Allez sur venice.ai/video. Dans le navigateur de modèles, sélectionnez Grok Imagine R2V.

2. Téléverser les images de référence

Cliquez sur Références dans la barre d’outils d’entrée (ou utilisez le menu +) pour ouvrir le panneau d’images de référence. Téléversez 1 à 7 images des personnages, objets ou scènes que vous voulez dans la vidéo. Chaque image est automatiquement étiquetée @Image1, @Image2, etc. dans l’ordre où vous les téléversez (de gauche à droite).

3. Écrire votre prompt

Décrivez la vidéo souhaitée. Utilisez les tags @Image pour référencer des images spécifiques :
@Image1 and @Image2 walking together through a sunlit park,
camera slowly tracking alongside them, warm afternoon light.
Tapez @ dans le champ de prompt pour voir un menu d’autocomplétion des références d’image disponibles.
Si vous omettez complètement les tags @Image, le backend ajoute automatiquement les références à toutes les images téléversées. C’est utile lorsque vous voulez que toutes les images soient utilisées sans préciser laquelle est laquelle.

4. Configurer les paramètres et générer

Ouvrez Paramètres vidéo pour ajuster le ratio d’aspect, la résolution et la durée. Cliquez sur Générer la vidéo.

Tarification Grok Imagine R2V

Grok Imagine R2V utilise une tarification basée sur la durée et la résolution :
RésolutionPar seconde
480p~0,063 $
720p~0,088 $
Exemple : une vidéo de 8 secondes en 480p = 8 × 0,063 = 0,50= **~0,50**
Grok Imagine facture des frais de modération de contenu pour les vidéos générées, même si la vidéo est rejetée. Cela est reflété dans le coût en crédits affiché avant la génération.

Utilisation de l’API Grok Imagine R2V

Python

import requests

response = requests.post(
    "https://api.venice.ai/api/v1/video/queue",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "grok-imagine-reference-to-video",
        "prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
        "duration": "8",
        "aspect_ratio": "16:9",
        "referenceImageUrls": [
            "https://example.com/character-a.jpg",
            "https://example.com/character-b.jpg"
        ]
    }
)

queue_id = response.json()["id"]

Node.js

const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    model: "grok-imagine-reference-to-video",
    prompt: "@Image1 and @Image2 walking through a park, cinematic tracking shot",
    duration: "8",
    aspect_ratio: "16:9",
    referenceImageUrls: [
      "https://example.com/character-a.jpg",
      "https://example.com/character-b.jpg"
    ]
  })
});

const { id: queueId } = await response.json();

cURL

curl https://api.venice.ai/api/v1/video/queue \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-imagine-reference-to-video",
    "prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
    "duration": "8",
    "aspect_ratio": "16:9",
    "referenceImageUrls": [
      "https://example.com/character-a.jpg",
      "https://example.com/character-b.jpg"
    ]
  }'

Paramètres de l’API

ChampTypeRequisDescription
modelstringOuiDoit être grok-imagine-reference-to-video
promptstringOuiPrompt textuel avec références optionnelles @Image1, @Image2
referenceImageUrlsstring[]Oui1–7 URL d’image ou URL data
durationstringNon"5", "8" (par défaut) ou "10"
aspect_ratiostringNonpar exemple, "16:9" (par défaut), "9:16", "1:1"
resolutionstringNon"480p" (par défaut) ou "720p"
Grok Imagine R2V n’utilise pas les champs elements, image_urls ou imageUrl. Toutes les images de référence sont passées via referenceImageUrls.

Dépannage Grok Imagine R2V

ProblèmeCause probableSolution
Le bouton Générer est désactivéAucune image de référence téléverséeTéléversez au moins 1 image de référence
Erreur « At least one reference image is required »referenceImageUrls est vide ou manquantFournissez au moins une URL d’image dans referenceImageUrls
Mauvaise image associée au tag @ImageL’ordre des images ne correspond pas aux tags@Image1 correspond à la première image dans votre ordre de téléversement (de gauche à droite). Réorganisez les téléversements si nécessaire.
Le sujet n’apparaît pas dans la vidéoTrop de références sans tags explicitesUtilisez les tags @Image dans votre prompt pour être explicite sur les images à utiliser
Sortie de basse qualitéUtilisation de la résolution 480pEssayez 720p pour une meilleure qualité (coût plus élevé)
Vidéo trop courteLa durée par défaut est de 8 sDéfinissez la durée sur "10" pour des vidéos plus longues