Reference to Video vous permet de verrouiller l’apparence des personnages, des objets et des scènes afin que vos vidéos générées par IA restent visuellement cohérentes. Au lieu d’espérer que le modèle interprète correctement votre prompt, vous fournissez des ancres visuelles — des images de référence qui indiquent au modèle l’apparence exacte de votre sujet.
Cette fonctionnalité est disponible sur les modèles Kling O3 et Grok Imagine R2V dans le Venice Video Studio. Chaque famille de modèles utilise une approche différente des images de référence — voir les sections spécifiques à chaque modèle ci-dessous.
Quand utiliser Reference to Video
Utilisez Reference to Video lorsque vous avez besoin de :
- Cohérence des personnages — la même personne ou le même personnage à travers plusieurs plans
- Précision produit — un produit réel qui doit être identique à l’original
- Continuité de scène — un environnement ou un arrière-plan spécifique à travers les générations
- Scènes multi-personnages — plusieurs personnages distincts interagissant sans se mélanger
Pour un text-to-video ou image-to-video simple où la cohérence n’est pas critique, les modèles standards fonctionnent bien sans références.
Modèles disponibles
| Modèle | Approche | Idéal pour |
|---|
| Kling O3 Pro R2V | Éléments + images de scène | Scènes multi-personnages complexes avec un contrôle d’identité précis |
| Kling O3 Standard R2V | Éléments + images de scène | Itération plus rapide sur des scènes basées sur des éléments |
| Grok Imagine R2V | Images de référence simples | Génération rapide pilotée par références avec jusqu’à 7 images |
Kling O3 utilise une approche structurée avec des Éléments (ancres d’identité de personnage avec image frontale + images de référence) et des Images de scène. Grok Imagine R2V adopte une approche plus simple — vous téléversez directement des images de référence et les référencez dans votre prompt avec @Image1, @Image2, etc.
Kling O3 Reference to Video
Concepts clés
Kling O3 Reference to Video utilise trois types d’entrée visuelle qui fonctionnent ensemble :
| Entrée | Requis | Objectif | Comment la référencer dans le prompt |
|---|
| Éléments | Au moins une entrée visuelle* | Verrouiller l’identité d’un personnage ou d’un objet | @Element1, @Element2, etc. |
| Images de référence de scène | Au moins une entrée visuelle* | Définir l’environnement, le style et l’ambiance | @Image1, @Image2, etc. |
| Image de début | Au moins une entrée visuelle* | Contrôler la première image de la vidéo | S/O (défini via téléversement) |
| Image de fin | Non | Contrôler la dernière image de la vidéo | S/O (défini via téléversement) |
*Au moins l’un de : image de début, éléments ou images de référence de scène est requis.
Éléments
Un Élément est un personnage ou un objet que vous souhaitez garder visuellement stable tout au long de la vidéo. Chaque élément se compose de :
- Image frontale (requise par élément) — une photo claire de face du sujet. C’est l’ancre principale d’identité. Considérez-la comme la « photo de passeport » de votre personnage ou produit.
- Images de référence (1–3, optionnelles) — angles supplémentaires du même sujet (vue de côté, angle 45 degrés, dos). Elles aident le modèle à comprendre le sujet en 3D. Si elles ne sont pas fournies, l’image frontale est automatiquement utilisée comme référence.
Vous pouvez ajouter jusqu’à 7 éléments par génération (limité par le total combiné). Référencez-les dans votre prompt avec @Element1, @Element2, etc.
Images de référence de scène
Les références de scène définissent la « scène » où l’action se déroule. Elles influencent :
- L’éclairage et la palette de couleurs
- L’architecture et les détails de l’environnement
- Le style visuel global et l’ambiance
Vous pouvez ajouter jusqu’à 4 images de scène. Référencez-les avec @Image1, @Image2, etc. dans votre prompt.
Limitations
Le nombre total d’images à travers tous les types d’entrée est limité :
| Limite | Valeur |
|---|
| Minimum requis | Au moins 1 entrée visuelle (image de début, élément ou image de scène) |
| Total combiné (image de début + image de fin + éléments + images de scène) | 7 maximum |
| Éléments (sans image de début/fin) | 7 maximum |
| Éléments (avec image de début ou de fin) | 3 maximum |
| Images de référence de scène | 4 maximum |
| Images de référence par élément | 1–3 |
Exemples de scénarios :
- 7 éléments + 0 image de scène = 7 ✓ (pas de frames)
- 5 éléments + 2 images de scène = 7 ✓ (pas de frames)
- Image de début (1) + 3 éléments + 3 images de scène = 7 ✓
- Image de début (1) + image de fin (1) + 3 éléments + 2 images de scène = 7 ✓
- Image de début (1) + 4 éléments = ✗ (max 3 éléments avec frame)
- Image de début (1) + image de fin (1) + 4 éléments = ✗ (max 3 éléments avec frames)
Chaque élément requiert une image frontale. Si vous ne fournissez pas d’images de référence pour un élément, l’image frontale est automatiquement utilisée comme référence.
Mode multi-plans
Le mode multi-plans vous permet de diviser une seule génération en plusieurs scènes, chacune avec son propre prompt et sa propre durée. Les éléments et références de scène persistent à travers tous les plans, maintenant la cohérence. La durée totale à travers tous les plans ne peut pas dépasser 15 secondes.
Guide étape par étape (Video Studio)
1. Ouvrir Video Studio et sélectionner le modèle
Allez sur venice.ai/video. Dans le navigateur de modèles à gauche, sélectionnez l’un des modèles Kling O3 Reference to Video :
- Kling O3 Pro R2V — qualité supérieure, temps de génération plus long (~6 min)
- Kling O3 Standard R2V — plus rapide, plus économique pour l’itération
2. Ajouter des entrées visuelles (au moins une requise)
Vous devez fournir au moins une entrée visuelle pour générer une vidéo : une image de début, un élément ou une image de référence de scène. Dans le panneau d’entrée, vous verrez la section Éléments. Cliquez sur Ajouter un élément pour créer un élément pour les personnages ou objets que vous souhaitez garder visuellement cohérents.
Pour chaque élément :
- Cliquez sur la tuile Frontal pour téléverser une image claire de face de votre personnage ou objet
- Optionnellement, cliquez sur Ajouter sous Images de référence pour téléverser des angles supplémentaires (1–3)
Répétez pour des personnages ou objets supplémentaires (jusqu’à 7 éléments au total, ou 3 si vous utilisez des images de début/fin).
Le total combiné de l’image de début, de l’image de fin, des éléments et des images de scène ne peut pas dépasser 7. Voir Limitations pour plus de détails.
Meilleures images de référence : utilisez des photos bien éclairées avec un arrière-plan propre. Fournissez des vues de face, de côté et à 45 degrés pour le verrouillage d’identité le plus fort. Assurez-vous que toutes les images de référence partagent le même style visuel (ne mélangez pas photoréaliste et anime).
3. Ajouter des images de référence de scène (optionnel)
Sous la section Éléments, vous verrez Images de référence de scène. Téléversez des images qui définissent l’environnement souhaité — un lieu spécifique, une configuration d’éclairage ou un style artistique.
Elles sont étiquetées automatiquement comme @Image1, @Image2, etc.
4. Téléverser une image de début (optionnel)
Si vous voulez contrôler la première image exacte de votre vidéo, basculez vers le type d’entrée Image et téléversez une image de début. Vous pouvez également définir optionnellement une image de fin.
5. Écrire votre prompt
Dans le champ de prompt, décrivez l’action souhaitée en référençant vos éléments et images de scène à l’aide des tags @ :
@Element1 walks through the streets of @Image1, looking up at the buildings.
The camera slowly tracks from behind, revealing the city skyline.
Pour les scènes multi-personnages :
@Element1 and @Element2 enter the cafe in @Image1 from opposite sides.
@Element1 waves and walks toward @Element2, who is sitting at a corner table.
Ouvrez Paramètres vidéo pour ajuster :
| Paramètre | Options | Par défaut |
|---|
| Durée | 3s – 15s | 5s |
| Ratio d’aspect | 16:9, 9:16, 1:1 | 16:9 |
| Générer l’audio | On/Off | Off |
La génération audio ajoute des effets sonores natifs, des dialogues et de l’audio ambiant synchronisés avec la vidéo. Elle augmente le coût d’environ 25 %.
7. Générer
Cliquez sur Générer la vidéo. Kling O3 prend généralement de 4 à 6 minutes selon le palier du modèle et la durée. Vous pouvez mettre en file d’attente plusieurs générations et parcourir les résultats dans la galerie vidéo.
Storyboard multi-plans
Pour les séquences narratives, utilisez le mode multi-plans pour définir des scènes distinctes au sein d’une seule génération.
- Dans la zone de prompt, cliquez sur Ajouter un plan pour créer des plans supplémentaires
- Écrivez un prompt distinct pour chaque plan
- Définissez la durée de chaque plan (3–15 s chacun, total ≤ 15 s)
Les éléments et références de scène persistent automatiquement à travers tous les plans :
Shot 1 (5s): @Element1 stands at the edge of @Image1, looking out at the horizon.
Slow camera push forward.
Shot 2 (5s): Close-up of @Element1's face as they turn toward the camera.
Soft natural lighting, shallow depth of field.
Shot 3 (5s): @Element1 walks away from camera into the distance.
Wide cinematic shot, golden hour lighting.
La durée totale en multi-plans ne peut pas dépasser 15 secondes. Par exemple, trois plans de 5 secondes = 15 s maximum.
Conseils de prompting
Structurez votre prompt
Suivez ce modèle pour des résultats fiables :
[sujet avec tag @Element] + [action] + [environnement avec tag @Image] + [mouvement de caméra] + [éclairage/style]
Exemple :
@Element1 hops happily across the candy ground of @Image1, stops to look at a
giant lollipop, tilts its head curiously. Cinematic tracking shot, soft warm lighting.
Gardez les prompts entre 50 et 150 mots
Les prompts trop courts manquent de détails. Les prompts trop longs introduisent des contradictions. Visez le juste équilibre.
Utilisez un langage simple pour la caméra
Le modèle répond mieux aux directives de caméra simples :
| Utilisez | Évitez |
|---|
slow camera push forward | dolly zoom with rack focus transition |
tracking shot from behind | complex handheld parallax movement |
close-up | extreme macro with tilt-shift bokeh |
wide cinematic shot | anamorphic ultra-wide establishing crane shot |
Utilisez un vocabulaire cohérent
Si vous décrivez un personnage portant « a red jacket » dans un prompt, ne passez pas à « crimson coat » dans le suivant. Le modèle traite les mots différents comme des intentions différentes.
Placez les instructions de caméra tôt
Placez la direction de caméra près du début du prompt pour des résultats plus fiables :
Cinematic tracking shot of @Element1 walking through @Image1, leaves
blowing in the wind, golden afternoon light.
Tarification Kling O3
Les modèles Kling O3 Reference to Video utilisent une tarification basée sur la durée :
| Modèle | Par seconde (sans audio) | Par seconde (avec audio) |
|---|
| Kling O3 Pro R2V | 0,112 $ | 0,140 $ |
| Kling O3 Standard R2V | 0,112 $ | 0,140 $ |
Exemple : une vidéo de 10 secondes avec audio = 10 × 0,14 =∗∗1,40**
Utilisez l’API Video Quote pour obtenir un tarif exact avant la génération.
Utilisation de l’API Kling O3
Kling O3 Reference to Video est également disponible via l’API Venice. Voir l’API Video Queue pour les détails complets.
Python
import requests
response = requests.post(
"https://api.venice.ai/api/v1/video/queue",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={
"model": "kling-o3-pro-reference-to-video",
"prompt": "@Element1 walks through @Image1, camera tracking from behind",
"duration": "8",
"aspect_ratio": "16:9",
"audio": True,
"elements": [
{
"frontal_image_url": "https://example.com/character-front.jpg",
"reference_image_urls": [
"https://example.com/character-side.jpg",
"https://example.com/character-angle.jpg"
]
}
],
"image_urls": [
"https://example.com/scene-background.jpg"
]
}
)
queue_id = response.json()["id"]
Node.js
const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
method: "POST",
headers: {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
},
body: JSON.stringify({
model: "kling-o3-pro-reference-to-video",
prompt: "@Element1 walks through @Image1, camera tracking from behind",
duration: "8",
aspect_ratio: "16:9",
audio: true,
elements: [
{
frontal_image_url: "https://example.com/character-front.jpg",
reference_image_urls: [
"https://example.com/character-side.jpg",
"https://example.com/character-angle.jpg"
]
}
],
image_urls: [
"https://example.com/scene-background.jpg"
]
})
});
const { id: queueId } = await response.json();
cURL
curl https://api.venice.ai/api/v1/video/queue \
-H "Authorization: Bearer $VENICE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "kling-o3-pro-reference-to-video",
"prompt": "@Element1 walks through @Image1, camera tracking from behind",
"duration": "8",
"aspect_ratio": "16:9",
"audio": true,
"elements": [
{
"frontal_image_url": "https://example.com/character-front.jpg",
"reference_image_urls": [
"https://example.com/character-side.jpg",
"https://example.com/character-angle.jpg"
]
}
],
"image_urls": [
"https://example.com/scene-background.jpg"
]
}'
Schéma d’élément
Chaque élément du tableau elements accepte :
| Champ | Type | Requis | Description |
|---|
frontal_image_url | string | Oui | URL d’image claire de face |
reference_image_urls | string[] | Non | URL d’angles supplémentaires (1–3). Si omis, l’image frontale est utilisée comme référence. |
L’API prend également en charge video_url pour les éléments basés sur une vidéo, mais cette option n’est pas actuellement disponible dans l’interface du Video Studio.
Dépannage Kling O3
| Problème | Cause probable | Solution |
|---|
| Le bouton Générer est désactivé | Aucune entrée visuelle fournie | Ajoutez au moins une entrée visuelle : image de début, élément ou image de référence de scène |
| Erreur « Number of images exceeds the limit » | Trop d’entrées combinées | Le total de l’image de début + image de fin + éléments + images de scène doit être ≤ 7 |
| Le visage du personnage change entre les plans | Image frontale différente ou manquante | Utilisez la même image frontale de manière cohérente, gardez la description identique |
| Le mouvement de caméra semble aléatoire | Instructions de caméra multiples ou contradictoires | Utilisez une seule instruction de caméra, placez-la tôt dans le prompt |
| Le style change entre les générations | Références de scène incohérentes ou styles mélangés | Réutilisez les mêmes images de scène, gardez les mots-clés de style cohérents |
| Les éléments se mélangent dans les scènes multi-personnages | Instructions spatiales vagues | Soyez explicite sur la position de chaque élément : « foreground left », « entering from right » |
| L’arrière-plan semble déformé | Image de référence de scène encombrée ou complexe | Utilisez des images de référence de scène propres et de haute qualité |
| Le mouvement semble peu naturel | Trop d’actions dans un seul prompt | Simplifiez l’action, utilisez une durée plus courte, une action par plan |
Testez avec un clip de 3–5 secondes avant de vous engager sur des durées plus longues. Les clips plus courts maintiennent une meilleure cohérence et vous permettent d’itérer plus rapidement.
Grok Imagine Reference to Video
Grok Imagine R2V adopte une approche plus simple que Kling O3. Au lieu d’Éléments structurés avec séparation image frontale/référence, vous téléversez des images de référence simples et les référencez directement dans votre prompt avec @Image1, @Image2, etc. Le modèle intègre ces sujets dans la vidéo générée.
Fonctionnement
- Téléversez 1–7 images de référence — des photos de personnages, d’objets ou de scènes que vous souhaitez dans la vidéo
- Écrivez un prompt qui décrit la vidéo, en utilisant
@Image1, @Image2, etc. pour référencer des images spécifiques
- Le modèle génère une vidéo intégrant ces références
Si vous n’incluez pas de tags @Image dans votre prompt, toutes les images téléversées sont référencées automatiquement.
Paramètres
| Paramètre | Options | Par défaut |
|---|
| Ratio d’aspect | 16:9, 4:3, 3:2, 1:1, 2:3, 3:4, 9:16 | 16:9 |
| Résolution | 480p, 720p | 480p |
| Durée | 5s, 8s, 10s | 8s |
Grok Imagine R2V ne prend pas en charge la génération audio, le mode multi-plans ni les Éléments. Pour ces fonctionnalités, utilisez Kling O3 R2V.
Guide étape par étape (Video Studio)
1. Sélectionner le modèle
Allez sur venice.ai/video. Dans le navigateur de modèles, sélectionnez Grok Imagine R2V.
2. Téléverser les images de référence
Cliquez sur Références dans la barre d’outils d’entrée (ou utilisez le menu +) pour ouvrir le panneau d’images de référence. Téléversez 1 à 7 images des personnages, objets ou scènes que vous voulez dans la vidéo.
Chaque image est automatiquement étiquetée @Image1, @Image2, etc. dans l’ordre où vous les téléversez (de gauche à droite).
3. Écrire votre prompt
Décrivez la vidéo souhaitée. Utilisez les tags @Image pour référencer des images spécifiques :
@Image1 and @Image2 walking together through a sunlit park,
camera slowly tracking alongside them, warm afternoon light.
Tapez @ dans le champ de prompt pour voir un menu d’autocomplétion des références d’image disponibles.
Si vous omettez complètement les tags @Image, le backend ajoute automatiquement les références à toutes les images téléversées. C’est utile lorsque vous voulez que toutes les images soient utilisées sans préciser laquelle est laquelle.
Ouvrez Paramètres vidéo pour ajuster le ratio d’aspect, la résolution et la durée. Cliquez sur Générer la vidéo.
Tarification Grok Imagine R2V
Grok Imagine R2V utilise une tarification basée sur la durée et la résolution :
| Résolution | Par seconde |
|---|
| 480p | ~0,063 $ |
| 720p | ~0,088 $ |
Exemple : une vidéo de 8 secondes en 480p = 8 × 0,063 =∗∗ 0,50**
Grok Imagine facture des frais de modération de contenu pour les vidéos générées, même si la vidéo est rejetée. Cela est reflété dans le coût en crédits affiché avant la génération.
Utilisation de l’API Grok Imagine R2V
Python
import requests
response = requests.post(
"https://api.venice.ai/api/v1/video/queue",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={
"model": "grok-imagine-reference-to-video",
"prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
"duration": "8",
"aspect_ratio": "16:9",
"referenceImageUrls": [
"https://example.com/character-a.jpg",
"https://example.com/character-b.jpg"
]
}
)
queue_id = response.json()["id"]
Node.js
const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
method: "POST",
headers: {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
},
body: JSON.stringify({
model: "grok-imagine-reference-to-video",
prompt: "@Image1 and @Image2 walking through a park, cinematic tracking shot",
duration: "8",
aspect_ratio: "16:9",
referenceImageUrls: [
"https://example.com/character-a.jpg",
"https://example.com/character-b.jpg"
]
})
});
const { id: queueId } = await response.json();
cURL
curl https://api.venice.ai/api/v1/video/queue \
-H "Authorization: Bearer $VENICE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-imagine-reference-to-video",
"prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
"duration": "8",
"aspect_ratio": "16:9",
"referenceImageUrls": [
"https://example.com/character-a.jpg",
"https://example.com/character-b.jpg"
]
}'
Paramètres de l’API
| Champ | Type | Requis | Description |
|---|
model | string | Oui | Doit être grok-imagine-reference-to-video |
prompt | string | Oui | Prompt textuel avec références optionnelles @Image1, @Image2 |
referenceImageUrls | string[] | Oui | 1–7 URL d’image ou URL data |
duration | string | Non | "5", "8" (par défaut) ou "10" |
aspect_ratio | string | Non | par exemple, "16:9" (par défaut), "9:16", "1:1" |
resolution | string | Non | "480p" (par défaut) ou "720p" |
Grok Imagine R2V n’utilise pas les champs elements, image_urls ou imageUrl. Toutes les images de référence sont passées via referenceImageUrls.
Dépannage Grok Imagine R2V
| Problème | Cause probable | Solution |
|---|
| Le bouton Générer est désactivé | Aucune image de référence téléversée | Téléversez au moins 1 image de référence |
| Erreur « At least one reference image is required » | referenceImageUrls est vide ou manquant | Fournissez au moins une URL d’image dans referenceImageUrls |
Mauvaise image associée au tag @Image | L’ordre des images ne correspond pas aux tags | @Image1 correspond à la première image dans votre ordre de téléversement (de gauche à droite). Réorganisez les téléversements si nécessaire. |
| Le sujet n’apparaît pas dans la vidéo | Trop de références sans tags explicites | Utilisez les tags @Image dans votre prompt pour être explicite sur les images à utiliser |
| Sortie de basse qualité | Utilisation de la résolution 480p | Essayez 720p pour une meilleure qualité (coût plus élevé) |
| Vidéo trop courte | La durée par défaut est de 8 s | Définissez la durée sur "10" pour des vidéos plus longues |