الانتقال إلى المحتوى الرئيسي
تتيح لك ميزة «المرجع إلى الفيديو» تثبيت مظهر الشخصيات والأشياء والمشاهد بحيث تبقى مقاطع الفيديو المُولَّدة بالذكاء الاصطناعي متّسقة بصريًا. فبدلًا من الاعتماد على أن يفسّر النموذج التعليمة (Prompt) بشكل صحيح، أنت تزوّده بمراسٍ بصرية — صور مرجعية تخبر النموذج بدقّة كيف يبدو موضوعك. هذه الميزة متاحة على نماذج Kling O3 و Grok Imagine R2V في Venice Video Studio. كل عائلة نماذج تستخدم منهجًا مختلفًا للصور المرجعية — راجع الأقسام الخاصة بكل نموذج أدناه.

متى تستخدم «المرجع إلى الفيديو»

استخدم «المرجع إلى الفيديو» عندما تحتاج إلى:
  • اتساق الشخصية — نفس الشخص أو الشخصية عبر لقطات متعددة
  • دقة المنتج — منتج حقيقي يجب أن يبدو مطابقًا للأصل
  • استمرارية المشهد — بيئة أو خلفية محددة عبر عدة عمليات توليد
  • مشاهد متعددة الشخصيات — عدة شخصيات مميزة تتفاعل دون أن تختلط ملامحها
أما في حالات النص إلى فيديو أو الصورة إلى فيديو البسيطة حيث لا يكون الاتساق حرجًا، فإن النماذج القياسية تعمل جيدًا دون مراجع.

النماذج المتاحة

النموذجالمنهجالأنسب لـ
Kling O3 Pro R2Vعناصر + صور مشهدالمشاهد المعقدة متعددة الشخصيات بضبط دقيق للهوية
Kling O3 Standard R2Vعناصر + صور مشهدتكرار أسرع للمشاهد المبنية على العناصر
Grok Imagine R2Vصور مرجعية مسطحةتوليد سريع مدفوع بالمراجع يصل إلى 7 صور
يستخدم Kling O3 منهجًا مُهيكلاً عبر العناصر (مراسي هوية الشخصية مع صور أمامية ومرجعية) وصور المشهد. بينما يتبع Grok Imagine R2V منهجًا أبسط — ترفع صور المرجع مباشرة وتشير إليها في تعليمتك باستخدام @Image1، @Image2، وهكذا.

Kling O3 — المرجع إلى الفيديو

المفاهيم الأساسية

يستخدم Kling O3 «المرجع إلى الفيديو» ثلاثة أنواع من المدخلات البصرية تعمل معًا:
المدخلمطلوبالغرضكيف يُشار إليه في التعليمة
العناصر (Elements)مدخل بصري واحد على الأقل*تثبيت هوية شخصية أو شيء@Element1، @Element2، إلخ
صور مرجع المشهدمدخل بصري واحد على الأقل*تحديد البيئة والأسلوب والمزاج@Image1، @Image2، إلخ
الإطار الأول (Start Frame)مدخل بصري واحد على الأقل*التحكم في الإطار الأول من الفيديولا يوجد (يُعيَّن عبر الرفع)
الإطار الأخير (End Frame)لاالتحكم في الإطار الأخير من الفيديولا يوجد (يُعيَّن عبر الرفع)
*يلزم توفير واحد على الأقل من: إطار البداية أو العناصر أو صور مرجع المشهد.

العناصر (Elements)

العنصر هو شخصية أو شيء تريد إبقاءه ثابتًا بصريًا طوال الفيديو. يتألف كل عنصر من:
  • صورة أمامية (Frontal Image) (مطلوبة لكل عنصر) — صورة واضحة من الأمام للموضوع. هي مرساة الهوية الأساسية. فكّر فيها كـ«صورة جواز السفر» لشخصيتك أو منتجك.
  • صور مرجعية (Reference Images) (من 1 إلى 3، اختيارية) — زوايا إضافية للموضوع نفسه (جانبية، بزاوية 45 درجة، خلفية). تساعد النموذج على فهم الموضوع في الفراغ ثلاثي الأبعاد. إن لم تُقدَّم، تُستخدم الصورة الأمامية تلقائيًا كمرجع.
يمكنك إضافة حتى 7 عناصر لكل عملية توليد (محدودة بالإجمالي الكلي). أشِر إليها في تعليمتك باستخدام @Element1، @Element2، إلخ.

صور مرجع المشهد

تحدّد مراجع المشهد «المسرح» الذي تجري فيه الأحداث. وتؤثر في:
  • الإضاءة ولوحة الألوان
  • العمارة وتفاصيل البيئة
  • الأسلوب البصري العام والمزاج
يمكنك إضافة حتى 4 صور مشهد. أشِر إليها بـ@Image1، @Image2، إلخ في تعليمتك.

القيود

العدد الإجمالي للصور عبر جميع أنواع المدخلات محدود:
الحدالقيمة
الحد الأدنى المطلوبمدخل بصري واحد على الأقل (إطار بداية، عنصر، أو صورة مشهد)
الإجمالي المجمّع (الإطار الأول + الإطار الأخير + العناصر + صور المشهد)7 كحد أقصى
العناصر (بدون إطار بداية/نهاية)7 كحد أقصى
العناصر (مع إطار بداية أو نهاية)3 كحد أقصى
صور مرجع المشهد4 كحد أقصى
الصور المرجعية لكل عنصر1–3
أمثلة على السيناريوهات:
  • 7 عناصر + 0 صور مشهد = 7 ✓ (بدون إطارات)
  • 5 عناصر + 2 صور مشهد = 7 ✓ (بدون إطارات)
  • إطار أول (1) + 3 عناصر + 3 صور مشهد = 7 ✓
  • إطار أول (1) + إطار أخير (1) + 3 عناصر + 2 صور مشهد = 7 ✓
  • إطار أول (1) + 4 عناصر = ✗ (الحد الأقصى 3 عناصر مع إطار)
  • إطار أول (1) + إطار أخير (1) + 4 عناصر = ✗ (الحد الأقصى 3 عناصر مع الإطارات)
كل عنصر يتطلب صورة أمامية. إذا لم تُقدِّم صورًا مرجعية لعنصر ما، تُستخدم الصورة الأمامية تلقائيًا كمرجع.

وضع اللقطات المتعددة (Multi-shot)

يتيح لك وضع اللقطات المتعددة تقسيم عملية توليد واحدة إلى عدة مشاهد، لكل منها تعليمتها ومدتها الخاصة. تنتقل العناصر ومراجع المشهد عبر جميع اللقطات حفاظًا على الاتساق. لا يمكن أن تتجاوز المدة الإجمالية لكل اللقطات 15 ثانية.

دليل خطوة بخطوة (Video Studio)

1. افتح Video Studio واختر النموذج

اذهب إلى venice.ai/video. في متصفّح النماذج على اليسار، اختر أحد نماذج Kling O3 Reference to Video:
  • Kling O3 Pro R2V — جودة أعلى ووقت توليد أطول (~6 دقائق)
  • Kling O3 Standard R2V — أسرع وأكثر اقتصادية للتكرار

2. أضف المدخلات البصرية (مدخل واحد على الأقل مطلوب)

يجب توفير مدخل بصري واحد على الأقل لتوليد فيديو: إطار بداية، أو عنصر، أو صورة مرجع مشهد. في لوحة المدخلات سترى قسم Elements. اضغط Add Element لإنشاء عنصر للشخصيات أو الأشياء التي تريد إبقاءها متّسقة بصريًا. لكل عنصر:
  1. اضغط بلاطة Frontal لرفع صورة واضحة من الأمام لشخصيتك أو شيئك
  2. اختياريًا اضغط Add ضمن Reference Images لرفع زوايا إضافية (1–3)
كرّر الخطوة لشخصيات أو أشياء إضافية (حتى 7 عناصر إجمالًا، أو 3 إذا كنت تستخدم إطارات بداية/نهاية).
لا يمكن أن يتجاوز الإجمالي المجمّع للإطار الأول والإطار الأخير والعناصر وصور المشهد 7. راجع القيود للتفاصيل.
أفضل الصور المرجعية: استخدم صورًا جيدة الإضاءة بخلفية نظيفة. وفّر زوايا أمامية وجانبية و45 درجة لأقوى تثبيت للهوية. تأكّد من أن كل الصور المرجعية تتشارك الأسلوب البصري نفسه (لا تخلط بين الواقعي والأنمي).

3. أضف صور مرجع المشهد (اختياري)

أسفل قسم العناصر، سترى Scene Reference Images. ارفع صورًا تحدّد البيئة التي تريدها — موقعًا محددًا، أو إعداد إضاءة، أو أسلوبًا فنيًا. تُوسم هذه تلقائيًا بـ@Image1، @Image2، إلخ.

4. ارفع إطار البداية (اختياري)

إذا أردت التحكّم في الإطار الأول من فيديوك بدقة، بدّل إلى نوع المدخل Image وارفع إطار بداية. يمكنك أيضًا تعيين إطار نهاية اختياريًا.

5. اكتب تعليمتك

في حقل التعليمة، صِف الفعل الذي تريده مع الإشارة إلى عناصرك وصور المشهد باستخدام وسوم @:
@Element1 walks through the streets of @Image1, looking up at the buildings.
The camera slowly tracks from behind, revealing the city skyline.
للمشاهد متعددة الشخصيات:
@Element1 and @Element2 enter the cafe in @Image1 from opposite sides.
@Element1 waves and walks toward @Element2, who is sitting at a corner table.

6. اضبط الإعدادات

افتح Video Settings لضبط:
الإعدادالخياراتالافتراضي
المدة (Duration)3 ث – 15 ث5 ث
نسبة العرض إلى الارتفاع (Aspect Ratio)16:9، 9:16، 1:116:9
توليد الصوت (Generate Audio)تشغيل/إيقافإيقاف
يضيف توليد الصوت مؤثرات صوتية أصلية وحوارًا وصوتًا محيطًا متزامنًا مع الفيديو. ويزيد التكلفة بنحو 25%.

7. ولِّد

اضغط Generate Video. يستغرق Kling O3 عادةً من 4 إلى 6 دقائق حسب فئة النموذج والمدة. يمكنك جدولة عدة عمليات توليد وتصفّح النتائج في معرض الفيديو.

إخراج اللوحات القصصية (Storyboarding) متعدد اللقطات

للتسلسلات السردية، استخدم وضع اللقطات المتعددة لتعريف مشاهد منفصلة ضمن عملية توليد واحدة.
  1. في منطقة التعليمة، اضغط Add Shot لإنشاء لقطات إضافية
  2. اكتب تعليمة منفصلة لكل لقطة
  3. عيّن مدة كل لقطة (3–15 ث لكل لقطة، الإجمالي ≤ 15 ث)
تنتقل العناصر ومراجع المشهد عبر جميع اللقطات تلقائيًا:
Shot 1 (5s): @Element1 stands at the edge of @Image1, looking out at the horizon.
Slow camera push forward.

Shot 2 (5s): Close-up of @Element1's face as they turn toward the camera.
Soft natural lighting, shallow depth of field.

Shot 3 (5s): @Element1 walks away from camera into the distance.
Wide cinematic shot, golden hour lighting.
لا يمكن أن تتجاوز المدة الإجمالية للقطات المتعددة 15 ثانية. مثلًا، ثلاث لقطات بمدة 5 ثوانٍ = 15 ث كحد أقصى.

نصائح صياغة التعليمات

نظّم تعليمتك

اتبع هذا النمط للحصول على نتائج موثوقة:
[الموضوع مع وسم @Element] + [الفعل] + [البيئة مع وسم @Image] + [حركة الكاميرا] + [الإضاءة/الأسلوب]
مثال:
@Element1 hops happily across the candy ground of @Image1, stops to look at a
giant lollipop, tilts its head curiously. Cinematic tracking shot, soft warm lighting.

اجعل التعليمات بين 50 و150 كلمة

التعليمات الأقصر تفتقر إلى التفاصيل. الأطول تُدخل تناقضات. استهدف النقطة المثالية بينهما.

استخدم لغة كاميرا بسيطة

يستجيب النموذج بشكل أفضل لتوجيهات الكاميرا المباشرة:
استخدمتجنّب
slow camera push forwarddolly zoom with rack focus transition
tracking shot from behindcomplex handheld parallax movement
close-upextreme macro with tilt-shift bokeh
wide cinematic shotanamorphic ultra-wide establishing crane shot

استخدم مفردات متّسقة

إذا وصفت شخصية ترتدي “a red jacket” في تعليمة، فلا تنتقل إلى “crimson coat” في التالية. يعامل النموذج الكلمات المختلفة كنوايا مختلفة.

ضع تعليمات الكاميرا في وقت مبكر

ضع توجيه الكاميرا قرب بداية التعليمة لنتائج أكثر موثوقية:
Cinematic tracking shot of @Element1 walking through @Image1, leaves
blowing in the wind, golden afternoon light.

تسعير Kling O3

تستخدم نماذج Kling O3 Reference to Video تسعيرًا قائمًا على المدة:
النموذجلكل ثانية (بلا صوت)لكل ثانية (مع صوت)
Kling O3 Pro R2V$0.112$0.140
Kling O3 Standard R2V$0.112$0.140
مثال: فيديو مدته 10 ثوانٍ مع صوت = 10 × 0.14 = 1.40 دولار استخدم Video Quote API للحصول على التسعير الدقيق قبل التوليد.

استخدام Kling O3 عبر API

تتوفر ميزة Kling O3 Reference to Video أيضًا عبر Venice API. راجع Video Queue API للتفاصيل الكاملة.

Python

import requests

response = requests.post(
    "https://api.venice.ai/api/v1/video/queue",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "kling-o3-pro-reference-to-video",
        "prompt": "@Element1 walks through @Image1, camera tracking from behind",
        "duration": "8",
        "aspect_ratio": "16:9",
        "audio": True,
        "elements": [
            {
                "frontal_image_url": "https://example.com/character-front.jpg",
                "reference_image_urls": [
                    "https://example.com/character-side.jpg",
                    "https://example.com/character-angle.jpg"
                ]
            }
        ],
        "image_urls": [
            "https://example.com/scene-background.jpg"
        ]
    }
)

queue_id = response.json()["id"]

Node.js

const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    model: "kling-o3-pro-reference-to-video",
    prompt: "@Element1 walks through @Image1, camera tracking from behind",
    duration: "8",
    aspect_ratio: "16:9",
    audio: true,
    elements: [
      {
        frontal_image_url: "https://example.com/character-front.jpg",
        reference_image_urls: [
          "https://example.com/character-side.jpg",
          "https://example.com/character-angle.jpg"
        ]
      }
    ],
    image_urls: [
      "https://example.com/scene-background.jpg"
    ]
  })
});

const { id: queueId } = await response.json();

cURL

curl https://api.venice.ai/api/v1/video/queue \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kling-o3-pro-reference-to-video",
    "prompt": "@Element1 walks through @Image1, camera tracking from behind",
    "duration": "8",
    "aspect_ratio": "16:9",
    "audio": true,
    "elements": [
      {
        "frontal_image_url": "https://example.com/character-front.jpg",
        "reference_image_urls": [
          "https://example.com/character-side.jpg",
          "https://example.com/character-angle.jpg"
        ]
      }
    ],
    "image_urls": [
      "https://example.com/scene-background.jpg"
    ]
  }'

مخطط العنصر

يقبل كل عنصر في مصفوفة elements:
الحقلالنوعمطلوبالوصف
frontal_image_urlstringنعمرابط صورة واضحة من الأمام
reference_image_urlsstring[]لاروابط زوايا إضافية (1–3). إن تم حذفها، تُستخدم الصورة الأمامية كمرجع.
يدعم API أيضًا video_url للعناصر المعتمدة على الفيديو، لكنها غير متاحة حاليًا في واجهة Video Studio.

استكشاف أخطاء Kling O3 وإصلاحها

المشكلةالسبب المرجّحالإصلاح
زر التوليد معطّللم تُوفَّر مدخلات بصريةأضف مدخلًا بصريًا واحدًا على الأقل: إطار بداية، عنصر، أو صورة مرجع مشهد
خطأ “Number of images exceeds the limit”عدد كبير من المدخلات المجمّعةإجمالي الإطار الأول + الإطار الأخير + العناصر + صور المشهد يجب أن يكون ≤ 7
تغيّر وجه الشخصية بين اللقطاتصورة أمامية مختلفة أو مفقودةاستخدم نفس الصورة الأمامية باستمرار، وأبقِ الوصف مطابقًا
تبدو حركة الكاميرا عشوائيةتعليمات كاميرا متعددة أو متناقضةاستخدم تعليمة كاميرا واحدة وضعها في وقت مبكر من التعليمة
تبديل الأسلوب بين عمليات التوليدمراجع مشهد غير متّسقة أو أساليب مختلطةأعد استخدام نفس صور المشهد، واحتفظ بكلمات الأسلوب متّسقة
اختلاط العناصر في المشاهد متعددة الشخصياتتعليمات مكانية غامضةكن صريحًا بشأن موقع كل عنصر: “في المقدمة يسارًا”، “يدخل من اليمين”
تبدو الخلفية مشوّهةصورة مرجع مشهد مزدحمة أو معقدةاستخدم صور مرجع مشهد نظيفة وعالية الجودة
تبدو الحركة غير طبيعيةعدد كبير من الأفعال في تعليمة واحدةبسّط الفعل، استخدم مدة أقصر، فعلًا واحدًا لكل لقطة
اختبر بمقطع من 3 إلى 5 ثوانٍ قبل الالتزام بمدد أطول. تحافظ المقاطع الأقصر على اتساق أفضل وتتيح لك التكرار بسرعة.

Grok Imagine — المرجع إلى الفيديو

يتبنى Grok Imagine R2V منهجًا أبسط من Kling O3. فبدلًا من العناصر المُهيكلة بفصل بين الصور الأمامية والمرجعية، ترفع صور مرجعية مسطحة وتشير إليها مباشرة في تعليمتك باستخدام @Image1، @Image2، إلخ. يدمج النموذج تلك الموضوعات في الفيديو المُولَّد.

كيف يعمل

  1. ارفع 1–7 صور مرجعية — صورًا للشخصيات أو الأشياء أو المشاهد التي تريدها في الفيديو
  2. اكتب تعليمة تصف الفيديو، باستخدام @Image1، @Image2، إلخ للإشارة إلى صور محددة
  3. يولّد النموذج فيديو يدمج تلك المراجع
إذا لم تُضمِّن وسوم @Image في تعليمتك، تتم الإشارة إلى جميع الصور المرفوعة تلقائيًا.

الإعدادات

الإعدادالخياراتالافتراضي
نسبة العرض إلى الارتفاع16:9، 4:3، 3:2، 1:1، 2:3، 3:4، 9:1616:9
الدقة480p، 720p480p
المدة5 ث، 8 ث، 10 ث8 ث
لا يدعم Grok Imagine R2V توليد الصوت ولا وضع اللقطات المتعددة ولا العناصر. لتلك الميزات، استخدم Kling O3 R2V.

دليل خطوة بخطوة (Video Studio)

1. اختر النموذج

اذهب إلى venice.ai/video. في متصفّح النماذج، اختر Grok Imagine R2V.

2. ارفع الصور المرجعية

اضغط References في شريط أدوات المدخلات (أو استخدم قائمة +) لفتح لوحة الصور المرجعية. ارفع 1–7 صور للشخصيات أو الأشياء أو المشاهد التي تريدها في الفيديو. تُوسم كل صورة تلقائيًا بـ@Image1، @Image2، إلخ بترتيب رفعها (من اليسار إلى اليمين).

3. اكتب تعليمتك

صِف الفيديو الذي تريده. استخدم وسوم @Image للإشارة إلى صور محددة:
@Image1 and @Image2 walking together through a sunlit park,
camera slowly tracking alongside them, warm afternoon light.
اكتب @ في حقل التعليمة لرؤية قائمة إكمال تلقائي لمراجع الصور المتاحة.
إذا حذفت وسوم @Image كليًا، يضيف الخادم تلقائيًا مراجع لكل الصور المرفوعة. هذا مفيد عندما تريد استخدام جميع الصور دون تحديد أي منها.

4. اضبط الإعدادات وولِّد

افتح Video Settings لضبط نسبة العرض إلى الارتفاع والدقة والمدة. اضغط Generate Video.

تسعير Grok Imagine R2V

يستخدم Grok Imagine R2V تسعيرًا قائمًا على المدة والدقة:
الدقةلكل ثانية
480p~$0.063
720p~$0.088
مثال: فيديو مدته 8 ثوانٍ بدقة 480p = 8 × 0.063 = ~0.50 دولار
يفرض Grok Imagine رسوم اعتدال محتوى على مقاطع الفيديو المُولَّدة، حتى إذا تم رفض الفيديو. وينعكس هذا في تكلفة الأرصدة المعروضة قبل التوليد.

استخدام Grok Imagine R2V عبر API

Python

import requests

response = requests.post(
    "https://api.venice.ai/api/v1/video/queue",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "grok-imagine-reference-to-video",
        "prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
        "duration": "8",
        "aspect_ratio": "16:9",
        "referenceImageUrls": [
            "https://example.com/character-a.jpg",
            "https://example.com/character-b.jpg"
        ]
    }
)

queue_id = response.json()["id"]

Node.js

const response = await fetch("https://api.venice.ai/api/v1/video/queue", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    model: "grok-imagine-reference-to-video",
    prompt: "@Image1 and @Image2 walking through a park, cinematic tracking shot",
    duration: "8",
    aspect_ratio: "16:9",
    referenceImageUrls: [
      "https://example.com/character-a.jpg",
      "https://example.com/character-b.jpg"
    ]
  })
});

const { id: queueId } = await response.json();

cURL

curl https://api.venice.ai/api/v1/video/queue \
  -H "Authorization: Bearer $VENICE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-imagine-reference-to-video",
    "prompt": "@Image1 and @Image2 walking through a park, cinematic tracking shot",
    "duration": "8",
    "aspect_ratio": "16:9",
    "referenceImageUrls": [
      "https://example.com/character-a.jpg",
      "https://example.com/character-b.jpg"
    ]
  }'

معاملات API

الحقلالنوعمطلوبالوصف
modelstringنعميجب أن يكون grok-imagine-reference-to-video
promptstringنعمتعليمة نصية مع مراجع اختيارية @Image1، @Image2
referenceImageUrlsstring[]نعم1–7 روابط صور أو روابط بيانات
durationstringلا"5"، "8" (الافتراضي)، أو "10"
aspect_ratiostringلامثل "16:9" (الافتراضي)، "9:16"، "1:1"
resolutionstringلا"480p" (الافتراضي) أو "720p"
لا يستخدم Grok Imagine R2V حقول elements أو image_urls أو imageUrl. تُمرَّر كل الصور المرجعية عبر referenceImageUrls.

استكشاف أخطاء Grok Imagine R2V وإصلاحها

المشكلةالسبب المرجّحالإصلاح
زر التوليد معطّللم تُرفع صور مرجعيةارفع صورة مرجعية واحدة على الأقل
خطأ “At least one reference image is required”referenceImageUrls فارغ أو مفقودوفّر رابط صورة واحدًا على الأقل في referenceImageUrls
الصورة الخاطئة مرتبطة بوسم @Imageترتيب الصور لا يطابق الوسوميقابل @Image1 الصورة الأولى في ترتيب الرفع (من اليسار إلى اليمين). أعد ترتيب الرفع إذا لزم.
الموضوع لا يظهر في الفيديوعدد كبير من المراجع دون وسوم صريحةاستخدم وسوم @Image في تعليمتك لتكون صريحًا بشأن الصور المطلوب استخدامها
إخراج بجودة منخفضةاستخدام دقة 480pجرّب 720p لجودة أعلى (تكلفة أعلى)
الفيديو قصير جدًاالمدة الافتراضية 8 ثعيّن المدة على "10" لمقاطع فيديو أطول