
دليل Seedance 2.0 الشامل لكتابة الإرشادات
أتقن إرشادات Seedance 2.0 باستخدام الصيغة الثلاثية الرسمية، وصيغة المراجع متعددة الوسائط (@image, @video, @audio)، والقوالب الخاصة بكل نمط.
معظم مقالات "إرشادات فيديو AI" التي ستجدها على الإنترنت كتبها أشخاص يكتبون "لقطة سينمائية لذئب في الثلج" ويعتبرون ذلك درسًا تعليميًا. هذا ليس ما تبدو عليه إرشادات Seedance 2.0 في الواقع. يحتوي النموذج على نحو متعدد الوسائط محدد (@image1 و@video2 و@audio1 و@character:<id>)، وVolcengine، التي تمتلك النموذج، تُصدر دليل إرشادات رسميًا منظمًا حول خمس فئات مميزة[1]. إذا لم تتطابق إرشاداتك مع تلك البنية، فستبدد الرصيد على إعادة المحاولات القريبة من الصحيح.
هذا هو دليل Seedance 2.0 الشامل الذي تمنيت أن أملكه عندما بدأت. يغطي الصيغة الرسمية، والصيغة المرجعية التي تتحكم في عمليات المراجع المتعددة والفيديوهات متعددة، والقوالس الخاصة بكل نمط للمسارات الحقيقية الأربعة (نص-إلى-فيديو، صورة-إلى-فيديو، مرجع-إلى-فيديو، تحرير الفيديو)، وأنماط الفشل التي تعيد المبتدئين إلى الانتظار. تم التحقق منها مقابل مواصفات API الخاصة بـ ByteDance/Volcengine وتكوين استوديو seedance2.so المباشر.
الملخص السريع
- إرشادات Seedance 2.0 تتبع صيغة ثلاثية الأجزاء: الموضوع + الإجراء، ثم البيئة / الإضاءة / الأسلوب، ثم تلميحات الكاميرا أو الصوت[1].
- يقبل النموذج حتى 9 صور مرجعية و3 فيديوهات مرجعية و3 ملفات صوتية في طلب واحد[2]. اذكرها بشكل مضمّن باسم
图片1/视频2/音频1(الصينية) أو@image1/@video2/@audio1(اختصارseedance2.so)[3]. - حد طول الإرشادات: ≤ 500 حرف صيني أو ≤ 1,000 كلمة إنجليزية. أي شيء أطول يضعف الانتباه ويبدأ النموذج بتجاهل التفاصيل[2].
- يدعم Seedance 2.0 إرشادات باللغات الإنجليزية والصينية واليابانية والإندونيسية والإسبانية والبرتغالية، الإصدارات الأقدم من Seedance تدعم الإنجليزية والصينية فقط[2].
- في المستقبل، هناك فقط ثلاثة أنماط حقيقية: نص-إلى-فيديو، صورة-إلى-فيديو (الإطار الأول أو الأول+الأخير)، والمرجع متعدد الوسائط. "تحرير الفيديو" و"توسيع الفيديو" هما أنماط استخدام مرجع-إلى-فيديو، وليسا نماذج منفصلة[2].
- سيرفض Seedance 2.0 المراجع للوجوه البشرية الحقيقية، يتوقع إما صورة شخصية مولدة أو موجود مصرح به مسبقًا أو أحد الأغطار الافتراضية المزودة من المنصة[2].
صيغة Seedance 2.0 الثلاثية الأجزاء للإرشادات
تضع مواصفات Volcengine الرسمية هيكل البنية كثلاث كتل قابلة للتركيب[1]. لا تحتاج إلى ملء كل كتلة في كل مرة، لكن تكديس هذه الكتل بهذا الترتيب يعطي النموذج الإشارة الأنظف.
الكتلة 1: الموضوع والإجراء. من في المشهد وما يفعله. هذا هو الرابط المنطقي. "امرأة" لا تخبر النموذج بشيء. "امرأة طويلة في معطف فحمي طويل تعبر جسرًا حجريًا مبللًا" تعطيه موضوعًا وموقفًا ومتجه حركة.
الكتلة 2: البيئة والإضاءة والأسلوب. حيث يحدث، ما الذي تبدو عليه الإضاءة، والسجل البصري. "في الغسق، مصابيح الشارع تنعكس على الحجر الرطب المبلل، تدرج لوني مشبع باللون أزرق-كهرماني" تقوم بعمل حقيقي. تخطي هذه الكتلة والنموذج يرجع إلى لقطة متوسطة الحجم بإضاءة محايدة وبدون وجهة نظر أسلوبية.
الكتلة 3: لغة الكاميرا وتلميحات الصوت. كيف تتحرك الكاميرا وما الذي تسمعه. "دولي بطيء للأمام، عمق حقل ضحل، بيانو محيط يدعم الموسيقى" يحول لقطة عامة إلى واحدة موجهة. ينتج Seedance 2.0 صوتًا أصليًا مع الحوار المزامن مع الشفاه في 8+ لغات، لذا تنتمي تلميحات الصوت إلى الإرشادات، وليست فكرة لاحقة.
إرشاد ثلاثي الكتل نظيف:
A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.هذا ثلاث جمل وتغطي جميع الكتل الثلاث. النموذج لديه كل ما يحتاجه.
ضع الكلمات ذات المعلومات العالية في المقدمة
Seedance 2.0 يقرأ من اليسار إلى اليمين مع انتباه متناقص. الجملة الأولى تحمل أكثر الوزن، والثانية يتم ملؤها حوليها، وأي شيء بعد الثالث هو "التفاصيل لاستخدامها إذا كان هناك مساحة". ضع قيودك الأصعب، هوية الموضوع، الإجراء الرئيسي، الموقع الأساسي، في الجملة الافتتاحية. تأتي الزخارف الأسلوبية لاحقًا.
هذا ليس انطباعًا. يرسم خريطة لكيفية موازنة النموذج لرموز الإرشادات مقابل ميزانية الانتباه ضمن حدود الطول الموثقة (500 حرف صيني / 1,000 كلمة إنجليزية)[2]. بعد الحد، يتم اختصار الإرشادات بقوة داخليًا، و"مختصر" عادةً يعني فقدان التفاصيل التي كنت تهتم بها.
اختر أسلوبًا واحدًا والتزم به
خلط "3D animation من Pixar، حبيبات فيلم 35 ملم قاسية، غسل بالألوان المائية" داخل إرشاد واحد هو الطريقة الأسرع للحصول على فوضى بصرية. يجب على النموذج التوفيق بين ثلاث إشارات جمالية متناقضة والنتيجة عادة ما تكون افتراضية مسطحة. اختر واحدة (على سبيل المثال، Pixar 3D animation أو gritty 35mm film, heavy grain أو loose watercolor wash) واركن إليها.
بالنسبة لعمل text-to-video بالذات، اتساق الأسلوب هو ما يفصل "فعلاً قابل للاستخدام للحملة" عن "ممتع للنظر إليه مرة واحدة".
صيغة المراجع التي لا يوثقها أحد بوضوح
هنا الجزء الذي تخطئ فيه معظم الأدلة من جهات خارجية. وضع Seedance 2.0's reference-to-video (تسميه Volcengine 多模态参考生视频، "توليد فيديو المرجع متعدد الوسائط") يستخدم نظام مؤشر عددي صريح في الإرشاد نفسه[3].
صيغة Volcengine الرسمية هي ترقيم الأقواس المربعة الصينية: 图片1 و图片2 و...، 图片9 للصور؛ 视频1 و视频2 و视频3 للفيديوهات[3]. على seedance2.so، يسطح الاستوديو اختصارًا صديقًا للإنجليزية يتم تعيينه للعقد المستقل للأعلى، @image1 إلى @image9، @video1 إلى @video3، و@audio1 إلى @audio3[4]. تنتج نتائج متطابقة؛ اختر أيهما يقرأ بشكل أنظف لك.
النقطة: المرجع-إلى-الفيديو بدون مؤشرات صريحة هو مجرد تلميح غامض للنموذج. مع المؤشرات، أنت تخبره بالضبط أي فتحة إدخال تُعيّن إلى أي فكرة في الإرشاد.
مراجع متعددة الصور: نمط قائمة التسوق
القالب الموصى به من Volcengine لمراجع متعددة الصور[3]:
Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.تعيين الرقم إلى الإدخال موضعي. الصورة الأولى التي تحملها هي @image1، والثانية هي @image2، وهكذا. هذا لا يمكن التفاوض عليه، لا توجد حقل "الاسم" على التحميلات، فقط الترتيب. إذا أعدت تحميل نفس الصورة ثانيًا بدلاً من الأولى، فإن مرجع @image1 الخاص بك يشير الآن إلى صورة مختلفة والإرشاد ينكسر بصمت.
يعطي دليل Volcengine الرسمي هذا المثال المؤلف لاستخدام ثلاث مدخلات صور لتحديد الموضوع والملابس والمنتج بشكل منفصل[3]:
A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.مقابل النسخة المنظمة:
[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.كلاهما يعمل. الثاني يحقق امتثالًا أفضل بشكل قابل للقياس لصور الإدخال. إذا كنت تهتم بالدقة التجارية وتصوير المنتجات واستمرارية الأحرف عبر اللقطات، فاستخدم نموذج المؤشر الصريح في كل مرة.
مراجع الفيديو: الإجراء والكاميرا والمؤثرات البصرية
ينطبق نفس النمط على مدخلات الفيديو[3]. توثق Volcengine ثلاث طرق مميزة لاستخدام فيديو مرجعي:
| ما تريده من المرجع | قالب الإرشاد |
|---|---|
| استعير الإجراء (الحركة والرقص) | Reference the action in @video1, generate <new scene description>, keep action details consistent. |
| استعير حركة الكاميرا (dolly, orbit, push-in) | Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent. |
| استعير تأثير VFX أو الجسيمات | Reference the gold particle effect in @video1, apply the same effect to <subject in image2>. |
هذه فعلاً قوة عظمى إذا كنت تنتج سلسلة. صوّر مقطع مرجعي واحد بحركة الكاميرا التي تريدها، push-in باليد، مدار سلس، zoom الدوار، وأعد استخدامه عبر عشر اختلافات من الموضوع والإعداد. تحصل على استمرارية بصرية بدون إعادة موجهة السينمائية من الصفر.
مراجع الصوت والمزامنة مع النبض
تعمل مدخلات الصوت بنفس الطريقة: حتى ثلاثة ملفات صوتية، يشار إليها باسم @audio1 و@audio2 و@audio3[4]. الاستخدام الأكثر شيوعًا هو beat-sync video، تثبيت الحركة المولدة على مسار موسيقي بحيث تنزل القطع والحركات على نبضة قوية.
طلب beat-sync فعال:
Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.النموذج لا يقوم بتحليل صوت حرفي على كل نبضة طبل، لكنه ينتج بشكل متسق حركة تبدو متزامنة مع الصوت المصدر عندما تخبره أن يفعل.
قوالس الإرشادات حسب النمط
يحتوي Seedance 2.0 على ثلاث أنماط توليد حقيقية في المستقبل، بالإضافة إلى عدة أنماط استخدام مرجع-إلى-فيديو التي تسطح API كسير عمل مميزة[2]. إليك كيفية اختلاف الإرشادات عبرها.
نص-إلى-فيديو (T2V)
أبسط وضع. الإرشاد فقط يدفع الناتج. تحمل الصيغة الثلاثية الأجزاء كاملة كل الحمل. نسبة العرض إلى الارتفاع (16:9، 9:16، 4:3، 3:4) والمدة (5، 10، أو 15 ثانية) تأتي من معاملات الطلب، وليس الإرشاد، لا تضيع الرموز بكتابة "بصيغة 16:9"[4].
النمط:
<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.قم بتشغيله على seedance2.so/text-to-video عندما لا يكون لديك مدخلات مرجعية.
صورة-إلى-فيديو (I2V)، نمط الإطار الأول
تحمل صورة واحدة؛ تصبح إطار الفتح. يصف الإرشاد فقط الحركة والاستمرار، وليس الموضوع، لأن الموضوع موجود بالفعل في الصورة. إعادة وصف ما تظهره الصورة عادة ما يسبب أن "يعيد رسم" النموذج الموضوع ويرتد بعيدًا عن المصدر.
النمط:
<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>إرشاد I2V سيء:
A blonde woman in a red dress walks through a market.(الصورة بالفعل تظهرها. أنت تحارب النموذج.)
إرشاد I2V جيد:
She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.صورة-إلى-فيديو (I2V)، نمط الإطار الأول+الأخير
حمّل صورتين. يقوم النموذج بالاستيفاء بينهما ويصف الإرشاد مسار الانتقال. هذه أنظف طريقة للحصول على قوس سردي حتمي في 5 ثوان.
النمط:
Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>ملاحظة: يجب أن تكون الصور الأولى والأخيرة قريبة من مطابقة نسبة العرض إلى الارتفاع. يقوم النموذج بقص المشهد الثاني تلقائيًا ليتماشى إذا اختلفوا، لكن القص الثقيل يقلل النتيجة[2].
مرجع-إلى-فيديو / مرجع متعدد الوسائط (R2V)
هذا هو النمط البارز في Seedance 2.0 والذي يبرر معظم هذا الدليل. يمكنك خلط الصور والفيديوهات والصوت في طلب واحد، حتى 9 + 3 + 3، وحياكتها في الإرشاد بالمؤشرات الصريحة المغطاة أعلاه[2].
هيكل القالب الرسمي[3]:
Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.مثال مأخوذ من الدليل الرسمي[3]:
The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.خمس مدخلات صور، خمس أدوار صريحة، سردية متماسكة واحدة. هذا النوع من الإرشاد المنظم هو ما يمكّن reference-to-video بجودة الإنتاج. بدون انضباط المؤشر، يصبح النموذج غامضًا والعناصر تضبابية.
تحرير الفيديو من خلال R2V
تعامل Volcengine تحرير الفيديو (إضافة / حذف / تعديل العناصر) كنمط استخدام R2V، وليس نمط منفصل[3]. قوالس من الدليل الرسمي:
| العملية | القالب |
|---|---|
| أضف عنصرًا | In @video1, at <time/space position>, add <element description>. |
| احذف عنصرًا | Delete <element> from @video1, keep everything else unchanged. |
| استبدل عنصرًا | Replace <original> in @video1 with <new>, keep motion and camera unchanged. |
ذيل "keep motion and camera unchanged" يقوم بعمل مهم، بدونه، يرجع النموذج غالبًا إلى إعادة توليد المشهد من الصفر. جرّبه على video editing.
توسيع الفيديو (للأمام/للخلف)
نفس آلية R2V. قالبان[3]:
Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.النموذج يقص تلقائيًا إطارات المفصل من إدخالك، لا يعيد توليد الإطار الأصلي، وينتج فقط الذيل الجديد أو الرأس. قدّم قصد التوسيع على video extension.
خياطة المسار (تركيب 3 مقاطع)
إذا حملت فيديوهات متعددة للخياطة، فإن القيد صارم: أقصى 3 مدخلات فيديو، المدة الإجمالية ≤ 15 ثانية[3].
القالب:
@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.مثال مشغول من الدليل الرسمي[3]:
@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.النموذج يخترع فقط إطارات الانتقال؛ مقاطع المصدر تبقى سليمة.
لغة الكاميرا التي يفهمها Seedance 2.0 فعلاً
تدرب النموذج على أوصاف السينمائية، لذا يتفوق مفردات الطلقات المهنية على اللغة العارضة. المصطلحات أدناه هي التي رأيت ينتج عنها مخرجات موثوقة، المستخلصة من عمليات الإنتاج عبر seedance2.so والتحقق المتقاطع مقابل أمثلة Volcengine المرجعية[3].
الحركة:
slow dolly forward(الكاميرا المادية تتحرك نحو الموضوع) تفوقzoom in(تعديل العدسة) كل مرةtracking shot following subject from left to rightorbiting around subject at eye levelcrane shot ascending over <location>steady push-in toward <subject>handheld, slight shakeلشعور وثائقيwhip pan to <new subject>لانتقالات سريعة
الزاوية:
low angle looking up at subjectتجعل الموضوعات تبدو قويةoverhead establishing shotللعلاقات المكانيةdutch tiltللقلقextreme close-up on handsيوجه الانتباه للتفاصيلeye-level medium shotلإطار محادثة محايد
العدسة:
shallow depth of field, subject in focus, background blurredrack focus from foreground object to subjectanamorphic lens flarewide-angle distortion at the edges
النمط: استخدم الكلمات التي سيستخدمها صانع أفلام عامل. "سينمائي" غامض جدًا؛ "anamorphic 2.39:1, lens flare on highlights, shallow DoF at f/1.8" هو شيء يمكن للنموذج التصرف بناءً عليه.
وصفات الأسلوب والإضاءة التي تحرك الإبرة فعلاً
الأسلوب هو حيث الكتلة 2 من الصيغة تكسب محتفظتها. عدة فئات تستحق الحفظ.
الإضاءة: golden hour، blue hour، harsh midday sun، soft window light، single key light from screen-left، practical neon underlighting، silhouette against sunset، volumetric god rays through fog.
اللون: desaturated teal-and-amber grade، high-contrast monochrome، pastel washed-out palette، saturated tropical color، cool moonlit blues، warm tungsten interiors.
المخزون / الصيغة: 35mm film, fine grain، 16mm film, heavy grain، digital cinema, clean، VHS, scan lines, color bleed، super-8 home movie، polaroid faded edges.
النوع: Wes Anderson symmetry, pastel، David Fincher cool palette, low-key، Studio Ghibli watercolor backgrounds، '80s sci-fi, neon and chrome، noir, deep shadows, venetian blind patterns.
كلما كان وصفك أقرب إلى مرجع سينمائي أو إنتاجي حقيقي، كانت النتيجة أفضل. "سينمائي وعرضي" لا يخبر النموذج بشيء. "Roger Deakins golden hour, low contrast, subtle haze" يخبره بالكثير.
أنماط الفشل الشائعة وكيفية إصلاحها
بعد مراجعة مئات التوليدات عبر seedance2.so وقراءة تقارير المستخدمين، تحسب نفس أنماط الفشل الخمس معظم ملاحظات "هذا يبدو سيئًا". إليك البحث التشخيصي.
"الناتج تجاهل نصف إرشادي"
دائمًا تقريبًا مشكلة في الطول. إرشادك محتمل أن يكون فوق الحد (500 حرف صيني / 1,000 كلمة إنجليزية)[2]، أو حشرت الكثير من الأفكار في لقطة واحدة. القاعدة الذاتية: 1-2 موضوع لكل إرشاد، 2-4 جمل الكل. إذا كنت بحاجة إلى ثلاثة موضوعات تفعل ثلاثة أشياء مختلفة في ثلاثة مواقع، فهذا ثلاثة توليدات منفصلة خيطت معًا في المراحل اللاحقة، وليس إرشاد واحد.
"تم رسم الصورة المرجعية فوقها"
في نمط I2V، وصفت ما كان في الصورة بدلاً من ما يجب أن يحدث بعد ذلك. أعد كتابة الإرشاد لوصف الحركة فقط، وليس الموضوع. في نمط R2V، نسيت مؤشر @imageN الصريح، لذا عامل النموذج التحميل كتلميح جمالي غامض بدلاً من قيد صارم.
"يرفض التوليد مع صورتي المرجعية"
Seedance 2.0 بصراحة لا يقبل مراجع وجوه بشرية حقيقية، التحميلات ذات الوجوه البشرية الحقيقية القابلة للكشف يتم رفضها على طبقة الأمان[2]. ثلاثة حلول: استخدم صورة شخصية مولدة من Seedream لشخص خيالي كمرجع، استخدم أحد أغطار Volcengine الافتراضية المحددة مسبقًا، أو قدّم إذن موثق للشخص الحقيقي الموضح. لا توجد مبدل "أوقف هذا المرشح".
"الحركة مرتعشة / الموضوع يتحول"
ربما ذهبت بعيدًا جدًا. توليد عند 5 ثوان أولاً للتحقق من أن الإرشاد يتماسك، ثم التزم بـ 10 أو 15 ثانية. الجودة عند 15s مختلفة بشكل ملموس عن الجودة عند 5s، ليس لأن النموذج أسوأ، لكن لأن المزيد يحدث، وأي غموض في الإرشاد يتضخم عبر 25-35 إطار في الثانية من المحتوى الإضافي.
"الصوت غير متزامن مع الصور"
إما لم تعرّف الصوت بصراحة بـ @audio1، أو وصف الإرشاد إيقاع بصري يناقض الصوت الفعلي. إذا كان الصوت مسار 110 BPM وإرشادك يقول "وتيرة تأملية بطيئة،" يجب على النموذج اختيار واحد. أخبره بوضوح: match cuts to the kick drum of @audio1 واضح لا لبس فيه.
سير عمل التكرار الذي لا يحرق الرصيد
توليد فيديو Seedance 2.0 بجودة عالية لمدة 10 ثوان يدور حول 7 رصيد في الثانية على المستوى المعياري، حوالي 70 رصيد لكل توليد، أو تقريبًا $2.80 بسعر الرصيد لمستوى الدخول[5]. التشغيلات المهدرة تتراكم. سير العمل الذي يقلل الهدر:
- 草稿في مستوى سريع/أساسي أولاً. نفس الإرشاد، نفس المعاملات، تكلفة رصيد أقل. إذا كانت التركيبة خاطئة على الأساسي، ستكون خاطئة على الأعلى أيضًا، أصلحها قبل الدفع لمستوى عالي. انظر pricing لمعدلات المستوى الحالية.
- توليد عند 5 ثوان أولاً، حتى لو كنت تريد في النهاية 15. اختبار 5 ثوان يكلف ثلث 15 ثانية. إذا كان الإرشاد يتماسك عند 5، توسّع.
- متغير واحد في المرة. لا تغيّر الموضوع والكاميرا والأسلوب في إعادة دوران واحدة. لن تعرف أي تغيير حرّك الإبرة.
- احفظ صور البذرة. عندما تعمل صورة شخصية مولدة من Seedream كمرجع، احفظ هذه الصورة بالضبط، إعادة تشغيل نفس طلب R2V مع نفس المرجع هو أقرب شيء إلى إعادة دوران حتمية.
- استخدم مبدل تحسين الإرشادات عند البدء من فكرة قليلة. وضع البحث على الويب المحسّن للاستوديو يعيد كتابة إرشادك بسياق مستعاد قبل إرساله إلى النموذج[4]. مفيد للاستعلامات مثل "ما الذي تبدو عليه محل jjajangmyeon الحقيقي في سيول في الساعة 11 مساءً في يوم عمل"، حيث يحتوي النموذج الآن على سياق مستعاد ليستقي منه.
إرشادات متعددة اللغات ومتى تتحول
تدرب Seedance 2.0 على مجموعة بيانات متعددة اللغات ويدعم إرشادات باللغات الإنجليزية والصينية واليابانية والإندونيسية والإسبانية والبرتغالية[2]. الإصدارات الأقدم من Seedance (1.5 Pro، 1.0 Pro) تدعم فقط الإنجليزية والصينية. هذا مهم في سيناريوهين:
- الحوار المحلي. إذا كان الفيديو المولد يحتاج أحرفًا ناطقة بالإسبانية أو ترجمات باللغة الكورية، اكتب السطر في اللغة المستهدفة مباشرة. لا تكتب الإنجليزية واطلب من النموذج "أن يتحدثوا الإسبانية"، إنه يعمل، لكن الجودة أسوأ من مجرد كتابة السطر بالإسبانية.
- التخصص الثقافي. طلب مثل "فطور مكسيكي نموذجي على طاولة خشبية" مكتوب بالإسبانية (
un desayuno mexicano típico sobre una mesa de madera) يكثر من إنتاج مخرجات ثقافية أكثر دقة من المعادل الإنجليزي. تختلف أوزان بيانات التدريب.
لكل شيء آخر، الإنجليزية هي الافتراضية وتعمل بشكل جيد. إرشادات صينية أقصر قليلاً لكل رمز (≤ 500 حرف مقابل ≤ 1,000 كلمة إنجليزية) لكن ينتج مخرجات معادلة.
الأسئلة الشائعة
كم يجب أن يكون طول إرشاد Seedance 2.0؟
استهدف 2-4 جمل، تقريبًا 60-200 كلمة إنجليزية. الحد الصارم هو 1,000 كلمة إنجليزية / 500 حرف صيني[2]، لكنك ستضرب العوائد المتناقصة قبل ذلك بوقت طويل. بعد حوالي 250 كلمة يبدأ النموذج بضغط إرشادك داخليًا وتفقد التفاصيل.
هل يدعم Seedance 2.0 إرشادات سلبية؟
ليس كمعامل مخصص. لا توجد حقل "negative_prompt" في عقد API[2]. يمكنك إضافة قيود بشكل مضمّن، no on-screen text, no logos, no people in the background، والنموذج يكرمها باتساق معقول. إنها ليست حتمية مثل فتحة صريحة negative-prompt في نماذج الصور مثل Stable Diffusion، لكنها تعمل.
هل يمكنني الإشارة إلى 9 صور و3 فيديوهات و3 ملفات صوتية في نفس الإرشاد؟
نعم، تلك هي الحمل الأقصى متعدد الوسائط R2V: حتى 9 صور، 3 فيديوهات، 3 مدخلات صوتية في طلب واحد[2]. تطبق API هذه الحدود. بشكل عملي، الإرشادات التي تحتوي على هذه العديد من المراجع صعبة جدًا للحفاظ على التماسك، معظم عمل R2V الإنتاجي يستخدم 2-5 مراجع صورة وعلى الأكثر مرجع فيديو أو صوت واحد.
لماذا يفشل توليدي مع "real face not allowed"؟
يرفض Seedance 2.0 المراجع التي تحتوي على وجوه بشرية حقيقية قابلة للكشف[2]. استخدم صورة شخصية خيالية مولدة، واحدة افتراضية مصرح بها مسبقًا، أو حمّل إذنًا صريحًا للشخص الحقيقي المصور. يتم تشغيل الفحص في المستقبل على مستوى النموذج، لا يوجد تجاوز على مستوى المنصة.
ما الفرق بين Seedance 2.0 و Seedance 2.0 Fast للإرشادات؟
نحو نفس الإرشاد، نفس صيغة المراجع، نفس حدود الطول. Fast هو المستوى الأساسي الأقل تكلفة؛ Preview هو جودة عالية. إرشاد يعمل على Fast سيعمل بشكل متطابق على Preview، فقط بدقة بصرية أعلى وتقريبًا 1.7 مرة تكلفة الرصيد على معظم المزودين[5]. كرّر على Fast، نهائي على Preview.
هل يمكنني كتابة إرشادات بالصينية لمخرجات باللغة الإنجليزية، أو العكس؟
نعم. لغة الإرشاد ولغة المخرجات مستقلة. اكتب بأي لغة تعتقد أنك تفكر فيها بوضوح، النموذج يتعامل مع ترجمة اللغة المتقاطعة داخليًا. الاستثناء هو النص والحوار على الشاشة: ستظهر بالغة التي كتبتها فيها.
هل يهم ترتيب الإرشادات داخل الجملة؟
نعم، بشكل مادي. الرموز السابقة تحصل على ميزانية انتباه أكثر. ابدأ بأصعب القيود (هوية الموضوع، الإجراء الأساسي، الموقع الرئيسي) واترك الزخارف الأسلوبية تتبعها. "سيارة رياضية حمراء عند الغسق، سينمائية" يطالب النموذج بالتحسين من أجل "سيارة رياضية حمراء"؛ "لقطة سينمائية لسيارة رياضية حمراء عند الغسق" ترجح "لقطة سينمائية" أولاً وتصبح السيارة ثانوية.
هل هناك مكتبة إرشادات Seedance 2.0 الرسمية؟
تشحن Volcengine دليل إرشادات رسمي مع أمثلة عملية للشعارات والترجمات والحوار في الفقاعات والمراجع متعددة الصور ومراجع الإجراء ومراجع حركات الكاميرا ومراجع VFX وتحرير الفيديو[1][3]. إنها المصدر الأساسي. الاستوديو على seedance2.so/text-to-video يخطط نفس الأنماط لواجهة المستخدم؛ إذا كان بإمكانك التعبير عن هيكل الإرشاد في أي منهما، يمكنك استخدام الآخر.
الإرشادات التي تُرسَل: الملخص
كتابة إرشادات Seedance 2.0 بشكل جيد يتعلق بثلاث عادات. أولاً، اتبع الصيغة ثلاثية الأجزاء، الموضوع والإجراء، ثم البيئة والأسلوب، ثم تلميحات الكاميرا والصوت، وضع قيودك الأصعب في الجملة الافتتاحية. ثانيًا، استخدم صيغة المراجع الصريحة (@image1 حتى @image9، @video1 حتى @video3، @audio1 حتى @audio3) في كل مرة يكون لديك مدخلات متعددة الوسائط؛ الفرق بين المرجع الغامض والمشار إليه هو الفرق بين "نوعًا ما يعمل" و"مُرسَل". ثالثًا، احترم القيود التي يوثقها النموذج، إرشادات 2-4 جمل، 1-2 موضوع، لا وجوه بشرية حقيقية، طول أقل من 1,000 كلمة إنجليزية، وكرّر رخيصًا على مستوى Fast قبل الالتزام برصيد بـ Preview. افعل هذه الأشياء الثلاثة وستنتج إرشادات Seedance 2.0 الخاصة بك مخرجات جودة إرسال في اللفة الأولى أو الثانية، وليس الخامسة أو السادسة.
المراجع
- Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. تم الاسترجاع في مايو 2026 من volcengine.com/docs/82379/2222480
- Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. تم الاسترجاع في مايو 2026 من volcengine.com/docs/82379/1520757
- Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. تم الاسترجاع في مايو 2026 من volcengine.com/docs/82379/2222480
- Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. تم الاسترجاع في مايو 2026 من seedance2.so/reference-to-video
- Seedance2.so. Pricing and credit-per-second rates by tier. تم الاسترجاع في مايو 2026 من seedance2.so/pricing
قراءة إضافية
- BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
- ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance
الكاتب

الفئات
مقالات إضافية

تحويل الصور بالذكاء الاصطناعي مجاني: دليل شامل لتحويل صورك بدون تكاليف
تعلم كيفية تحويل صورك باستخدام الذكاء الاصطناعي بدون دفع أي رسوم. اكتشف أفضل الأدوات المجانية والمميزات المتقدمة لتحويل الصور وتحسينها.


دليل شامل لتوليد وتعديل صور الذكاء الاصطناعي في 2026
تعلم كيفية إنشاء وتحرير صور احترافية باستخدام الذكاء الاصطناعي مع Seedance 2.0 - أداة مجانية توفر رصيد بدون بطاقة ائتمان
