2026/05/07

Seedance 2.0プロンプト完全ガイド

Seedance 2.0プロンプトの3段階フォーマット、参照構文、実践テンプレート。

ネット上の「AIビデオプロンプト」記事の多くは、「雪の中の狼の映画的なショット」と入力してチュートリアルと言い張る人たちが書いています。Seedance 2.0のプロンプトは実践ではそのようなものではありません。このモデルは特定のマルチモーダル文法（@image1、@video2、@audio1、@character:<id>）を持つもので、モデルの所有者であるVolcengineは、5つの異なるカテゴリで構成された公式プロンプトガイドを提供しています^[1]。プロンプトがその構造に合わなければ、クレジットを消費しながら何度も再ロールすることになります。

これは、私が始めた時に欲しかったSeedance 2.0プロンプトのロング版ガイドです。公式テキスト公式、複数画像・複数ビデオ実行を制御する参照構文、4つの実際の生成パス（テキスト・画像・参照・ビデオ編集）のモード別テンプレート、初心者がキューに戻る失敗パターンについて説明します。ByteDance/Volcengine APIスペックと稼働中のseedance2.soスタジオ設定に対して検証済みです。

TL;DR

Seedance 2.0プロンプトは3段階フォーマルに従います：サブジェクト＋アクション、その後環境・光・スタイル、その後カメラまたはオーディオキュー^[1]。
モデルは最大9つの参照画像、3つの参照ビデオ、3つのオーディオファイルを1つのリクエストで受け入れます^[2]。インライン参照：图片1 / 视频2 / 音频1（中国語）または@image1 / @video2 / @audio1（seedance2.soショートハンド）^[3]。
プロンプト長上限：≤500中国語文字または≤1000英単語。それ以上は注意を薄め、モデルはディテールを無視し始めます^[2]。
Seedance 2.0は英語、中国語、日本語、インドネシア語、スペイン語、ポルトガル語のプロンプトをサポートします。古いSeedanceバージョンは英語と中国語のみをサポートします^[2]。
上流には3つのリアルモードのみがあります：テキスト・画像・マルチモーダル参照。「ビデオ編集」と「ビデオ拡張」は参照・ビデオ使用パターンであり、別のモデルではありません^[2]。
Seedance 2.0は実際の人間の顔参照を拒否します。生成された肖像、事前承認されたアセット、またはプラットフォーム提供の仮想アバターのいずれかを想定しています^[2]。

Seedance 2.0の3段階プロンプトフォーマル

Volcengineの公式プロンプトガイドは構造を3つの組み合わせ可能なブロックとして説明しています^[1]。毎回すべてのブロックを埋める必要はありませんが、この順序でスタックするとモデルに最もクリーンなシグナルを与えます。

ブロック1：サブジェクトとアクション。 シーンに誰がいて、何をしているか。これは論理的アンカーです。「女性」はモデルに何も伝えません。「長い炭色コートを着た背の高い女性が濡れた石橋を横切る」とするとサブジェクト、姿勢、動きベクトルが与えられます。

ブロック2：環境、光、スタイル。 場所、光の見方、ビジュアルレジスタ。「夕暮れ、街路灯が雨濡れの敷石に映り、脱彩されたティール＆アンバーカラーグレード」は実際の仕事をしています。このブロックをスキップするとモデルはデフォルトとしてニュートラルライティングとゼロのスタイル視点を持つ中程度のショットになります。

ブロック3：カメラ言語とオーディオキュー。 カメラの動きと聞こえるもの。「遅いドリー前進、浅い被写界深度、アンビエント・ピアノ下打」とするとジェネリックショットが演出されたものに変わります。Seedance 2.0は8以上の言語の唇の動きと同期したネイティブオーディオを生成するため、オーディオキューはプロンプトに属し、後付けではありません。

クリーンな3ブロックプロンプト：

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

3文で3つのブロックをカバーしています。モデルは必要なすべてを持っています。

高情報語を前に出す

Seedance 2.0は左から右への注意が減少します。第1文が最も重くなり、第2文がその周りに埋まり、第3文より後は「余裕があればディテール使用」です。硬い制約、サブジェクトID、主要アクション、主要ロケーション、開始文に配置します。スタイリング装飾は後で。

これはバイブではなく、文書化された長さ上限（500中国語文字/1000英単語）に対してモデルがプロンプトトークンと注意予算のバランスを取る方法にマップされます^[2]。上限を超すと、プロンプトは内部で積極的に要約され、「要約」はたいていあなたが気になった細かいことを失うことを意味します。

スタイルを1つ選んでコミットする

「ピクサー3Dアニメーション、グリット35mmフィルム粒、水彩ウォッシュ」を1つのプロンプトで混合することは、ビジュアルマッシュを得る最速の方法です。モデルは3つの矛盾した美的シグナルを調整する必要があり、結果は通常フラットなデフォルトです。1つを選択（例えば、ピクサー3Dアニメーションまたはグリット35mmフィルム、ヘビーグレインまたはルースな水彩ウォッシュ）して、それにもたれかかります。

特にテキスト・ビデオ作業では、スタイルの一貫性が「実際にキャンペーンに使用可能」を「一度見るのは楽しい」から分けるものです。

誰も明確に文書化していない参照構文

ここは大多数のサードパーティガイドが間違える部分です。Seedance 2.0の参照・ビデオモード（Volcengineはそれを多模态参考生视频と呼びます、「マルチモーダル参照ビデオ生成」）はプロンプト内の明示的な数値ポインタシステムを使用します^[3]。

公式Volcengine構文は中国語の角括弧番号付けです：图片1、图片2...图片9（画像用）；视频1、视频2、视频3（ビデオ用）^[3]。seedance2.soでは、スタジオは同じ上流契約にマップされた英語フレンドリーなショートハンド@image1～@image9、@video1～@video3、@audio1～@audio3をサーフェスしています^[4]。これらは同じ出力を生成します；あなたに最も読みやすいものを選びます。

ポイント：ポインタのない参照・ビデオはモデルへの単なる曖昧なヒント。 ポインタを使うと、どの入力スロットがプロンプトのどのアイデアにマップされるかを正確に指示しています。

マルチ画像参照：ショッピングリストパターン

Volcengineが推奨するマルチ画像参照テンプレート^[3]：

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

数値から入力へのマッピングは位置的です。アップロードする最初の画像は@image1、2番目は@image2などです。これは交渉不可能で、アップロード時に「名前」フィールドはなく、順序のみです。同じ画像を最初の代わりに2番目として再アップロードすると、@image1参照は異なる画像を指すようになり、プロンプトは静かに壊れます。

公式Volcengineガイドは3つの画像入力を使用してサブジェクト、衣装、製品をそれぞれ定義するために、このコンポーズされた例を提供しています^[3]：

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

対して構造化バージョン：

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

両方とも動作します。2番目は入力画像への測定可能なより厳密な準拠性を生成します。商業的な忠実度、製品写真、ショット間のキャラクター継続性に関心がある場合、毎回明示的なポインタ形式を使用します。

ビデオ参照：アクション、カメラ、FX

同じパターンがビデオ入力に適用されます^[3]。Volcengineは参照ビデオを使用する3つの異なる方法を文書化しています：

参照から何を得たいか	プロンプトテンプレート
アクションを借用（動き、振り付け）	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
カメラ移動を借用（ドリー、オービット、プッシュイン）	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
VFXまたはパーティクル効果を借用	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

シリーズを作成している場合、これは本当にスーパーパワーです。1つの参照クリップを撮影してください。あなたが望むカメラ移動、ハンドヘルドプッシュイン、スムーズなオービット、バーティゴズーム、そして10個のサブジェクトとセッティングのバリエーション全体で再利用してください。ゼロから映画化なしで視覚的な継続性を得ます。

オーディオ参照とビート同期

オーディオ入力は同じ方法で動作します：最大3つのオーディオファイル、@audio1、@audio2、@audio3として参照^[4]。最も一般的な用途はビート同期ビデオで、生成された動きを音楽トラックにピンで留めて、カットと動きが下拍に落ちるようにします。

機能するビート同期プロンプト：

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

モデルはすべてのドラムヒットで文字通りのオーディオ分析を行っていませんが、テキストで同期するよう指示すると、ソースオーディオに感じられる動きを一貫して生成します。

モード別プロンプトテンプレート

Seedance 2.0には3つのリアル上流生成モード、およびAPIがアクティブなワークフローとして表面化させるいくつかの参照・ビデオ使用パターンがあります^[2]。プロンプトの違いはモード全体です。

テキスト・ビデオ（T2V）

最もシンプルなモード。プロンプトのみが出力を駆動します。フル3ブロック公式が全負荷を持ちます。アスペクト比（16:9、9:16、4:3、3:4）と持続時間（5、10、15秒）はリクエストパラメータから来るもので、プロンプトではなく、トークンを「16:9フォーマット」で書く時間をムダにしないでください^[4]。

パターン：

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

参照入力がない場合、seedance2.so/text-to-videoで実行します。

画像・ビデオ（I2V）、第1フレームモード

1つの画像をアップロードします。それが開始フレームになります。プロンプトは動きと継続のみを説明します。サブジェクトはすでに画像にあるため、サブジェクトではなく。画像が表示するものを再説明すると、通常モデルはサブジェクトを「再描画」し、ソースから漂い始めます。

パターン：

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

悪いI2Vプロンプト：

A blonde woman in a red dress walks through a market.

（画像はすでに彼女を見せています。モデルと戦っています。）

良いI2Vプロンプト：

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

画像・ビデオ（I2V）、第1+最後フレームモード

2つの画像をアップロードします。モデルはそれらの間を補間し、プロンプトは遷移パスを説明します。5秒で決定論的なナラティブアークを得る最もクリーンな方法です。

パターン：

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

注：最初と最後の画像は近いアスペクト比で一致する必要があります。モデルは異なる場合、2番目を自動クロップして整列させますが、重いクロップは結果を低下させます^[2]。

参照・ビデオ / マルチモーダル参照（R2V）

これはSeedance 2.0の際立つモードで、このガイドの大部分を正当化するものです。画像、ビデオ、オーディオを1つのリクエストで混合でき、上限9 + 3 + 3まで、そして上述の明示的なポインタでプロンプト内に織り交ぜることができます^[2]。

公式テンプレート構造^[3]：

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

公式ガイドから抽出された例^[3]：

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

5つの画像入力、5つの明示的なロール、1つの凝聚した物語。このタイプの構造化プロンプトが参照・ビデオを本番品質で実現します。ポインタ規律なしで、モデルは曖昧になり、要素は曖昧になります。

ビデオ編集を通じたR2V

Volcengineはビデオ編集（要素の追加/削除/変更）をR2V使用パターンとして扱い、別のモードではありません^[3]。公式ガイドから：

操作	テンプレート
要素を追加	`In @video1, at <time/space position>, add <element description>.`
要素を削除	`Delete <element> from @video1, keep everything else unchanged.`
要素を置換	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

「動きとカメラを変更しないままにしてください」テールは重要な仕事をしており、ウィズアウトはモデルはしばしばシーン全体を再生成します。ビデオ編集で試してください。

ビデオ拡張（前・後）

同じR2Vメカニズム。2つのテンプレート^[3]：

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

モデルは入力からシーム仮フレームを自動クリップし、オリジナルを再生成せず、新しいテールまたはヘッドを合成するのみです。ビデオ拡張で拡張意図を送信します。

トラック縫合（3クリップ組成）

複数ビデオで縫合をアップロードする場合、制約は硬いです：最大3つのビデオ入力、総持続時間≤15秒^[3]。

テンプレート：

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

公式ガイドから作成例^[3]：

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

モデルは遷移フレームのみを発明します。ソースクリップはそのままです。

Seedance 2.0が本当に理解するカメラ言語

モデルは映画化記述でトレーニングされたため、プロのショット語彙はカジュアル言語を上回ります。以下の用語は、seedance2.so全体の本番実行から見たもので、Volcengineの参照例に対して交差チェックされた、信頼性のある出力を生成してきた用語です^[3]。

動き：

slow dolly forward（物理的カメラがサブジェクト向かい移動）はzoom in（レンズ調整）をすべての時間上回ります
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake（ドキュメンタリーフィール用）
whip pan to <new subject>（スナッピー遷移用）

アングル：

low angle looking up at subject（サブジェクトが強力に見える）
overhead establishing shot（空間関係用）
dutch tilt（不安用）
extreme close-up on hands（詳細に注意を指ける）
eye-level medium shot（ニュートラル会話フレーミング用）

レンズ：

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

パターン：働く映像化者が使う言葉を使用します。「映画的」は曖昧すぎます。「アナモルフィック2.39:1、ハイライトのレンズフレア、f/1.8の浅いDoF」はモデルが作用できるものです。

本当に針を動かすスタイルとライティング記述子

スタイルは公式の第2ブロックが仕事をする場所です。数いくつかのカテゴリは記憶する価値があります。

ライティング：golden hour、blue hour、harsh midday sun、soft window light、single key light from screen-left、practical neon underlighting、silhouette against sunset、volumetric god rays through fog。

色：desaturated teal-and-amber grade、high-contrast monochrome、pastel washed-out palette、saturated tropical color、cool moonlit blues、warm tungsten interiors。

ストック / フォーマット：35mm film, fine grain、16mm film, heavy grain、digital cinema, clean、VHS, scan lines, color bleed、super-8 home movie、polaroid faded edges。

ジャンル：Wes Anderson symmetry, pastel、David Fincher cool palette, low-key、Studio Ghibli watercolor backgrounds、'80s sci-fi, neon and chrome、noir, deep shadows, venetian blind patterns。

記述子がリアル映像化またはプロダクション参照に近いほど、結果は良くなります。「映画的でドラマチック」はモデルに何も伝えません。「Roger Deaks ゴールデンアワー、低コントラスト、微かなヘイズ」はそれを多く伝えます。

一般的な失敗パターンとそれを修正する方法

seedance2.so全体の数百の生成とユーザーレポート読み取り後、同じ5つの失敗パターンが大多数の「これは見た目が悪い」フィードバックを説明しています。ここは診断ルックアップです。

「出力がプロンプトの半分を無視した」

ほぼいつも長さの問題。プロンプトはおそらく上限（500中国語文字/1000英単語）を超えているか、多くのアイデアを1つのショットに詰め込んでいます^[2]。経験則：プロンプトあたり1～2サブジェクト、合計2～4文。3つのサブジェクトが3つの異なることを3つの異なる場所で行う必要がある場合、それは3つの別々の生成が後で縫い合わされたもので、1つのプロンプトではありません。

「参照画像が描き直された」

I2Vモードで、画像にあるものを説明しました。代わりに動きを説明してください。プロンプトを再書き込みして、モーションのみを説明し、サブジェクトを説明しないでください。R2Vモードで、明示的な@imageNポインタを忘れたため、モデルはアップロードを曖昧な美的ヒントではなく、硬い制約として扱いました。

「参照写真での生成を拒否」

Seedance 2.0は明示的に実際の人間顔参照を受け入れず、検出可能な実際の人間顔を持つアップロードはセーフティレイヤーで拒否されます^[2]。3つの回避策：架空の人物のSeedream生成肖像を参照として使用、Volcengineの事前設定仮想アバターのいずれかを使用、描かれた実在人物の文書化された認可を供給します。「このフィルターをオフにする」トグルはありません。

「動きがガタガタ/サブジェクトが形態変化」

おそらく長すぎます。まず5秒で生成してプロンプトがまとめて保持されていることを確認してから、10または15秒にコミットします。15秒での品質は5秒での品質と意味のある違いがあります。モデルが悪くなったからではなく、より多くが起こるため、任意のプロンプト曖昧さが追加コンテンツの1秒あたり25～35フレーム全体で増幅されるためです。

「オーディオが映像と不同期」

@audio1で明示的にオーディオを参照しなかったか、プロンプトが実際のオーディオと矛盾する視覚的リズムを説明しています。オーディオが110 BPMトラックで、プロンプトが「遅い熟慮ペーシング」の場合、モデルは1つを選ぶ必要があります。明確に伝えます：match cuts to the kick drum of @audio1は明白です。

クレジットを焼かない反復ワークフロー

10秒のハイクオリティSeedance 2.0ビデオを生成すると、標準階層で1秒あたり約7クレジット、生成あたり約70クレジット、または入門層クレジット率でほぼ$2.80 がかかります^[5]。ムダな実行が加算されます。ムダを最小化するワークフロー：

まず高速/基本階層で下書き。 同じプロンプト、同じパラメータ、低いクレジットコスト。基本でコンポジションが間違っている場合、高でも間違っています。高に支払う前に修正します。現在の階層レートについては料金を参照してください。
最終的に15を望む場合でも、まず5秒で生成します。5秒テストは15秒実行の3分の1の費用。プロンプトが5で保持される場合、スケールアップします。
一度に1つの変数。 単一の再ロールでサブジェクト、カメラ、スタイルを変更しないでください。どの変更が針を動かしたかがわかりません。
シード画像を保存。 Seedream生成肖像が参照として機能する場合、その正確な画像を保持し、同じシード画像で同じR2Vプロンプトを再実行することは決定論的な再ロールに最も近いものです。
プロンプト拡張トグルを使用スパースアイデアから始めるとき。スタジオのウェブ検索拡張モードは送信前に取得したコンテキストであなたのプロンプトを再書き込みしてモデルに送信します^[4]。「本物のソウルccajangmyeon店内は平日午後11時にはどのように見えるか」のようなクエリに役立ちます。モデルはこれから取得したコンテキストを取得して描写するためのものだからです。

マルチ言語プロンプトといつ切り替えるか

Seedance 2.0はマルチ言語コーパスでトレーニングされ、英語、中国語、日本語、インドネシア語、スペイン語、ポルトガル語のプロンプトをサポートしています^[2]。古いSeedanceバリエーション（1.5 Pro、1.0 Pro）は英語と中国語のみをサポートします。これは2つのシナリオで重要です：

ローカライズされた対話。 生成されたビデオがスペイン語話者またはハングル字幕を必要とする場合、対象言語で直接対話を書きます。英語で書いてモデルに「スペイン語を話す」よう依頼しないでください。これは動作しますが、スペイン語で行を書く場合、品質は悪いです。
文化的特異性。 「木製テーブルの上の一般的なメキシコの朝食」のようなプロンプトはスペイン語で書かれた場合（un desayuno mexicano típico sobre una mesa de madera）、英語版より文化的に正確な出力を頻繁に生成します。トレーニング・データ重み付けが異なります。

他のすべての場合、英語がデフォルトで正常に動作します。中国語プロンプトはトークンごとに若干より簡潔です（≤500文字対≤1000英単語）が、等価な出力を生成します。

FAQ

Seedance 2.0プロンプトはどのくらいの長さが必要ですか？

2～4文、およそ60～200英単語を目指します。ハード上限は1000英単語/500中国語文字ですが^[2]、それより前に収益性が低下し始めます。～250文字の過去、モデルはプロンプトを内部で圧縮し始め、特定を失います。

Seedance 2.0はネガティブプロンプトをサポートしていますか？

専用パラメータとしてはありません。APIコントラクトに「negative_prompt」フィールドはありません^[2]。制約をインラインで追加、no on-screen text, no logos, no people in the backgroundでき、モデルは合理的な一貫性でそれらを守ります。Stable Diffusionのようなイメージモデルの真のネガティブプロンプトスロットほど決定論的ではありませんが、動作します。

同じプロンプトで9つの画像、3つのビデオ、3つのオーディオファイルを参照できますか？

はい。それは最大マルチモーダルR2Vロードです：1つのリクエストで最大9つの画像、3つのビデオ、3つのオーディオ入力^[2]。APIはこれらの上限を適用します。実際には、その多くの参照を持つプロンプトは非常に一貫性を保ちづらく、大多数の本番R2V作業は2～5画像参照と最大1つのビデオまたはオーディオ参照を使用します。

「実顔が許可されていません」でジェネレーションが失敗するのはなぜですか？

Seedance 2.0は検出可能な実際の人間顔を含む参照を拒否します^[2]。架空の生成肖像、事前承認済みの仮想アバター、または描かれた実在人物の明示的な認可をアップロードします。チェックはアップロード時にモデルレベルで実行され、プラットフォームレベルの上書きはありません。

Seedance 2.0とSeedance 2.0 Fastのプロンプトの違いは何ですか？

同じプロンプト文法、同じ参照構文、同じ長さ上限。Fastは低コスト基本品質階層です。Previewは高品質です。Fastで動作するプロンプトはPreviewで完全に同じで動作します。ただしより高いビジュアル忠実度とほぼ1.7倍のクレジットコストで、ほとんどのプロバイダー^[5]。Fastで反復、Previewで完成。

英語言語出力に対して中国語でプロンプトを書くことができますか、またはその逆ですか？

はい。プロンプト言語と出力言語は独立しています。最もクリアに考える言語で書きます。モデルはクロス言語翻訳を内部で処理します。例外はスクリーンテキストと対話です：これらはあなたが書いた言語で表示されます。

文内のプロンプト順序は重要ですか？

はい、実質的に。前のトークンはより多くの注意予算を得ます。最も硬い制約（サブジェクトID、主要アクション、主要ロケーション）でリードし、スタイリング装飾をフォローするようにします。「赤いスポーツカー、日没、映画的」はモデルに「赤いスポーツカー」をオプティマイズするよう促します。「夕暮れ映画的ショット」は最初「映画的ショット」で重み付けられます。

公式Seedance 2.0プロンプトライブラリはありますか？

Volcengineは標語、字幕、バブル対話、マルチ画像参照、アクション参照、カメラ移動参照、VFX参照、ビデオ編集の例を含む公式プロンプトガイドを出荷しています^[1]^[3]。これは標準的なソースです。seedance2.so/text-to-videoのスタジオはその同じパターンをUIにマップしています。どちらかの方法でプロンプト構造を表現できる場合、他方を使用できます。

出荷するプロンプト：総括

Seedance 2.0プロンプトを上手く書くことは3つの習慣に帰着します。まず、3ブロック公式に従い、サブジェクトとアクション、その後環境とスタイル、その後カメラとオーディオキューに従い、開始文で最も硬い制約をフロントロードします。第2に、マルチモーダル入力がある毎回、明示的な参照構文（@image1～@image9、@video1～@video3、@audio1～@audio3）を使用します。曖昧な参照とポインタ参照の違いは「種類の正常」と「出荷」の違いです。第3に、モデルが文書化した制約を尊重します。2～4文プロンプト、1～2サブジェクト、実際の人間顔なし、1000英単語以下の長さ、そしてPreviewにクレジットをコミットする前にFast階層で反復安くしてください。これら3つのことを行い、Seedance 2.0プロンプトは5回目または6回目でなく、最初または2回目のロールで出荷品質出力を生成します。

参考文献

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

著者

Seedance Team

カテゴリー

Prompts

TL;DR Seedance 2.0の3段階プロンプトフォーマル高情報語を前に出すスタイルを1つ選んでコミットする誰も明確に文書化していない参照構文マルチ画像参照：ショッピングリストパターンビデオ参照：アクション、カメラ、FX オーディオ参照とビート同期モード別プロンプトテンプレートテキスト・ビデオ（T2V）画像・ビデオ（I2V）、第1フレームモード画像・ビデオ（I2V）、第1+最後フレームモード参照・ビデオ / マルチモーダル参照（R2V）ビデオ編集を通じたR2V ビデオ拡張（前・後）トラック縫合（3クリップ組成）Seedance 2.0が本当に理解するカメラ言語本当に針を動かすスタイルとライティング記述子一般的な失敗パターンとそれを修正する方法「出力がプロンプトの半分を無視した」「参照画像が描き直された」「参照写真での生成を拒否」「動きがガタガタ/サブジェクトが形態変化」「オーディオが映像と不同期」クレジットを焼かない反復ワークフローマルチ言語プロンプトといつ切り替えるか FAQ Seedance 2.0プロンプトはどのくらいの長さが必要ですか？Seedance 2.0はネガティブプロンプトをサポートしていますか？同じプロンプトで9つの画像、3つのビデオ、3つのオーディオファイルを参照できますか？「実顔が許可されていません」でジェネレーションが失敗するのはなぜですか？Seedance 2.0とSeedance 2.0 Fastのプロンプトの違いは何ですか？英語言語出力に対して中国語でプロンプトを書くことができますか、またはその逆ですか？文内のプロンプト順序は重要ですか？公式Seedance 2.0プロンプトライブラリはありますか？出荷するプロンプト：総括参考文献関連資料

その他の投稿

Tutorial

画像から動画AIで簡単生成！Seedance 2.0で写真を動く映像に変換する方法

Seedance 2.0を使って静止画から動画に変換する方法を徹底解説。無料クレジット、クレジットカード不要で利用できます。1080p高品質出力、ビートシンク対応。

Seedance Team

2026/03/15

Tutorial

マルチモーダルAIの活用ガイド：Seedance 2.0で動画制作を革新する

マルチモーダルAIの概念から、テキスト・画像・動画・音声を同時に使った創作まで。Seedance 2.0を使い、無料でマルチモーダル動画生成を始める方法を紹介します。

Seedance Team

2026/03/15

Tutorial

AIビデオエディターで動画編集が変わる：2026年の最新ツールと活用法

AIビデオエディターの基礎知識から、従来の動画編集との比較、AI動画編集ツールの実践的な使い方まで。Seedance 2.0を活用した効率的な動画制作の方法を詳しく解説します。

Seedance Team

2026/03/21

2026/05/07

Seedance 2.0プロンプト完全ガイド

Seedance 2.0プロンプトの3段階フォーマット、参照構文、実践テンプレート。

TL;DR

Seedance 2.0プロンプトは3段階フォーマルに従います：サブジェクト＋アクション、その後環境・光・スタイル、その後カメラまたはオーディオキュー^[1]。
モデルは最大9つの参照画像、3つの参照ビデオ、3つのオーディオファイルを1つのリクエストで受け入れます^[2]。インライン参照：图片1 / 视频2 / 音频1（中国語）または@image1 / @video2 / @audio1（seedance2.soショートハンド）^[3]。
プロンプト長上限：≤500中国語文字または≤1000英単語。それ以上は注意を薄め、モデルはディテールを無視し始めます^[2]。
Seedance 2.0は英語、中国語、日本語、インドネシア語、スペイン語、ポルトガル語のプロンプトをサポートします。古いSeedanceバージョンは英語と中国語のみをサポートします^[2]。
上流には3つのリアルモードのみがあります：テキスト・画像・マルチモーダル参照。「ビデオ編集」と「ビデオ拡張」は参照・ビデオ使用パターンであり、別のモデルではありません^[2]。
Seedance 2.0は実際の人間の顔参照を拒否します。生成された肖像、事前承認されたアセット、またはプラットフォーム提供の仮想アバターのいずれかを想定しています^[2]。

Seedance 2.0の3段階プロンプトフォーマル

クリーンな3ブロックプロンプト：

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

3文で3つのブロックをカバーしています。モデルは必要なすべてを持っています。

高情報語を前に出す

スタイルを1つ選んでコミットする

特にテキスト・ビデオ作業では、スタイルの一貫性が「実際にキャンペーンに使用可能」を「一度見るのは楽しい」から分けるものです。

誰も明確に文書化していない参照構文

マルチ画像参照：ショッピングリストパターン

Volcengineが推奨するマルチ画像参照テンプレート^[3]：

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

公式Volcengineガイドは3つの画像入力を使用してサブジェクト、衣装、製品をそれぞれ定義するために、このコンポーズされた例を提供しています^[3]：

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

対して構造化バージョン：

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

ビデオ参照：アクション、カメラ、FX

同じパターンがビデオ入力に適用されます^[3]。Volcengineは参照ビデオを使用する3つの異なる方法を文書化しています：

参照から何を得たいか	プロンプトテンプレート
アクションを借用（動き、振り付け）	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
カメラ移動を借用（ドリー、オービット、プッシュイン）	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
VFXまたはパーティクル効果を借用	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

オーディオ参照とビート同期

機能するビート同期プロンプト：

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

モード別プロンプトテンプレート

テキスト・ビデオ（T2V）

パターン：

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

参照入力がない場合、seedance2.so/text-to-videoで実行します。

画像・ビデオ（I2V）、第1フレームモード

パターン：

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

悪いI2Vプロンプト：

A blonde woman in a red dress walks through a market.

（画像はすでに彼女を見せています。モデルと戦っています。）

良いI2Vプロンプト：

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

画像・ビデオ（I2V）、第1+最後フレームモード

パターン：

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

参照・ビデオ / マルチモーダル参照（R2V）

公式テンプレート構造^[3]：

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

公式ガイドから抽出された例^[3]：

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

ビデオ編集を通じたR2V

Volcengineはビデオ編集（要素の追加/削除/変更）をR2V使用パターンとして扱い、別のモードではありません^[3]。公式ガイドから：

操作	テンプレート
要素を追加	`In @video1, at <time/space position>, add <element description>.`
要素を削除	`Delete <element> from @video1, keep everything else unchanged.`
要素を置換	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

ビデオ拡張（前・後）

同じR2Vメカニズム。2つのテンプレート^[3]：

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

トラック縫合（3クリップ組成）

複数ビデオで縫合をアップロードする場合、制約は硬いです：最大3つのビデオ入力、総持続時間≤15秒^[3]。

テンプレート：

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

公式ガイドから作成例^[3]：

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

モデルは遷移フレームのみを発明します。ソースクリップはそのままです。

Seedance 2.0が本当に理解するカメラ言語

動き：

slow dolly forward（物理的カメラがサブジェクト向かい移動）はzoom in（レンズ調整）をすべての時間上回ります
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake（ドキュメンタリーフィール用）
whip pan to <new subject>（スナッピー遷移用）

アングル：

low angle looking up at subject（サブジェクトが強力に見える）
overhead establishing shot（空間関係用）
dutch tilt（不安用）
extreme close-up on hands（詳細に注意を指ける）
eye-level medium shot（ニュートラル会話フレーミング用）

レンズ：

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

本当に針を動かすスタイルとライティング記述子

スタイルは公式の第2ブロックが仕事をする場所です。数いくつかのカテゴリは記憶する価値があります。

色：desaturated teal-and-amber grade、high-contrast monochrome、pastel washed-out palette、saturated tropical color、cool moonlit blues、warm tungsten interiors。

ストック / フォーマット：35mm film, fine grain、16mm film, heavy grain、digital cinema, clean、VHS, scan lines, color bleed、super-8 home movie、polaroid faded edges。

まず高速/基本階層で下書き。 同じプロンプト、同じパラメータ、低いクレジットコスト。基本でコンポジションが間違っている場合、高でも間違っています。高に支払う前に修正します。現在の階層レートについては料金を参照してください。
最終的に15を望む場合でも、まず5秒で生成します。5秒テストは15秒実行の3分の1の費用。プロンプトが5で保持される場合、スケールアップします。
一度に1つの変数。 単一の再ロールでサブジェクト、カメラ、スタイルを変更しないでください。どの変更が針を動かしたかがわかりません。
シード画像を保存。 Seedream生成肖像が参照として機能する場合、その正確な画像を保持し、同じシード画像で同じR2Vプロンプトを再実行することは決定論的な再ロールに最も近いものです。
プロンプト拡張トグルを使用スパースアイデアから始めるとき。スタジオのウェブ検索拡張モードは送信前に取得したコンテキストであなたのプロンプトを再書き込みしてモデルに送信します^[4]。「本物のソウルccajangmyeon店内は平日午後11時にはどのように見えるか」のようなクエリに役立ちます。モデルはこれから取得したコンテキストを取得して描写するためのものだからです。

マルチ言語プロンプトといつ切り替えるか

ローカライズされた対話。 生成されたビデオがスペイン語話者またはハングル字幕を必要とする場合、対象言語で直接対話を書きます。英語で書いてモデルに「スペイン語を話す」よう依頼しないでください。これは動作しますが、スペイン語で行を書く場合、品質は悪いです。
文化的特異性。 「木製テーブルの上の一般的なメキシコの朝食」のようなプロンプトはスペイン語で書かれた場合（un desayuno mexicano típico sobre una mesa de madera）、英語版より文化的に正確な出力を頻繁に生成します。トレーニング・データ重み付けが異なります。

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

著者

Seedance Team

その他の投稿

Tutorial