2026/05/07

Seedance 2.0 提示詞指南

掌握 Seedance 2.0 提示詞撰寫：三部分公式、多模態語法、模式範例。

網路上大多數「AI 影片提示詞」文章的作者，大都是打個「一隻狼在雪中的電影級鏡頭」然後聲稱那是教學。但 Seedance 2.0 提示詞在實際運用中根本不是那樣。這個模型有特定的多模態文法（@image1、@video2、@audio1、@character:<id>），而擁有該模型的 Volcengine 發行了官方提示詞指南，圍繞五個不同類別的結構化做法^[1]。如果你的提示詞不符合這個結構，你會浪費點數反覆調整半成品。

這是我一開始就想要的完整版 Seedance 2.0 提示詞指南。內容涵蓋官方文字公式、控制多張圖片和多支影片執行的參考語法、四種真實生成路徑的模式專用模板（文字轉影片、圖片轉影片、參考轉影片、影片編輯），以及會讓新手重複排隊的常見失敗模式。已根據 ByteDance/Volcengine API 規格和實況中的 seedance2.so 工作室設定驗證。

TL;DR

Seedance 2.0 提示詞遵循三部分公式：主體 + 動作，接著環境 / 光線 / 風格，最後攝影或音訊線索^[1]。
此模型在單次請求中最多接受9 張參考圖片、3 支參考影片和 3 個音訊檔案^[2]。以內聯方式參考它們：图片1 / 视频2 / 音频1（中文）或 @image1 / @video2 / @audio1（seedance2.so 簡寫語法）^[3]。
提示詞長度上限：≤ 500 個中文字符或 ≤ 1,000 個英文詞彙。超過此限制會削弱注意力，模型開始忽略細節^[2]。
Seedance 2.0 支援英文、中文、日文、印尼文、西班牙文和葡萄牙文的提示詞；較舊的 Seedance 變體只支援英文和中文^[2]。
上游只有三種真實模式：文字轉影片、圖片轉影片（首幀或首幀+尾幀）、多模態參考。「影片編輯」和「影片擴展」是參考轉影片使用模式，不是獨立模型^[2]。
Seedance 2.0 會拒絕真實人臉參考，它期望的是生成的肖像、預先授權的素材或平台提供的虛擬化身^[2]。

Seedance 2.0 三部分提示詞公式

Volcengine 官方提示詞指南將結構設計成三個可組合的區塊^[1]。你不必每次都填滿所有區塊，但按照此順序疊加它們會給模型最清晰的訊號。

區塊 1：主體和動作。場景中有誰以及他們在做什麼。這是邏輯基礎。「一位女性」對模型沒有任何說明。「一位高挑的女性穿著長炭灰色外套跨過濕潤的石橋」給了模型一個主體、一個姿勢和一個運動向量。

區塊 2：環境、光線、風格。發生的地點、光線的樣貌和視覺語境。「黃昏時分，路燈倒映在雨水浸溼的鵝卵石上，去飽和的藍綠色和琥珀色色調」在做實際的工作。跳過此區塊，模型會預設為中景、中性光線和零風格視角。

區塊 3：攝影語言和音訊線索。攝影機如何移動以及聽到什麼。「緩慢推動跟隨，淺景深，寧靜的鋼琴配樂」將一般性鏡頭變成導演級的作品。Seedance 2.0 使用唇形同步對話以 8 種以上語言生成原生音訊，所以音訊線索應該屬於提示詞，不是事後想法。

一個簡潔的三區塊提示詞：

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

這是三個句子，涵蓋所有三個區塊。模型有它需要的一切。

優先放置高資訊量的詞彙

Seedance 2.0 從左到右閱讀，注意力逐漸遞減。第一句承載最多的權重，第二句圍繞它填充，第三句之後的任何內容都是「有空間時使用的細節」。將你最硬的限制條件、主體身份、關鍵動作、主要位置放在開場句。風格上的修飾放在稍後。

這不是直覺。它對應於模型如何在記錄的長度上限（500 個中文字符 / 1,000 個英文詞彙）內平衡提示詞符號與注意力預算^[2]。超過上限，提示詞會在內部被激進地摘要，而「摘要」通常意味著失去你關心的細節。

選擇一種風格並堅持

在單個提示詞中混合「皮克斯 3D 動畫、粗糙的 35mm 膠片顆粒、水彩洗」是獲得視覺混亂的最快方式。模型必須協調三個相互矛盾的美學訊號，結果通常是平坦的預設。選擇一個（例如 Pixar 3D animation 或 gritty 35mm film, heavy grain 或 loose watercolor wash）並深入推進。

特別是在文字轉影片工作中，風格一致性是將「實際可用於活動」與「看一次很好玩」分開的因素。

沒人清楚記錄的參考語法

這是大多數第三方指南搞錯的部分。Seedance 2.0 的參考轉影片模式（Volcengine 稱之為多模態参考生视频，「多模態參考影片生成」）在提示詞本身中使用明確的數字指標系統^[3]。

官方 Volcengine 語法是中文方括號編號：圖片用 图片1、图片2、...、图片9；影片用 视频1、视频2、视频3^[3]。在 seedance2.so 上，工作室表現出一個英文友好的簡寫，對應相同的上游契約：@image1 到 @image9、@video1 到 @video3 和 @audio1 到 @audio3^[4]。它們產生相同的輸出；選擇對你來說讀起來更清楚的。

關鍵點：不帶明確指標的參考轉影片只是對模型的模糊暗示。有了指標，你是在告訴它具體哪個輸入位置對應提示詞中的哪個想法。

多張圖片參考：購物清單模式

Volcengine 推薦的多張圖片參考模板^[3]：

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

編號到輸入的對應是位置性的。你上傳的第一張圖片是 @image1，第二張是 @image2，以此類推。這是不可協商的，上傳時沒有「名稱」欄位，只有順序。如果你重新上傳同一張圖片作為第二位置而不是第一位置，你的 @image1 參考現在指向不同的圖片，提示詞會靜默中斷。

官方 Volcengine 指南針對使用三個圖片輸入分別定義主體、服裝和產品的情況給出了此構成範例^[3]：

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

與結構化版本對比：

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

兩者都有效。第二種產生可測量的更緊密的輸入圖片依附性。如果你關心商業保真度、產品攝影、跨鏡頭的角色連貫性，使用明確指標形式每次都行。

影片參考：動作、攝影、特效

相同的模式適用於影片輸入^[3]。Volcengine 記錄了使用參考影片的三種不同方式：

你想從參考影片獲取的	提示詞模板
借用動作（運動、編舞）	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
借用攝影機移動（推動、軌道、推進）	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
借用 VFX 或粒子效果	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

如果你在製作一個系列，這真的是超級力量。用你想要的攝影機移動拍攝一個參考片段、手持推進、平滑軌道、眩暈縮放，並在十個主體和設置的變化中重複使用它。你可以獲得視覺連貫性，而不用從頭重新提示攝影學。

音訊參考和節拍同步

音訊輸入的工作方式相同：最多三個音訊檔案，參考為 @audio1、@audio2、@audio3^[4]。最常見的用法是節拍同步影片，將生成的運動固定到音樂軌道上，使切割和運動落在強拍上。

一個可行的節拍同步提示詞：

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

模型不會在每個鼓聲上進行字面的音訊分析，但當你告訴它時，它始終會產生感覺與源音訊同步的運動。

按模式的提示詞模板

Seedance 2.0 有三種真實的上游生成模式，加上 API 表現為不同工作流的幾種參考轉影片使用模式^[2]。以下是跨它們提示詞如何不同。

文字轉影片 (T2V)

最簡單的模式。只有你的提示詞驅動輸出。完整的三區塊公式承載整個負載。寬高比（16:9、9:16、4:3、3:4）和持續時間（5、10 或 15 秒）來自請求參數，不是提示詞，別浪費符號寫「16:9 格式」^[4]。

模式：

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

當你沒有參考輸入時在 seedance2.so/text-to-video 執行。

圖片轉影片 (I2V)，首幀模式

你上傳一張圖片；它成為開場幀。你的提示詞只描述運動和延續，不是主體，因為主體已經在圖片中。重新描述圖片顯示的內容通常會導致模型「重繪」主體並偏離源。

模式：

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

不好的 I2V 提示詞：

A blonde woman in a red dress walks through a market.

（圖片已經顯示了她。你在與模型對抗。）

好的 I2V 提示詞：

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

圖片轉影片 (I2V)，首幀+尾幀模式

上傳兩張圖片。模型在它們之間內插，你的提示詞描述轉換路徑。這是在 5 秒內獲得確定敘述弧的最簡潔方式。

模式：

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

注意：第一張和最後一張圖片應該接近寬高比相配。如果它們不同，模型會自動裁剪第二張來對齊，但大量裁剪會降低結果^[2]。

參考轉影片 / 多模態參考 (R2V)

這是 Seedance 2.0 的傑出模式，也是證明此指南大部分內容的原因。你可以在單次請求中混合圖片、影片和音訊，最多 9 + 3 + 3，並用上面涵蓋的明確指標在提示詞中編織它們^[2]。

官方模板結構^[3]：

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

從官方指南提取的範例^[3]：

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

五個圖片輸入、五個明確的角色、一個凝聚的敘述。這種結構化提示詞是啟用參考轉影片製作品質的關鍵。沒有指標紀律，模型變得模糊，元素模糊。

通過 R2V 進行的影片編輯

Volcengine 將影片編輯（添加 / 刪除 / 修改元素）視為 R2V 使用模式，不是獨立模式^[3]。官方指南中的模板：

操作	模板
添加元素	`In @video1, at <time/space position>, add <element description>.`
刪除元素	`Delete <element> from @video1, keep everything else unchanged.`
替換元素	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

「保持運動和攝影機不變」的尾部在做重要的工作，沒有它，模型經常從頭重新生成場景。在影片編輯上嘗試。

影片擴展（向前/向後）

相同的 R2V 機制。兩個模板^[3]：

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

模型會自動裁剪輸入中的接縫幀，它不會重新生成原始內容，只會合成新的尾部或頭部。提交你的延伸意圖到影片擴展。

軌道拼接（3 個片段組合）

如果你上傳多個影片進行拼接，限制是硬的：最多 3 個影片輸入，總持續時間 ≤ 15 秒^[3]。

模板：

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

從官方指南的實際運作範例^[3]：

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

模型只發明轉換幀；源片段保持完整。

Seedance 2.0 實際理解的攝影語言

模型是在電影攝影描述上訓練的，所以專業拍攝詞彙優於隨意語言。以下術語是我在 seedance2.so 的製作執行中看到產生可靠輸出的術語，並與 Volcengine 的參考範例交叉檢驗^[3]。

運動:

slow dolly forward（物理攝影機向主體移動）總是優於 zoom in（鏡頭調整）
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake 用於紀錄片風格
whip pan to <new subject> 用於快速轉換

角度:

low angle looking up at subject 使主體看起來強大
overhead establishing shot 用於空間關係
dutch tilt 用於不安感
extreme close-up on hands 將注意力指向細節
eye-level medium shot 用於中立對話框架

鏡頭:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

模式：使用工作電影攝影師會使用的詞彙。「電影級」太模糊；「anamorphic 2.39:1、鏡頭耀光在高光上、f/1.8 淺景深」是模型可以對其進行的東西。

實際移動指數的風格和光線描述符

風格是公式區塊 2 發揮其作用的地方。一些值得記住的類別。

光線: golden hour、blue hour、harsh midday sun、soft window light、single key light from screen-left、practical neon underlighting、silhouette against sunset、volumetric god rays through fog。

顏色: desaturated teal-and-amber grade、high-contrast monochrome、pastel washed-out palette、saturated tropical color、cool moonlit blues、warm tungsten interiors。

類型 / 格式: 35mm film, fine grain、16mm film, heavy grain、digital cinema, clean、VHS, scan lines, color bleed、super-8 home movie、polaroid faded edges。

類型: Wes Anderson symmetry, pastel、David Fincher cool palette, low-key、Studio Ghibli watercolor backgrounds、'80s sci-fi, neon and chrome、noir, deep shadows, venetian blind patterns。

你的描述符越接近真實的電影攝影或製作參考，結果就越好。「電影級和戲劇性」對模型沒有任何說明。「Roger Deakins golden hour、低對比、微妙的霧」告訴它很多。

常見失敗模式以及如何修復它們

在 seedance2.so 審視數百次生成並閱讀用戶報告後，相同的五個失敗模式佔大多數「這看起來很糟」回饋。以下是診斷查找。

「輸出忽略了我提示詞的一半」

幾乎總是一個長度問題。你的提示詞可能超過了上限（500 個中文字符 / 1,000 個英文詞彙）^[2]，或者你在一個鏡頭中塞入了太多想法。經驗法則：每個提示詞 1 至 2 個主體，總共 2 至 4 個句子。如果你需要三個主體在三個不同的地方做三個不同的事情，那是三個單獨的生成在後期拼接，而不是一個提示詞。

「參考圖片被重繪了」

在 I2V 模式中，你描述了圖片中的內容，而不是接下來應該發生什麼。重新撰寫提示詞以僅描述運動，不是主體。在 R2V 模式中，你忘記了明確的 @imageN 指標，所以模型將上傳視為模糊的美學暗示，而不是硬限制。

「它拒絕用我的參考照片生成」

Seedance 2.0 明確不接受真實人臉參考，包含可檢測到真實人臉的上傳會在安全層被拒絕^[2]。三個解決方法：使用虛擬人物的 Seedream 生成肖像作為你的參考，使用 Volcengine 的預設虛擬化身之一，或提供所描繪的真人的記錄授權。沒有「關閉此篩選器」切換。

「運動抖動 / 主體變形」

你可能走得太長。首先在 5 秒時生成以驗證提示詞保持一起，然後提交到 10 或 15 秒。15 秒時的品質與 5 秒時的品質意義上不同，不是因為模型更差，而是因為發生了更多，任何提示詞模糊性都會在每秒 25 到 35 幀的額外內容中被放大。

「音訊與視覺不同步」

要么你沒有用 @audio1 明確參考音訊，要么你的提示詞描述的視覺節奏與實際音訊矛盾。如果音訊是 110 BPM 軌道，你的提示詞說「緩慢沉思的步調」，模型必須選擇一個。明確告訴它：match cuts to the kick drum of @audio1 是無歧義的。

不浪費點數的迭代工作流程

生成一個 10 秒的高品質 Seedance 2.0 影片在標準層級運行約 7 點數每秒，約 70 點數每次生成，或粗略 $2.80 按入門級點數費率^[5]。浪費的執行堆積。最小化浪費的工作流程：

首先在快速/基本層級上草擬。相同的提示詞、相同的參數、較低的點數成本。如果組合在基本上出錯，它在高級上也會出錯，在為高級付費之前修復它。見定價尋求當前層級費率。
首先在 5 秒時生成，即使你最終想要 15 秒。5 秒測試成本為 15 秒執行的三分之一。如果提示詞在 5 秒時保持，升級。
一次一個變數。不要在單個重新執行中改變主體、攝影機和風格。你不會知道哪個改變移動了指數。
保存你的種子圖片。當一個 Seedream 生成的肖像作為參考有效時，保持那個確切的圖片，用相同的參考重新執行相同的 R2V 提示詞是最接近確定重新執行的東西。
使用提示詞增強切換當從稀疏想法開始時。工作室的網路搜尋增強模式在發送到模型之前用檢索的內容重新撰寫你的提示詞^[4]。對於像「真正的首爾炸醬麵店內部在晚上 11 點工作日是什麼樣的」的查詢有用，因為模型現在有檢索的內容可以利用。

多語言提示詞以及何時切換

Seedance 2.0 在多語言語料庫上訓練，並支援英文、中文、日文、印尼文、西班牙文和葡萄牙文的提示詞^[2]。較舊的 Seedance 變體（1.5 Pro、1.0 Pro）只支援英文和中文。這在兩個場景中很重要：

本地化對話。如果生成的影片需要西班牙語角色或韓文字幕，直接用目標語言寫對話。不要寫英文並要求模型「用西班牙文說」，它有效，但品質比直接用西班牙文寫線條更差。
文化特異性。「木製桌上的典型墨西哥早餐」這樣的提示詞用西班牙文寫（un desayuno mexicano típico sobre una mesa de madera）經常產生比英文對等物更在文化上準確的輸出。訓練資料加權不同。

對於其他一切，英文是預設的，工作得很好。中文提示詞每符號略微更簡潔（≤ 500 個字符對比 ≤ 1,000 個英文詞彙），但產生對等輸出。

FAQ

Seedance 2.0 提示詞應該多長？

針對 2 至 4 個句子，粗略 60 至 200 個英文詞彙。硬上限是 1,000 個英文詞彙 / 500 個中文字符^[2]，但你將在遠遠超過那個之前達到遞減回報。超過約 250 個詞彙，模型開始在內部壓縮你的提示詞，你失去細節。

Seedance 2.0 支援負面提示詞嗎？

不是作為專用參數。API 契約中沒有 negative_prompt 欄位^[2]。你可以添加內聯限制，no on-screen text, no logos, no people in the background，模型以合理的一致性尊重它們。它不如像 Stable Diffusion 這樣的影像模型中的真正負提示詞位那樣確定，但它有效。

我可以在同一提示詞中參考 9 張圖片、3 支影片和 3 個音訊檔案嗎？

是的，這是最大多模態 R2V 負載：單次請求中最多 9 張圖片、3 支影片、3 個音訊輸入^[2]。API 實行這些上限。實際上，包含許多參考的提示詞非常難保持一致，大多數生產 R2V 工作使用 2 至 5 個圖片參考和最多一個影片或音訊參考。

為什麼我的生成因為「真實面孔不允許」而失敗？

Seedance 2.0 拒絕包含可檢測到真實人臉的參考^[2]。使用虛擬生成肖像、預授權虛擬化身或為所描繪的真人上傳明確授權。檢查在模型級別的上游運行，沒有平台級別的覆蓋。

Seedance 2.0 和 Seedance 2.0 Fast 對於提示詞的區別是什麼？

相同的提示詞文法，相同的參考語法，相同的長度上限。Fast 是較低成本的基本品質層級；Preview 是高品質。在 Fast 上運作的提示詞將在 Preview 上完全相同運作，只是在更高視覺保真度和粗略 1.7 倍的大多數提供商點數成本^[5]。在 Fast 上迭代，在 Preview 上最終化。

我可以用中文寫提示詞以取得英文輸出，或反之亦然嗎？

是的。提示詞語言和輸出語言是獨立的。用你認為最清楚的任何語言寫，模型在內部處理跨語言翻譯。異常是螢幕上的文字和對話：那些將以你寫它們的語言出現。

句子內的提示詞順序很重要嗎？

是的，實質上。較早的符號獲得更多的注意力預算。導引最硬的限制（主體身份、主要動作、關鍵位置），讓風格修飾跟隨。「一輛紅色跑車在日落時，電影級」提示模型為「紅色跑車」最佳化；「日落時電影級紅色跑車的鏡頭」權重「電影級鏡頭」首先，汽車變成次要。

有官方 Seedance 2.0 提示詞庫嗎？

Volcengine 發行了一個包含標語、字幕、氣泡對話、多張圖片參考、動作參考、攝影機移動參考、VFX 參考和影片編輯的實際運作範例的官方提示詞指南^[1]^[3]。這是規範來源。seedance2.so/text-to-video 的工作室將相同的模式對應到 UI；如果你可以在任何一個中表達提示詞結構，你可以使用另一個。

運作的提示詞：回顧

編寫 Seedance 2.0 提示詞良好歸結為三個習慣。首先，跟隨三區塊公式，主體和動作，然後環境和風格，然後攝影機和音訊線索，並在開場句中優先考慮你最硬的限制。其次，每次你有多模態輸入時使用明確參考語法（@image1 通過 @image9、@video1 通過 @video3、@audio1 通過 @audio3）；模糊參考和指標參考之間的區別是「有點有效」和「運作」之間的區別。第三，尊重模型記錄的限制，2 至 4 句提示詞、1 至 2 個主體、沒有真實人臉、長度在 1,000 個英文詞彙下，並在提交點數到 Preview 之前在 Fast 層級上廉價迭代。做這三件事，你的 Seedance 2.0 提示詞將產生運作品質輸出第一或第二卷，不是第五或第六。

參考資料

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示詞指南, Section 1: 總體要領. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 創建視頻生成任務 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示詞指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

作者

Seedance Team

分類

Prompts

TL;DR Seedance 2.0 三部分提示詞公式優先放置高資訊量的詞彙選擇一種風格並堅持沒人清楚記錄的參考語法多張圖片參考：購物清單模式影片參考：動作、攝影、特效音訊參考和節拍同步按模式的提示詞模板文字轉影片 (T2V)圖片轉影片 (I2V)，首幀模式圖片轉影片 (I2V)，首幀+尾幀模式參考轉影片 / 多模態參考 (R2V)通過 R2V 進行的影片編輯影片擴展（向前/向後）軌道拼接（3 個片段組合）Seedance 2.0 實際理解的攝影語言實際移動指數的風格和光線描述符常見失敗模式以及如何修復它們「輸出忽略了我提示詞的一半」「參考圖片被重繪了」「它拒絕用我的參考照片生成」「運動抖動 / 主體變形」「音訊與視覺不同步」不浪費點數的迭代工作流程多語言提示詞以及何時切換 FAQ Seedance 2.0 提示詞應該多長？Seedance 2.0 支援負面提示詞嗎？我可以在同一提示詞中參考 9 張圖片、3 支影片和 3 個音訊檔案嗎？為什麼我的生成因為「真實面孔不允許」而失敗？Seedance 2.0 和 Seedance 2.0 Fast 對於提示詞的區別是什麼？我可以用中文寫提示詞以取得英文輸出，或反之亦然嗎？句子內的提示詞順序很重要嗎？有官方 Seedance 2.0 提示詞庫嗎？運作的提示詞：回顧參考資料延伸閱讀

Seedance 2.0 提示詞指南

掌握 Seedance 2.0 提示詞撰寫：三部分公式、多模態語法、模式範例。

TL;DR

Seedance 2.0 提示詞遵循三部分公式：主體 + 動作，接著環境 / 光線 / 風格，最後攝影或音訊線索^[1]。
此模型在單次請求中最多接受9 張參考圖片、3 支參考影片和 3 個音訊檔案^[2]。以內聯方式參考它們：图片1 / 视频2 / 音频1（中文）或 @image1 / @video2 / @audio1（seedance2.so 簡寫語法）^[3]。
提示詞長度上限：≤ 500 個中文字符或 ≤ 1,000 個英文詞彙。超過此限制會削弱注意力，模型開始忽略細節^[2]。
Seedance 2.0 支援英文、中文、日文、印尼文、西班牙文和葡萄牙文的提示詞；較舊的 Seedance 變體只支援英文和中文^[2]。
上游只有三種真實模式：文字轉影片、圖片轉影片（首幀或首幀+尾幀）、多模態參考。「影片編輯」和「影片擴展」是參考轉影片使用模式，不是獨立模型^[2]。
Seedance 2.0 會拒絕真實人臉參考，它期望的是生成的肖像、預先授權的素材或平台提供的虛擬化身^[2]。

Seedance 2.0 三部分提示詞公式

Volcengine 官方提示詞指南將結構設計成三個可組合的區塊^[1]。你不必每次都填滿所有區塊，但按照此順序疊加它們會給模型最清晰的訊號。

一個簡潔的三區塊提示詞：

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

這是三個句子，涵蓋所有三個區塊。模型有它需要的一切。

優先放置高資訊量的詞彙

選擇一種風格並堅持

特別是在文字轉影片工作中，風格一致性是將「實際可用於活動」與「看一次很好玩」分開的因素。

沒人清楚記錄的參考語法

關鍵點：不帶明確指標的參考轉影片只是對模型的模糊暗示。有了指標，你是在告訴它具體哪個輸入位置對應提示詞中的哪個想法。

多張圖片參考：購物清單模式

Volcengine 推薦的多張圖片參考模板^[3]：

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

官方 Volcengine 指南針對使用三個圖片輸入分別定義主體、服裝和產品的情況給出了此構成範例^[3]：

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

與結構化版本對比：

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

兩者都有效。第二種產生可測量的更緊密的輸入圖片依附性。如果你關心商業保真度、產品攝影、跨鏡頭的角色連貫性，使用明確指標形式每次都行。

影片參考：動作、攝影、特效

相同的模式適用於影片輸入^[3]。Volcengine 記錄了使用參考影片的三種不同方式：

你想從參考影片獲取的	提示詞模板
借用動作（運動、編舞）	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
借用攝影機移動（推動、軌道、推進）	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
借用 VFX 或粒子效果	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

音訊參考和節拍同步

一個可行的節拍同步提示詞：

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

模型不會在每個鼓聲上進行字面的音訊分析，但當你告訴它時，它始終會產生感覺與源音訊同步的運動。

按模式的提示詞模板

Seedance 2.0 有三種真實的上游生成模式，加上 API 表現為不同工作流的幾種參考轉影片使用模式^[2]。以下是跨它們提示詞如何不同。

文字轉影片 (T2V)

模式：

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

當你沒有參考輸入時在 seedance2.so/text-to-video 執行。

圖片轉影片 (I2V)，首幀模式

模式：

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

不好的 I2V 提示詞：

A blonde woman in a red dress walks through a market.

（圖片已經顯示了她。你在與模型對抗。）

好的 I2V 提示詞：

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

圖片轉影片 (I2V)，首幀+尾幀模式

上傳兩張圖片。模型在它們之間內插，你的提示詞描述轉換路徑。這是在 5 秒內獲得確定敘述弧的最簡潔方式。

模式：

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

注意：第一張和最後一張圖片應該接近寬高比相配。如果它們不同，模型會自動裁剪第二張來對齊，但大量裁剪會降低結果^[2]。

參考轉影片 / 多模態參考 (R2V)

官方模板結構^[3]：

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

從官方指南提取的範例^[3]：

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

五個圖片輸入、五個明確的角色、一個凝聚的敘述。這種結構化提示詞是啟用參考轉影片製作品質的關鍵。沒有指標紀律，模型變得模糊，元素模糊。

通過 R2V 進行的影片編輯

Volcengine 將影片編輯（添加 / 刪除 / 修改元素）視為 R2V 使用模式，不是獨立模式^[3]。官方指南中的模板：

操作	模板
添加元素	`In @video1, at <time/space position>, add <element description>.`
刪除元素	`Delete <element> from @video1, keep everything else unchanged.`
替換元素	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

「保持運動和攝影機不變」的尾部在做重要的工作，沒有它，模型經常從頭重新生成場景。在影片編輯上嘗試。

影片擴展（向前/向後）

相同的 R2V 機制。兩個模板^[3]：

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

模型會自動裁剪輸入中的接縫幀，它不會重新生成原始內容，只會合成新的尾部或頭部。提交你的延伸意圖到影片擴展。

軌道拼接（3 個片段組合）

如果你上傳多個影片進行拼接，限制是硬的：最多 3 個影片輸入，總持續時間 ≤ 15 秒^[3]。

模板：

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

從官方指南的實際運作範例^[3]：

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

模型只發明轉換幀；源片段保持完整。

Seedance 2.0 實際理解的攝影語言

運動:

slow dolly forward（物理攝影機向主體移動）總是優於 zoom in（鏡頭調整）
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake 用於紀錄片風格
whip pan to <new subject> 用於快速轉換

角度:

low angle looking up at subject 使主體看起來強大
overhead establishing shot 用於空間關係
dutch tilt 用於不安感
extreme close-up on hands 將注意力指向細節
eye-level medium shot 用於中立對話框架

鏡頭:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

模式：使用工作電影攝影師會使用的詞彙。「電影級」太模糊；「anamorphic 2.39:1、鏡頭耀光在高光上、f/1.8 淺景深」是模型可以對其進行的東西。

實際移動指數的風格和光線描述符

風格是公式區塊 2 發揮其作用的地方。一些值得記住的類別。

顏色: desaturated teal-and-amber grade、high-contrast monochrome、pastel washed-out palette、saturated tropical color、cool moonlit blues、warm tungsten interiors。

類型 / 格式: 35mm film, fine grain、16mm film, heavy grain、digital cinema, clean、VHS, scan lines, color bleed、super-8 home movie、polaroid faded edges。

首先在快速/基本層級上草擬。相同的提示詞、相同的參數、較低的點數成本。如果組合在基本上出錯，它在高級上也會出錯，在為高級付費之前修復它。見定價尋求當前層級費率。
首先在 5 秒時生成，即使你最終想要 15 秒。5 秒測試成本為 15 秒執行的三分之一。如果提示詞在 5 秒時保持，升級。
一次一個變數。不要在單個重新執行中改變主體、攝影機和風格。你不會知道哪個改變移動了指數。
保存你的種子圖片。當一個 Seedream 生成的肖像作為參考有效時，保持那個確切的圖片，用相同的參考重新執行相同的 R2V 提示詞是最接近確定重新執行的東西。
使用提示詞增強切換當從稀疏想法開始時。工作室的網路搜尋增強模式在發送到模型之前用檢索的內容重新撰寫你的提示詞^[4]。對於像「真正的首爾炸醬麵店內部在晚上 11 點工作日是什麼樣的」的查詢有用，因為模型現在有檢索的內容可以利用。

多語言提示詞以及何時切換

本地化對話。如果生成的影片需要西班牙語角色或韓文字幕，直接用目標語言寫對話。不要寫英文並要求模型「用西班牙文說」，它有效，但品質比直接用西班牙文寫線條更差。
文化特異性。「木製桌上的典型墨西哥早餐」這樣的提示詞用西班牙文寫（un desayuno mexicano típico sobre una mesa de madera）經常產生比英文對等物更在文化上準確的輸出。訓練資料加權不同。

對於其他一切，英文是預設的，工作得很好。中文提示詞每符號略微更簡潔（≤ 500 個字符對比 ≤ 1,000 個英文詞彙），但產生對等輸出。

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示詞指南, Section 1: 總體要領. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 創建視頻生成任務 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示詞指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

作者

Seedance Team

Seedance 2.0 提示詞指南

作者

分類

更多文章

圖片轉影片完全指南：用AI免費將照片變成動畫

Seedance 2.0 免費指南：真話與現實

Seedance 2.0 提示詞指南

作者

分類

更多文章

圖片轉影片完全指南：用AI免費將照片變成動畫

Seedance 2.0 免費指南：真話與現實