2026/05/07

Seedance 2.0 Prompts: das komplette Schreib-Handbuch

Beherrsche Seedance 2.0 Prompts mit der offiziellen Drei-Teil-Formel, Multi-Modal-Referenzsyntax (@image, @video, @audio) und Mode-spezifischen Templates.

Die meisten "KI-Video-Prompt"-Artikel, die du online findest, sind von Leuten geschrieben, die "cinematischer Shot eines Wolfes im Schnee" tippen und das als Tutorial bezeichnen. So sehen Seedance 2.0 Prompts in der Praxis nicht aus. Das Modell hat eine spezifische Multi-Modal-Grammatik (@image1, @video2, @audio1, @character:<id>), und Volcengine, das Eigentümer des Modells, bietet einen offiziellen Prompt-Guide strukturiert um fünf unterschiedliche Kategorien^[1]. Wenn deine Prompts diese Struktur nicht einhalten, wirst du Credits beim Neu-Generieren verschwenden.

Das ist der ausführliche Seedance 2.0 Prompts-Guide, den ich mir gewünscht hätte, als ich anfing. Er behandelt die offizielle Text-Formel, die Referenzsyntax, die Multi-Image und Multi-Video-Läufe steuert, Mode-spezifische Templates für die vier echten Generierungswege (Text-zu-Video, Bild-zu-Video, Referenz-zu-Video, Video-Bearbeitung) und die Fehlermuster, die Anfänger zurück in die Queue schicken. Überprüft gegen die ByteDance/Volcengine API-Spezifikation und die Live-Konfiguration des seedance2.so Studios.

TL;DR

Seedance 2.0 Prompts folgen einer Drei-Teil-Formel: Subjekt + Aktion, dann Umgebung / Beleuchtung / Stil, dann Kamera- oder Audio-Hinweise^[1].
Das Modell akzeptiert bis zu 9 Referenzbilder, 3 Referenzvideos und 3 Audiodateien in einer einzigen Anfrage^[2]. Referenziere sie inline als 图片1 / 视频2 / 音频1 (Chinesisch) oder @image1 / @video2 / @audio1 (die seedance2.so Kurzform)^[3].
Prompt-Längenbegrenzung: ≤ 500 chinesische Zeichen oder ≤ 1.000 englische Wörter. Alles darüber hinaus schwächt die Aufmerksamkeit und das Modell fängt an, Details zu ignorieren^[2].
Seedance 2.0 unterstützt Prompts in Englisch, Chinesisch, Japanisch, Indonesisch, Spanisch und Portugiesisch, ältere Seedance-Varianten unterstützen nur Englisch und Chinesisch^[2].
Upstream gibt es nur drei echte Modi: Text-zu-Video, Bild-zu-Video (erstes Bild oder erstes+letztes Bild) und Multi-Modal-Referenz. "Video-Bearbeitung" und "Video-Erweiterung" sind Referenz-zu-Video-Nutzungsmuster, keine separaten Modelle^[2].
Seedance 2.0 wird echte menschliche Gesichtsreferenzen ablehnen, es erwartet entweder ein generiertes Porträt, ein vorab genehmigtes Asset oder einen der von der Plattform bereitgestellten virtuellen Avatare^[2].

Die Drei-Teil-Seedance 2.0 Prompt-Formel

Der offizielle Prompt-Guide von Volcengine legt die Struktur als drei kombinierbare Blöcke dar^[1]. Du musst nicht jeden Block jedes Mal ausfüllen, aber das Stapeln in dieser Reihenfolge gibt dem Modell das sauberste Signal.

Block 1: Subjekt und Aktion. Wer ist in der Szene und was tun sie. Das ist der logische Anker. "Eine Frau" sagt dem Modell nichts. "Eine große Frau in einem langen Anthrazit-Mantel, die über eine nasse Steinbrücke schreitet" gibt ihm ein Subjekt, eine Körperhaltung und einen Bewegungsvektor.

Block 2: Umgebung, Beleuchtung, Stil. Wo es passiert, wie das Licht aussieht und das visuelle Register. "Bei Einbruch der Dämmerung, Straßenlaternen spiegeln sich auf regennassen Kopfsteinpflastern, entsättigte Blaugrün-Bernstein-Farbabstufung" leistet echte Arbeit. Lass diesen Block weg und das Modell wählt standardmäßig eine mittlere Einstellung mit neutraler Beleuchtung und null stilistischen Standpunkt.

Block 3: Kamerasprache und Audio-Hinweise. Wie die Kamera bewegt sich und was du hörst. "Langsamer Dolly vorwärts, geringe Schärfentiefe, Ambient-Klavier im Hintergrund" verwandelt einen generischen Shot in einen inszenierten. Seedance 2.0 generiert natives Audio mit lippensynchronisiertem Dialog in 8+ Sprachen, also gehören Audio-Hinweise in den Prompt, nicht als Nachgedanke.

Ein sauberer Drei-Block-Prompt:

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

Das sind drei Sätze und sie decken alle drei Blöcke ab. Das Modell hat alles, was es braucht.

Hochwertige Wörter an den Anfang

Seedance 2.0 liest von links nach rechts mit schwindender Aufmerksamkeit. Der erste Satz trägt das meiste Gewicht, der zweite wird darum herum ausgefüllt, und alles nach dem dritten ist "Details, die zu verwenden sind, wenn Platz vorhanden ist." Stelle deine härtesten Einschränkungen, Subjektidentität, Schlüsselaktion, primären Ort im eröffnenden Satz an den Anfang. Stilistische Blüten kommen später.

Das ist keine Stimmung. Es entspricht der Art, wie das Modell Prompt-Token gegen Aufmerksamkeitsbudget unter den dokumentierten Längenbegrenzungen ausgleicht (500 chinesische Zeichen / 1.000 englische Wörter)^[2]. Über dem Limit hinaus werden Prompts intern aggressiv zusammengefasst, und "zusammengefasst" bedeutet normalerweise, die Details zu verlieren, die dir wichtig waren.

Wähle einen Stil und committe ihn

Das Mischen von "Pixar 3D-Animation, körniger 35-mm-Filmkorn, Aquarellwäsche" in einem einzigen Prompt ist der schnellste Weg zu visuellem Brei. Das Modell muss drei widersprüchliche ästhetische Signale abstimmen und das Ergebnis ist normalerweise ein flacher Standard. Wähle einen (z.B. Pixar 3D-Animation oder körniger 35-mm-Film, schwerer Körnung oder lockere Aquarellwäsche) und lehne dich rein.

Besonders bei Text-zu-Video Arbeiten ist Stilkohärenz das, was "tatsächlich für eine Kampagne nutzbar" von "macht Spaß, einmal anzuschauen" unterscheidet.

Die Referenzsyntax, die niemand klar dokumentiert

Hier ist der Teil, den die meisten Drittanbieter-Guides falsch machen. Seedance 2.0s Referenz-zu-Video-Modus (Volcengine nennt es 多模态参考生视频, "Multi-Modal-Referenz-Video-Generierung") verwendet ein explizites numerisches Zeigersystem im Prompt selbst^[3].

Die offizielle Volcengine-Syntax ist chinesische Klammer-Nummerierung: 图片1, 图片2, ..., 图片9 für Bilder; 视频1, 视频2, 视频3 für Videos^[3]. Auf seedance2.so bietet das Studio eine englische Kurzform, die auf den gleichen Upstream-Vertrag abgebildet ist, @image1 bis @image9, @video1 bis @video3 und @audio1 bis @audio3^[4]. Sie produzieren identische Ausgaben; wähle, was für dich sauberer lesbar ist.

Der Punkt: Referenz-zu-Video ohne explizite Zeiger ist nur ein vager Hinweis an das Modell. Mit Zeigern sagst du ihm genau, welcher Eingabe-Slot welcher Idee im Prompt entspricht.

Multi-Bild-Referenzen: das Einkaufslisten-Muster

Das von Volcengine empfohlene Template für Multi-Bild-Referenzen^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

Die Zahl-zu-Eingabe-Zuordnung ist positionell. Das erste hochgeladene Bild ist @image1, das zweite ist @image2 und so weiter. Das ist nicht verhandelbar, es gibt kein "Name"-Feld beim Hochladen, nur Reihenfolge. Wenn du das gleiche Bild zweites statt erstes hochlädst, verweist dein @image1 jetzt auf ein anderes Bild und der Prompt bricht stumm.

Der offizielle Volcengine-Guide gibt dieses zusammengesetzte Beispiel für die Verwendung von drei Bildeingaben zur Definition von Subjekt, Outfit und Produkt^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

versus die strukturierte Version:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Beide funktionieren. Die zweite ergibt messbar engere Einhaltung der Eingabebilder. Wenn du kommerzielle Treue, Produktfotografie, Charakterkontinuität über Aufnahmen hinweg brauchst, verwende die explizite Zeiger-Form jedes Mal.

Video-Referenzen: Aktion, Kamera, Effekte

Das gleiche Muster gilt für Video-Eingaben^[3]. Volcengine dokumentiert drei unterschiedliche Wege, ein Referenzvideo zu verwenden:

Was du vom Referenzvideo brauchst	Prompt-Template
Borge die Aktion (Bewegung, Choreografie)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Borge die Kamerabewegung (Dolly, Orbit, Push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Borge den VFX oder Partikel-Effekt	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Das ist ehrlich eine Superkraft, wenn du eine Serie produzierst. Drehe einen Referenz-Clip mit der Kamerabewegung, die du willst, Handheld-Push-in, geschmeidiger Orbit, Vertigo-Zoom, und wiederverwendbare über zehn Variationen von Subjekt und Umgebung. Du erhältst visuelle Kontinuität ohne das Neuschreiben von Filmografie von Grund auf.

Audio-Referenzen und Beat-Sync

Audio-Eingaben funktionieren gleich: bis zu drei Audiodateien, referenziert als @audio1, @audio2, @audio3^[4]. Die häufigste Verwendung ist Beat-Sync-Video, pin die generierte Bewegung an ein Musikstück, sodass Schnitte und Bewegungen auf dem Downbeat landen.

Ein funktionierender Beat-Sync-Prompt:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

Das Modell führt keine wörtliche Audioanalyse zu jedem Trommelhieb durch, aber es produziert konsistent Bewegung, die sich synchronisiert zur Quell-Audio anfühlt, wenn du es sagst.

Mode-für-Mode Prompt-Templates

Seedance 2.0 hat drei echte Upstream-Generierungsmodi, plus mehrere Referenz-zu-Video-Nutzungsmuster, die die API als unterschiedliche Workflows bietet^[2]. Hier ist, wie sich Prompts über sie unterscheiden.

Text-zu-Video (T2V)

Der einfachste Modus. Nur dein Prompt treibt die Ausgabe an. Die volle Drei-Block-Formel trägt die ganze Last. Seitenverhältnis (16:9, 9:16, 4:3, 3:4) und Dauer (5, 10 oder 15 Sekunden) kommen von Anfrageparametern, nicht vom Prompt, verschwende keine Token beim Schreiben "in 16:9-Format"^[4].

Muster:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Führe es auf seedance2.so/text-to-video aus, wenn du keine Referenzeingaben hast.

Bild-zu-Video (I2V), erstes-Bild-Modus

Du lädst ein Bild hoch; es wird zum eröffnenden Bild. Dein Prompt beschreibt nur die Bewegung und Fortsetzung, nicht das Subjekt, da das Subjekt bereits im Bild ist. Das Neu-Beschreiben, was das Bild zeigt, führt normalerweise dazu, dass das Modell das Subjekt "neu zeichnet" und vom Original abdriftet.

Muster:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Schlechter I2V-Prompt:

A blonde woman in a red dress walks through a market.

(Das Bild zeigt es bereits. Du kämpfst gegen das Modell.)

Guter I2V-Prompt:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Bild-zu-Video (I2V), erstes+letztes-Bild-Modus

Lade zwei Bilder hoch. Das Modell interpoliert zwischen ihnen und dein Prompt beschreibt den Übergangspfad. Das ist der sauberste Weg, um einen deterministischen narrativen Bogen in 5 Sekunden zu bekommen.

Muster:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Hinweis: die ersten und letzten Bilder sollten nahezu Seitenverhältnis-angepasst sein. Das Modell schneidet die zweite automatisch zu, um sich auszurichten, wenn sie unterscheiden, aber schweres Zuschneiden beeinträchtigt das Ergebnis^[2].

Das ist Seedance 2.0s hervorragender Modus und derjenige, der den Großteil dieses Handbuchs rechtfertigt. Du kannst Bilder, Videos und Audio in einer einzigen Anfrage mischen, bis zu 9 + 3 + 3, und sie im Prompt mit den expliziten Zeigern oben verflechten^[2].

Die offizielle Template-Struktur^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Beispiel aus dem offiziellen Guide^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Fünf Bildeingaben, fünf explizite Rollen, eine kohäsive Erzählung. Diese Art strukturierter Prompt ist das, was Referenz-zu-Video mit Produktionsqualität ermöglicht. Ohne die Zeiger-Disziplin wird das Modell vage und die Elemente verschwimmen.

Video-Bearbeitung durch R2V

Volcengine behandelt Video-Bearbeitung (hinzufügen / löschen / ändern von Elementen) als R2V-Nutzungsmuster, nicht als separater Modus^[3]. Templates aus dem offiziellen Guide:

Operation	Template
Element hinzufügen	`In @video1, at <time/space position>, add <element description>.`
Element löschen	`Delete <element> from @video1, keep everything else unchanged.`
Element ersetzen	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

Der "Bewegung und Kamera unverändert halten" Schwanz leistet wichtige Arbeit, ohne ihn regeneriert das Modell oft die Szene von Grund auf. Versuche es auf Video-Bearbeitung.

Video-Erweiterung (vorwärts/rückwärts)

Derselbe R2V-Mechanismus. Zwei Templates^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

Das Modell schneidet die Nahtstellen-Frames automatisch von deiner Eingabe, es regeneriert die Originalität nicht, und synthetisiert nur den neuen Schwanz oder Kopf. Sende deine Erweiterungsabsicht auf Video-Erweiterung.

Track-Zusammenstellung (3-Clip-Komposition)

Wenn du mehrere Videos zum Zusammensetzen hochlädst, ist die Einschränkung hart: maximal 3 Video-Eingaben, Gesamtdauer ≤ 15 Sekunden^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Bearbeitetes Beispiel aus dem offiziellen Guide^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

Das Modell erfindet nur die Übergangsbild-Frames; die Quellclips bleiben intakt.

Kamerasprache, die Seedance 2.0 wirklich versteht

Das Modell wurde auf Filmografie-Beschreibungen trainiert, daher übertrifft professionelles Shot-Vokabular beiläufige Sprache. Die folgenden Begriffe sind diejenigen, die ich konsistente Ausgabe produzieren sehe, gezogen aus Produktionsläufen über seedance2.so und kreuzgeprüft gegen Volcengine-Referenzbeispiele^[3].

Bewegung:

slow dolly forward (physische Kamera, die sich zum Subjekt bewegt) übertrifft zoom in (Linseneinstellung) jedes Mal
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake für Dokumentar-Gefühl
whip pan to <new subject> für schnelle Übergänge

Winkel:

low angle looking up at subject macht Subjekte mächtig aussehen
overhead establishing shot für räumliche Verhältnisse
dutch tilt für Unbehagen
extreme close-up on hands lenkt Aufmerksamkeit auf Details
eye-level medium shot für neutrale Gesprächs-Framing

Linse:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

Das Muster: Verwende die Wörter, die ein arbeitender Kameramann verwenden würde. "Kinematisch" ist zu vage; "anamorphisch 2.39:1, Lens-Flare auf Höhepunkten, flache Schärfentiefe bei f/1,8" ist etwas, worauf das Modell reagieren kann.

Stil- und Beleuchtungsdeskriptoren, die wirklich bewegen

Stil ist, wo Block 2 der Formel sein Geld verdient. Ein paar Kategorien, die es wert sind, auswendig gelernt zu werden.

Beleuchtung: golden hour, blue hour, harsh midday sun, soft window light, single key light from screen-left, practical neon underlighting, silhouette against sunset, volumetric god rays through fog.

Farbe: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Lager / Format: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Genre: Wes Anderson symmetry, pastel, David Fincher cool palette, low-key, Studio Ghibli watercolor backgrounds, '80s sci-fi, neon and chrome, noir, deep shadows, venetian blind patterns.

Je näher dein Deskriptor an einer echten filmografischen oder Produktionsreferenz ist, desto besser das Ergebnis. "Kinematisch und dramatisch" sagt dem Modell nichts. "Roger Deakins goldene Stunde, niedriger Kontrast, subtiler Dunst" sagt ihm viel.

Häufige Fehlermuster und wie man sie behebt

Nach der Überprüfung von Hunderten von Generierungen über seedance2.so und dem Lesen von Benutzerberichten sind die gleichen fünf Fehlermuster verantwortlich für die meisten "das sieht schlecht aus" Rückmeldungen. Hier ist die diagnostische Nachschlagwerk.

"Die Ausgabe hat die Hälfte meines Prompts ignoriert"

Fast immer ein Längenproblem. Dein Prompt ist wahrscheinlich über dem Limit (500 chinesische Zeichen / 1.000 englische Wörter)^[2], oder du hast zu viele Ideen in einen Shot gepackt. Faustregel: 1–2 Subjekte pro Prompt, 2–4 Sätze insgesamt. Wenn du drei Subjekte brauchst, die drei verschiedene Dinge in drei Orten tun, sind das drei separate Generierungen zusammengeklebt in Post, nicht ein Prompt.

"Das Referenzbild wurde übermalt"

Im I2V-Modus hast du das beschrieben, was im Bild war, statt was danach passieren sollte. Schreibe den Prompt neu, um nur Bewegung zu beschreiben, nicht Subjekt. Im R2V-Modus hast du den expliziten @imageN Zeiger vergessen, also behandelte das Modell die Hochladung als vagen ästhetischen Hinweis statt einer harten Einschränkung.

"Es weigert sich, mit meinem Referenzfoto zu generieren"

Seedance 2.0 akzeptiert explizit keine echten menschlichen Gesichtsreferenzen, Hochladungen mit erkennbaren echten menschlichen Gesichtern werden auf der Sicherheitsebene abgelehnt^[2]. Drei Workarounds: Verwende ein Seedream-generiertes Porträt einer fiktiven Person als deine Referenz, verwende einen von Volcengines vorgegebenen virtuellen Avataren, oder liefere dokumentierte Genehmigung für die abgebildete echte Person. Es gibt keinen "diese Filter ausschalten" Schalter.

"Die Bewegung ist ruckelig / das Subjekt morphed"

Du bist wahrscheinlich zu lang gegangen. Generiere zuerst bei 5 Sekunden, um zu überprüfen, dass der Prompt zusammenhält, dann committan 10 oder 15 Sekunden. Qualität bei 15s unterscheidet sich sinnvoll von Qualität bei 5s, nicht weil das Modell schlechter ist, sondern weil mehr passiert, und jede Prompt-Mehrdeutigkeit wird über 25–35 Bilder pro Sekunde zusätzlichen Inhalts verstärkt.

"Audio ist aus der Synchronisation mit den Visionen"

Entweder hast du das Audio nicht explizit mit @audio1 referenziert, oder dein Prompt beschrieb visuellen Rhythmus, der das tatsächliche Audio widerlegt. Wenn das Audio eine 110 BPM Spur ist und dein Prompt sagt "langsame kontemplate Schrittgeschwindigkeit," muss das Modell eine wählen. Sagde es explizit: match cuts to the kick drum of @audio1 ist eindeutig.

Iterations-Workflow, der keine Credits verbrennt

Einen 10-sekündigen hochwertigen Seedance 2.0 Video auf der Standard-Tier zu generieren kostet etwa 7 Credits pro Sekunde, etwa 70 Credits pro Generierung, oder ungefähr $2,80 zur Eintritts-Tier-Kreditrate^[5]. Verschwendete Läufe summieren sich. Der Workflow, der Verschwendung minimiert:

Entwurf zuerst auf dem schnellen/Basic-Tier. Derselbe Prompt, dieselben Parameter, niedrigere Kreditkosten. Wenn die Komposition auf Basic falsch ist, wird sie auch auf High falsch sein, behebe sie vor der Bezahlung für High. Siehe Preisgestaltung für aktuelle Tier-Raten.
Generiere zuerst bei 5 Sekunden, auch wenn du letztendlich 15 willst. Ein 5-sekündiger Test kostet ein Drittel eines 15-sekündigen Laufes. Wenn der Prompt bei 5 hält, skaliere hoch.
Eine Variable auf einmal. Ändere nicht das Subjekt, die Kamera und den Stil in einem einzigen Neu-Roll. Du wirst nicht wissen, welche Änderung die Nadel bewegte.
Speichere deine Samenbild. Wenn ein Seedream-generiertes Porträt als Referenz funktioniert, behalte dieses genaue Bild, das Neu-Ausführen desselben R2V-Prompts mit derselben Referenz ist das nächste zu einem deterministischen Neu-Roll.
Verwende den Prompt-Enhancement-Schalter wenn du von einer spärlichen Idee anfängst. Der Studio-Web-Such-erweiterte Modus schreibt deinen Prompt mit abruftem Kontext neu, bevor er ihn an das Modell sendet^[4]. Nützlich für Anfragen wie "Was sieht ein authentisches Seoul-Jjajangmyeon-Shop-Interieur um 23 Uhr an einem Wochentag aus", da das Modell jetzt abruftem Kontext zum Zeichnen hat.

Multi-Sprachen-Prompts und wann man wechselt

Seedance 2.0 wurde auf einem mehrsprachigen Korpus trainiert und unterstützt Prompts in Englisch, Chinesisch, Japanisch, Indonesisch, Spanisch und Portugiesisch^[2]. Die älteren Seedance-Varianten (1.5 Pro, 1.0 Pro) unterstützen nur Englisch und Chinesisch. Dies ist wichtig in zwei Szenarien:

Lokalisierter Dialog. Wenn das generierte Video spanischsprechende Charaktere oder koreanische Untertitel braucht, schreibe den Dialog direkt in der Zielsprache. Schreibe nicht auf Englisch und bitte das Modell, "sie sprechen Spanisch", es funktioniert, aber die Qualität ist schlechter als nur das Schreiben der Linie auf Spanisch.
Kulturelle Spezifität. Ein Prompt wie "ein typisches mexikanisches Frühstück auf einem Holztisch" auf Spanisch (un desayuno mexicano típico sobre una mesa de madera) produziert häufig kulturell genauere Ausgabe als das englische Äquivalent. Die Trainings-Daten-Gewichtung unterscheidet sich.

Für alles andere ist Englisch die Standardsprache und funktioniert einwandfrei. Chinesische Prompts sind pro Token etwas prägnanter (≤ 500 Zeichen versus ≤ 1.000 englische Wörter), produzieren aber äquivalente Ausgabe.

FAQ

Wie lang sollte ein Seedance 2.0 Prompt sein?

Ziele auf 2–4 Sätze, ungefähr 60–200 englische Wörter. Die harte Kappe ist 1.000 englische Wörter / 500 chinesische Zeichen^[2], aber du wirst lange vor dieser abnehmen Rückkehr treffen. Über ~250 Wörter hinaus fängt das Modell an, deinen Prompt intern zu komprimieren und du verlierst Spezifika.

Unterstützt Seedance 2.0 negative Prompts?

Nicht als dedizierter Parameter. Es gibt kein "negative_prompt" Feld im API-Vertrag^[2]. Du kannst Einschränkungen inline hinzufügen, no on-screen text, no logos, no people in the background, und das Modell ehrt sie mit angemessener Konsistenz. Es ist nicht so deterministisch wie ein echter negativer Prompt-Slot in Bildmodellen wie Stable Diffusion, aber es funktioniert.

Kann ich 9 Bilder und 3 Videos und 3 Audiodateien im gleichen Prompt referenzieren?

Ja, das ist die maximale Multi-Modal-R2V-Last: bis zu 9 Bilder, 3 Videos, 3 Audio-Eingaben in einer einzigen Anfrage^[2]. Die API erzwingt diese Grenzen. Praktisch sind Prompts mit so vielen Referenzen sehr schwer kohärent zu halten, die meiste Produktions-R2V-Arbeit verwendet 2–5 Bildreferenzen und höchstens eine Video- oder Audio-Referenz.

Warum schlägt meine Generierung mit "real face not allowed" fehl?

Seedance 2.0 weigert sich, Referenzen mit erkennbaren echten menschlichen Gesichtern zu akzeptieren^[2]. Verwende ein fiktionales generiertes Porträt, einen vorgenehmigten virtuellen Avatar, oder lade eine explizite Genehmigung für die abgebildete echte Person hoch. Die Überprüfung läuft Upstream auf der Modellebene, es gibt keinen Plattform-Ebene-Überschreitung.

Was ist der Unterschied zwischen Seedance 2.0 und Seedance 2.0 Fast für Prompts?

Derselbe Prompt-Grammatik, derselbe Referenzsyntax, derselbe Längenbegrenzungen. Fast ist die niedrigere Kosten-Basic-Qualitäts-Tier; Preview ist Hochqualität. Ein Prompt, der auf Fast funktioniert, funktioniert auf Preview identisch, nur mit höherer visueller Treue und ungefähr 1,7x der Kreditkosten auf den meisten Anbietern^[5]. Iteriere auf Fast, finalisiere auf Preview.

Kann ich Prompts auf Chinesisch für Englische Ausgabe schreiben, oder umgekehrt?

Ja. Prompt-Sprache und Ausgangssprache sind unabhängig. Schreibe in welcher Sprache du am klarsten denkst, das Modell führt die sprachübergreifende Übersetzung intern durch. Die Ausnahme ist auf Bildtext und Dialog: diese werden in der Sprache erscheinen, in der du sie schriebst.

Ist die Prompt-Reihenfolge innerhalb eines Satzes wichtig?

Ja, materiell. Frühere Token erhalten mehr Aufmerksamkeitsbudget. Führe mit den härtesten Einschränkungen (Subjektidentität, primäre Aktion, Schlüsselort) an und lass stilistische Blüten folgen. "Ein roter Sportwagen bei Sonnenuntergang, kinematisch" verspricht das Modell, auf "roten Sportwagen" zu optimieren; "Kinematischer Shot eines roten Sportwagens bei Sonnenuntergang" gewichtet "kinematischen Shot" zuerst und das Auto wird sekundär.

Gibt es eine offizielle Seedance 2.0 Prompt-Bibliothek?

Volcengine bietet einen offiziellen Prompt-Guide mit bearbeiteten Beispielen für Slogans, Untertitel, Sprechblasen-Dialog, Multi-Bild-Referenzen, Aktions-Referenzen, Kamerabewegung-Referenzen, VFX-Referenzen und Video-Bearbeitung^[1]^[3]. Es ist die kanonische Quelle. Das Studio auf seedance2.so/text-to-video bildet die gleichen Muster auf eine UI ab; wenn du die Prompt-Struktur in entweder ausdrücken kannst, kannst du die andere verwenden.

Prompts, die versenden: die Zusammenfassung

Das Schreiben von Seedance 2.0 Prompts gut läuft auf drei Gewohnheiten herunter. Erstens, folge der Drei-Block-Formel, Subjekt und Aktion, dann Umgebung und Stil, dann Kamera und Audio-Hinweise, und leite deine härtesten Einschränkungen im eröffnenden Satz an. Zweitens, verwende die explizite Referenzsyntax (@image1 durch @image9, @video1 durch @video3, @audio1 durch @audio3) jedes einzelne Mal, wenn du Multi-Modal-Eingaben hast; der Unterschied zwischen vaguer Referenz und Zeiger-Referenz ist der Unterschied zwischen "funktioniert irgendwie" und "versand." Drittens, respektiere die Einschränkungen, die das Modell dokumentiert, 2–4 Satz-Prompts, 1–2 Subjekte, keine echten menschlichen Gesichter, Länge unter 1.000 englische Wörter, und iteriere günstig auf der Fast-Tier, bevor Credits auf Preview ausgibt. Tue diese drei Dinge und deine Seedance 2.0 Prompts produzieren Schiffs-Qualitäts-Ausgabe beim ersten oder zweiten Roll, nicht beim fünften oder sechsten.

Referenzen

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

Weitere Lektüre

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Alle Beiträge

Autor

Seedance Team

Kategorien

Prompts

TL;DR Die Drei-Teil-Seedance 2.0 Prompt-Formel Hochwertige Wörter an den Anfang Wähle einen Stil und committe ihn Die Referenzsyntax, die niemand klar dokumentiert Multi-Bild-Referenzen: das Einkaufslisten-Muster Video-Referenzen: Aktion, Kamera, Effekte Audio-Referenzen und Beat-Sync Mode-für-Mode Prompt-Templates Text-zu-Video (T2V)Bild-zu-Video (I2V), erstes-Bild-Modus Bild-zu-Video (I2V), erstes+letztes-Bild-Modus Referenz-zu-Video / Multi-Modal-Referenz (R2V)Video-Bearbeitung durch R2V Video-Erweiterung (vorwärts/rückwärts)Track-Zusammenstellung (3-Clip-Komposition)Kamerasprache, die Seedance 2.0 wirklich versteht Stil- und Beleuchtungsdeskriptoren, die wirklich bewegen Häufige Fehlermuster und wie man sie behebt "Die Ausgabe hat die Hälfte meines Prompts ignoriert""Das Referenzbild wurde übermalt""Es weigert sich, mit meinem Referenzfoto zu generieren""Die Bewegung ist ruckelig / das Subjekt morphed""Audio ist aus der Synchronisation mit den Visionen"Iterations-Workflow, der keine Credits verbrennt Multi-Sprachen-Prompts und wann man wechselt FAQ Wie lang sollte ein Seedance 2.0 Prompt sein?Unterstützt Seedance 2.0 negative Prompts?Kann ich 9 Bilder und 3 Videos und 3 Audiodateien im gleichen Prompt referenzieren?Warum schlägt meine Generierung mit "real face not allowed" fehl?Was ist der Unterschied zwischen Seedance 2.0 und Seedance 2.0 Fast für Prompts?Kann ich Prompts auf Chinesisch für Englische Ausgabe schreiben, oder umgekehrt?Ist die Prompt-Reihenfolge innerhalb eines Satzes wichtig?Gibt es eine offizielle Seedance 2.0 Prompt-Bibliothek?Prompts, die versenden: die Zusammenfassung Referenzen Weitere Lektüre

Seedance 2.0 Prompts: das komplette Schreib-Handbuch

Beherrsche Seedance 2.0 Prompts mit der offiziellen Drei-Teil-Formel, Multi-Modal-Referenzsyntax (@image, @video, @audio) und Mode-spezifischen Templates.

TL;DR

Seedance 2.0 Prompts folgen einer Drei-Teil-Formel: Subjekt + Aktion, dann Umgebung / Beleuchtung / Stil, dann Kamera- oder Audio-Hinweise^[1].
Das Modell akzeptiert bis zu 9 Referenzbilder, 3 Referenzvideos und 3 Audiodateien in einer einzigen Anfrage^[2]. Referenziere sie inline als 图片1 / 视频2 / 音频1 (Chinesisch) oder @image1 / @video2 / @audio1 (die seedance2.so Kurzform)^[3].
Prompt-Längenbegrenzung: ≤ 500 chinesische Zeichen oder ≤ 1.000 englische Wörter. Alles darüber hinaus schwächt die Aufmerksamkeit und das Modell fängt an, Details zu ignorieren^[2].
Seedance 2.0 unterstützt Prompts in Englisch, Chinesisch, Japanisch, Indonesisch, Spanisch und Portugiesisch, ältere Seedance-Varianten unterstützen nur Englisch und Chinesisch^[2].
Upstream gibt es nur drei echte Modi: Text-zu-Video, Bild-zu-Video (erstes Bild oder erstes+letztes Bild) und Multi-Modal-Referenz. "Video-Bearbeitung" und "Video-Erweiterung" sind Referenz-zu-Video-Nutzungsmuster, keine separaten Modelle^[2].
Seedance 2.0 wird echte menschliche Gesichtsreferenzen ablehnen, es erwartet entweder ein generiertes Porträt, ein vorab genehmigtes Asset oder einen der von der Plattform bereitgestellten virtuellen Avatare^[2].

Die Drei-Teil-Seedance 2.0 Prompt-Formel

Ein sauberer Drei-Block-Prompt:

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

Das sind drei Sätze und sie decken alle drei Blöcke ab. Das Modell hat alles, was es braucht.

Hochwertige Wörter an den Anfang

Wähle einen Stil und committe ihn

Besonders bei Text-zu-Video Arbeiten ist Stilkohärenz das, was "tatsächlich für eine Kampagne nutzbar" von "macht Spaß, einmal anzuschauen" unterscheidet.

Die Referenzsyntax, die niemand klar dokumentiert

Der Punkt: Referenz-zu-Video ohne explizite Zeiger ist nur ein vager Hinweis an das Modell. Mit Zeigern sagst du ihm genau, welcher Eingabe-Slot welcher Idee im Prompt entspricht.

Multi-Bild-Referenzen: das Einkaufslisten-Muster

Das von Volcengine empfohlene Template für Multi-Bild-Referenzen^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

Der offizielle Volcengine-Guide gibt dieses zusammengesetzte Beispiel für die Verwendung von drei Bildeingaben zur Definition von Subjekt, Outfit und Produkt^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

versus die strukturierte Version:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Video-Referenzen: Aktion, Kamera, Effekte

Das gleiche Muster gilt für Video-Eingaben^[3]. Volcengine dokumentiert drei unterschiedliche Wege, ein Referenzvideo zu verwenden:

Was du vom Referenzvideo brauchst	Prompt-Template
Borge die Aktion (Bewegung, Choreografie)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Borge die Kamerabewegung (Dolly, Orbit, Push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Borge den VFX oder Partikel-Effekt	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Audio-Referenzen und Beat-Sync

Ein funktionierender Beat-Sync-Prompt:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

Das Modell führt keine wörtliche Audioanalyse zu jedem Trommelhieb durch, aber es produziert konsistent Bewegung, die sich synchronisiert zur Quell-Audio anfühlt, wenn du es sagst.

Mode-für-Mode Prompt-Templates

Text-zu-Video (T2V)

Muster:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Führe es auf seedance2.so/text-to-video aus, wenn du keine Referenzeingaben hast.

Bild-zu-Video (I2V), erstes-Bild-Modus

Muster:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Schlechter I2V-Prompt:

A blonde woman in a red dress walks through a market.

(Das Bild zeigt es bereits. Du kämpfst gegen das Modell.)

Guter I2V-Prompt:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Bild-zu-Video (I2V), erstes+letztes-Bild-Modus

Muster:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Die offizielle Template-Struktur^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Beispiel aus dem offiziellen Guide^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Video-Bearbeitung durch R2V

Volcengine behandelt Video-Bearbeitung (hinzufügen / löschen / ändern von Elementen) als R2V-Nutzungsmuster, nicht als separater Modus^[3]. Templates aus dem offiziellen Guide:

Operation	Template
Element hinzufügen	`In @video1, at <time/space position>, add <element description>.`
Element löschen	`Delete <element> from @video1, keep everything else unchanged.`
Element ersetzen	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

Der "Bewegung und Kamera unverändert halten" Schwanz leistet wichtige Arbeit, ohne ihn regeneriert das Modell oft die Szene von Grund auf. Versuche es auf Video-Bearbeitung.

Video-Erweiterung (vorwärts/rückwärts)

Derselbe R2V-Mechanismus. Zwei Templates^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

Track-Zusammenstellung (3-Clip-Komposition)

Wenn du mehrere Videos zum Zusammensetzen hochlädst, ist die Einschränkung hart: maximal 3 Video-Eingaben, Gesamtdauer ≤ 15 Sekunden^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Bearbeitetes Beispiel aus dem offiziellen Guide^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

Das Modell erfindet nur die Übergangsbild-Frames; die Quellclips bleiben intakt.

Kamerasprache, die Seedance 2.0 wirklich versteht

Bewegung:

slow dolly forward (physische Kamera, die sich zum Subjekt bewegt) übertrifft zoom in (Linseneinstellung) jedes Mal
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake für Dokumentar-Gefühl
whip pan to <new subject> für schnelle Übergänge

Winkel:

low angle looking up at subject macht Subjekte mächtig aussehen
overhead establishing shot für räumliche Verhältnisse
dutch tilt für Unbehagen
extreme close-up on hands lenkt Aufmerksamkeit auf Details
eye-level medium shot für neutrale Gesprächs-Framing

Linse:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

Stil- und Beleuchtungsdeskriptoren, die wirklich bewegen

Stil ist, wo Block 2 der Formel sein Geld verdient. Ein paar Kategorien, die es wert sind, auswendig gelernt zu werden.

Farbe: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Lager / Format: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Entwurf zuerst auf dem schnellen/Basic-Tier. Derselbe Prompt, dieselben Parameter, niedrigere Kreditkosten. Wenn die Komposition auf Basic falsch ist, wird sie auch auf High falsch sein, behebe sie vor der Bezahlung für High. Siehe Preisgestaltung für aktuelle Tier-Raten.
Generiere zuerst bei 5 Sekunden, auch wenn du letztendlich 15 willst. Ein 5-sekündiger Test kostet ein Drittel eines 15-sekündigen Laufes. Wenn der Prompt bei 5 hält, skaliere hoch.
Eine Variable auf einmal. Ändere nicht das Subjekt, die Kamera und den Stil in einem einzigen Neu-Roll. Du wirst nicht wissen, welche Änderung die Nadel bewegte.
Speichere deine Samenbild. Wenn ein Seedream-generiertes Porträt als Referenz funktioniert, behalte dieses genaue Bild, das Neu-Ausführen desselben R2V-Prompts mit derselben Referenz ist das nächste zu einem deterministischen Neu-Roll.
Verwende den Prompt-Enhancement-Schalter wenn du von einer spärlichen Idee anfängst. Der Studio-Web-Such-erweiterte Modus schreibt deinen Prompt mit abruftem Kontext neu, bevor er ihn an das Modell sendet^[4]. Nützlich für Anfragen wie "Was sieht ein authentisches Seoul-Jjajangmyeon-Shop-Interieur um 23 Uhr an einem Wochentag aus", da das Modell jetzt abruftem Kontext zum Zeichnen hat.

Multi-Sprachen-Prompts und wann man wechselt

Lokalisierter Dialog. Wenn das generierte Video spanischsprechende Charaktere oder koreanische Untertitel braucht, schreibe den Dialog direkt in der Zielsprache. Schreibe nicht auf Englisch und bitte das Modell, "sie sprechen Spanisch", es funktioniert, aber die Qualität ist schlechter als nur das Schreiben der Linie auf Spanisch.
Kulturelle Spezifität. Ein Prompt wie "ein typisches mexikanisches Frühstück auf einem Holztisch" auf Spanisch (un desayuno mexicano típico sobre una mesa de madera) produziert häufig kulturell genauere Ausgabe als das englische Äquivalent. Die Trainings-Daten-Gewichtung unterscheidet sich.

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

Weitere Lektüre

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Alle Beiträge

Autor

Seedance Team

Seedance 2.0 Prompts: das komplette Schreib-Handbuch

Autor

Kategorien

Weitere Beiträge

Seedance 2.0 kostenlos: Was funktioniert, was nicht

Bilder animieren mit KI – So erstellst du Videos in Sekunden

Seedance 2.0 Prompts: das komplette Schreib-Handbuch

Autor

Kategorien

Weitere Beiträge

Seedance 2.0 kostenlos: Was funktioniert, was nicht

Bilder animieren mit KI – So erstellst du Videos in Sekunden