2026/05/07

Seedance 2.0 prompts: guida completa alla scrittura

Padroneggia i prompt di Seedance 2.0 con la formula ufficiale a tre parti, la sintassi multi-modale (@image, @video, @audio) e template specifici per ogni modalità.

La maggior parte degli articoli "AI video prompt" che troverai online sono scritti da persone che digitano "cinematic shot of a wolf in the snow" e la chiamano tutorial. Non è così che funzionano i prompt di Seedance 2.0 nella pratica. Il modello ha una grammatica multi-modale specifica (@image1, @video2, @audio1, @character:<id>), e Volcengine, che possiede il modello, fornisce una guida ai prompt ufficiale strutturata intorno a cinque categorie distinte^[1]. Se i tuoi prompt non seguono questa struttura, brucerai crediti a riprovare e rischiare di fallire.

Questa è la guida completa ai prompt di Seedance 2.0 che avrei voluto avere quando ho iniziato. Copre la formula testuale ufficiale, la sintassi dei riferimenti che controlla i run multi-immagine e multi-video, template specifici per i quattro veri percorsi di generazione (text-to-video, image-to-video, reference-to-video, video editing), e le modalità di fallimento che rimandano i principianti in coda. Verificato rispetto alle specifiche API di ByteDance/Volcengine e alla configurazione live dello studio seedance2.so.

TL;DR

I prompt di Seedance 2.0 seguono una formula a tre parti: soggetto + azione, poi ambiente / illuminazione / stile, poi segnali di camera o audio^[1].
Il modello accetta fino a 9 immagini di riferimento, 3 video di riferimento e 3 file audio in una singola richiesta^[2]. Fai loro riferimento inline come 图片1 / 视频2 / 音频1 (cinese) o @image1 / @video2 / @audio1 (la scorciatoia di seedance2.so)^[3].
Limite di lunghezza del prompt: ≤ 500 caratteri cinesi o ≤ 1.000 parole inglesi. Tutto il resto dilue l'attenzione e il modello inizia a ignorare i dettagli^[2].
Seedance 2.0 supporta prompt in inglese, cinese, giapponese, indonesiano, spagnolo e portoghese, le varianti Seedance più vecchie supportano solo inglese e cinese^[2].
A monte ci sono solo tre modalità reali: text-to-video, image-to-video (primo fotogramma o primo+ultimo fotogramma), e riferimento multi-modale. "Video edit" e "video extend" sono pattern di utilizzo reference-to-video, non modelli separati^[2].
Seedance 2.0 rifiuta riferimenti con volti umani reali, si aspetta invece un ritratto generato, un asset pre-autorizzato, o uno degli avatar virtuali forniti dalla piattaforma^[2].

La formula prompt Seedance 2.0 a tre parti

La guida ai prompt ufficiale di Volcengine delinea la struttura in tre blocchi componibili^[1]. Non hai bisogno di compilare ogni blocco ogni volta, ma impilarli in questo ordine dà al modello il segnale più pulito.

Blocco 1: soggetto e azione. Chi è nella scena e cosa sta facendo. Questo è l'ancora logica. "Una donna" non dice niente al modello. "Una donna alta in un lungo cappotto grigio carbone che percorre un ponte di pietra bagnato" gli dà un soggetto, una postura, e un vettore di movimento.

Blocco 2: ambiente, illuminazione, stile. Dove accade, come appare la luce, e il registro visivo. "Al tramonto, lampioni che si riflettono su lastricati bagnati, color grade desaturato teal-e-ambra" sta facendo un lavoro vero. Salta questo blocco e il modello ripiegherà su un'inquadratura media con illuminazione neutra e zero punto di vista stilistico.

Blocco 3: linguaggio della camera e segnali audio. Come si muove la camera e cosa ascolti. "Lento dolly in avanti, profondità di campo ridotta, pianoforte ambientale in sottofondo" trasforma un'inquadratura generica in una diretta. Seedance 2.0 genera audio nativo con dialogo sincronizzato alle labbra in 8+ lingue, quindi i segnali audio appartengono al prompt, non come un ripensamento.

Un prompt pulito a tre blocchi:

Una donna alta in un cappotto grigio carbone percorre un ponte di pietra bagnato.
Luce al tramonto, lampioni che si riflettono su lastricati, color grade teal-e-ambra desaturato.
Lento dolly in avanti seguendo il soggetto. Traffico lontano e pioggia morbida su pietra.

Sono tre frasi e copre tutti e tre i blocchi. Il modello ha tutto quello di cui ha bisogno.

Carica in primo piano le parole ad alto contenuto informativo

Seedance 2.0 legge da sinistra a destra con attenzione decrescente. La prima frase ha il peso maggiore, la seconda viene compilata intorno ad essa, e qualsiasi cosa dopo la terza è "dettagli da usare se c'è spazio". Metti i tuoi vincoli più duri, l'identità del soggetto, l'azione chiave, la posizione primaria, nella prima frase. Gli abbellimenti stilistici vanno dopo.

Non è una vibe. Si mappa a come il modello bilancia i token del prompt rispetto al budget di attenzione secondo i limiti di lunghezza documentati (500 caratteri cinesi / 1.000 parole inglesi)^[2]. Oltre il limite, i prompt vengono riassunti aggressivamente internamente, e "riassunto" di solito significa perdere i dettagli su cui tenevi.

Scegli uno stile e commettiti

Mescolare "animazione 3D Pixar, texture di film 35mm grezza, lavaggio ad acquerello" dentro un singolo prompt è il modo più veloce per ottenere visual mush. Il modello deve riconciliare tre segnali estetici contraddittori e il risultato è di solito un default piatto. Scegliene uno (ad esempio, animazione 3D Pixar o film 35mm grezza, grana pesante o lavaggio ad acquerello sciolto) e approfondiscilo.

Per il lavoro text-to-video in particolare, la coerenza stilistica è ciò che separa "effettivamente utilizzabile per una campagna" da "divertente da guardare una volta".

La sintassi dei riferimenti che nessuno documenta chiaramente

Ecco la parte che la maggior parte delle guide di terze parti sbaglia. La modalità reference-to-video di Seedance 2.0 (Volcengine la chiama 多模态参考生视频, "generazione video con riferimento multi-modale") utilizza un sistema di puntatori numerici espliciti nel prompt stesso^[3].

La sintassi ufficiale di Volcengine è la numerazione tra parentesi quadre cinesi: 图片1, 图片2, ..., 图片9 per le immagini; 视频1, 视频2, 视频3 per i video^[3]. Su seedance2.so, lo studio espone una scorciatoia amichevole all'inglese mappata sullo stesso contratto a monte, @image1 attraverso @image9, @video1 attraverso @video3, e @audio1 attraverso @audio3^[4]. Producono output identici; scegli quello che leggi meglio per te.

Il punto: reference-to-video senza puntatori espliciti è solo un suggerimento vago al modello. Con i puntatori, gli stai dicendo esattamente quale slot di input si mappa a quale idea nel prompt.

Riferimenti multi-immagine: il pattern lista della spesa

Il template consigliato di Volcengine per i riferimenti multi-immagine^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

La mappatura numero-a-input è posizionale. La prima immagine che carichi è @image1, la seconda è @image2, e così via. Questo non è negoziabile, non c'è un campo "nome" negli upload, solo ordine. Se ricaricare la stessa immagine al secondo posto invece che al primo, il tuo riferimento @image1 ora punta a un'immagine diversa e il prompt si rompe silenziosamente.

La guida ufficiale di Volcengine fornisce questo esempio composto per usare tre input di immagine per definire rispettivamente soggetto, outfit e prodotto^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

rispetto alla versione strutturata:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Entrambi funzionano. Il secondo produce aderenza misurabilmente più stretta alle immagini di input. Se ti importa della fedeltà commerciale, fotografia di prodotto, continuità dei caratteri tra le inquadrature, usa la forma con puntatore esplicito ogni volta.

Riferimenti video: azione, camera, FX

Lo stesso pattern si applica agli input video^[3]. Volcengine documenta tre modi distinti per usare un video di riferimento:

Cosa vuoi dal riferimento	Template del prompt
Prendi in prestito l'azione (movimento, coreografia)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Prendi in prestito il movimento della camera (dolly, orbit, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Prendi in prestito l'effetto VFX o particle	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Questo è genuinamente un superpotere se stai producendo una serie. Gira un clip di riferimento con il movimento della camera che vuoi, handheld push-in, smooth orbit, vertigo zoom, e riusalo attraverso dieci variazioni di soggetto e ambientazione. Ottieni continuità visiva senza ripetere la cinematografia da capo.

Riferimenti audio e beat-sync

Gli input audio funzionano allo stesso modo: fino a tre file audio, referenziati come @audio1, @audio2, @audio3^[4]. L'uso più comune è beat-sync video, agganciare il movimento generato a una traccia musicale affinché i tagli e i movimenti cadano su tutto il beat.

Un prompt di beat-sync funzionante:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

Il modello non sta facendo analisi audio letterale su ogni colpo di tamburo, ma produce costantemente movimento che sembra sincronizzato con l'audio di origine quando gli lo dici.

Template di prompt modalità per modalità

Seedance 2.0 ha tre vere modalità di generazione a monte, più vari pattern di utilizzo reference-to-video che l'API espone come flussi di lavoro distinti^[2]. Ecco come i prompt differiscono tra loro.

Text-to-video (T2V)

La modalità più semplice. Solo il tuo prompt guida l'output. La formula completa a tre blocchi porta l'intero carico. Il rapporto di aspetto (16:9, 9:16, 4:3, 3:4) e la durata (5, 10 o 15 secondi) vengono dai parametri della richiesta, non dal prompt, non sprecare token scrivendo "in formato 16:9"^[4].

Pattern:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Eseguilo su seedance2.so/text-to-video quando non hai input di riferimento.

Image-to-video (I2V), modalità primo fotogramma

Carichi un'immagine; diventa il fotogramma di apertura. Il tuo prompt descrive solo il movimento e la continuazione, non il soggetto, poiché il soggetto è già nell'immagine. Ridescrivere quello che mostra l'immagine di solito fa sì che il modello "ridisegni" il soggetto e devia dalla sorgente.

Pattern:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Brutto prompt I2V:

A blonde woman in a red dress walks through a market.

(L'immagine la mostra già. Stai lottando contro il modello.)

Buon prompt I2V:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-to-video (I2V), modalità primo+ultimo fotogramma

Carica due immagini. Il modello interpola tra loro e il tuo prompt descrive il percorso di transizione. Questo è il modo più pulito per ottenere un arco narrativo deterministico in 5 secondi.

Pattern:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Nota: le prime e ultime immagini dovrebbero essere approssimativamente uguali nel rapporto di aspetto. Il modello auto-ritaglia la seconda per allinearsi se differiscono, ma il ritaglio pesante degrada il risultato^[2].

Reference-to-video / riferimento multi-modale (R2V)

Questa è la modalità eccezionale di Seedance 2.0 e quella che giustifica la maggior parte di questa guida. Puoi mescolare immagini, video e audio in una singola richiesta, fino a 9 + 3 + 3, e intessere nel prompt con i puntatori espliciti coperti sopra^[2].

La struttura del template ufficiale^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Esempio tratto dalla guida ufficiale^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Cinque input di immagine, cinque ruoli espliciti, una narrativa coerente. Questo tipo di prompt strutturato è ciò che abilita reference-to-video a qualità produttiva. Senza la disciplina del puntatore, il modello diventa vago e gli elementi sfocano.

Video editing attraverso R2V

Volcengine tratta l'editing video (aggiungere / eliminare / modificare elementi) come un pattern di utilizzo R2V, non una modalità separata^[3]. Template dalla guida ufficiale:

Operazione	Template
Aggiungi elemento	`In @video1, at <time/space position>, add <element description>.`
Elimina elemento	`Delete <element> from @video1, keep everything else unchanged.`
Sostituisci elemento	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

La coda "keep motion and camera unchanged" sta facendo un lavoro importante, senza di essa, il modello spesso rigenera la scena da capo. Provalo su video editing.

Estensione video (avanti/indietro)

Stesso meccanismo R2V. Due template^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

Il modello auto-clippa i fotogrammi della cucitura dal tuo input, non rigenera l'originale, e sintetizza solo la nuova coda o testa. Sottoponi il tuo intento di estensione su video extension.

Stitching traccia (composizione 3 clip)

Se carichi più video per lo stitching, il vincolo è duro: massimo 3 input video, durata totale ≤ 15 secondi^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Esempio funzionante dalla guida ufficiale^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

Il modello inventa solo i fotogrammi di transizione; i clip di origine rimangono intatti.

Linguaggio della camera che Seedance 2.0 effettivamente comprende

Il modello è stato allenato su descrizioni di cinematografia, quindi il vocabolario della ripresa professionale supera il linguaggio casuale. I termini qui sotto sono quelli che ho visto produrre output affidabile, tratti da run di produzione attraverso seedance2.so e verificati incrociati rispetto agli esempi di riferimento di Volcengine^[3].

Movimento:

slow dolly forward (camera fisica che si muove verso il soggetto) batte zoom in (regolazione dell'obiettivo) ogni volta
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake per il tono documentaristico
whip pan to <new subject> per transizioni snappy

Angolo:

low angle looking up at subject rende i soggetti potenti
overhead establishing shot per le relazioni spaziali
dutch tilt per il disagio
extreme close-up on hands dirige l'attenzione al dettaglio
eye-level medium shot per il framing neutrale della conversazione

Obiettivo:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

Il pattern: usa le parole che un cinematografo vero userebbe. "Cinematic" è troppo vago; "anamorphic 2.39:1, lens flare su highlight, DoF ridotta a f/1.8" è qualcosa su cui il modello può agire.

Descrittori di stile e illuminazione che effettivamente fanno la differenza

Lo stile è dove il Blocco 2 della formula guadagna il suo compenso. Alcune categorie vale la pena memorizzare.

Illuminazione: golden hour, blue hour, harsh midday sun, soft window light, single key light from screen-left, practical neon underlighting, silhouette against sunset, volumetric god rays through fog.

Colore: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / formato: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Genere: Wes Anderson symmetry, pastel, David Fincher cool palette, low-key, Studio Ghibli watercolor backgrounds, '80s sci-fi, neon and chrome, noir, deep shadows, venetian blind patterns.

Più il tuo descrittore è vicino a un vero riferimento cinematografico o di produzione, migliore è il risultato. "Cinematic and dramatic" non dice niente al modello. "Roger Deakins golden hour, low contrast, subtle haze" gli dice molto.

Modalità di fallimento comuni e come risolverle

Dopo aver rivisto centinaia di generazioni attraverso seedance2.so e aver letto i rapporti degli utenti, le stesse cinque modalità di fallimento rappresentano la maggior parte del feedback "looks bad". Ecco il lookup diagnostico.

"L'output ha ignorato metà del mio prompt"

Quasi sempre un problema di lunghezza. Il tuo prompt è probabilmente oltre il limite (500 caratteri cinesi / 1.000 parole inglesi)^[2], o hai infilato troppi idea in una singola ripresa. Regola empirica: 1-2 soggetti per prompt, 2-4 frasi totali. Se hai bisogno di tre soggetti che fanno tre cose diverse in tre posizioni, sono tre generazioni separate cucite in post, non un prompt.

"L'immagine di riferimento è stata disegnata sopra"

In modalità I2V, hai descritto cosa c'era nell'immagine invece di cosa dovrebbe accadere dopo. Riscrivi il prompt per descrivere solo il movimento, non il soggetto. In modalità R2V, hai dimenticato il puntatore @imageN esplicito, quindi il modello ha trattato l'upload come un suggerimento estetico vago invece di un vincolo duro.

"Rifiuta di generare con la mia foto di riferimento"

Seedance 2.0 esplicitamente non accetta riferimenti con volti umani reali, i caricamenti con volti umani reali rilevabili vengono rifiutati al livello di sicurezza^[2]. Tre soluzioni: usa un ritratto generato da Seedream di una persona fittizia come tuo riferimento, usa uno degli avatar virtuali pre-impostati di Volcengine, o fornisci autorizzazione documentata per la persona reale raffigurata. Non c'è interruttore "disattiva questo filtro".

"Il movimento è instabile / il soggetto si morfologizza"

Probabilmente sei andato troppo lungo. Genera a 5 secondi per primo per verificare che il prompt regga insieme, poi assumi 10 o 15 secondi. La qualità a 15 secondi è significativamente diversa dalla qualità a 5 secondi, non perché il modello è peggiore, ma perché sta accadendo di più, e qualsiasi ambiguità del prompt viene amplificata attraverso 25-35 fotogrammi al secondo di contenuto aggiuntivo.

"L'audio è fuori sincronia con i visivi"

O non hai referenziato l'audio esplicitamente con @audio1, o il tuo prompt ha descritto ritmo visivo che contraddice l'audio effettivo. Se l'audio è una traccia da 110 BPM e il tuo prompt dice "slow contemplative pacing", il modello deve sceglierne uno. Digli esplicitamente: match cuts to the kick drum of @audio1 è senza ambiguità.

Flusso di lavoro di iterazione che non brucia crediti

Generare un video Seedance 2.0 di 10 secondi ad alta qualità costa circa 7 crediti al secondo sul livello standard, circa 70 crediti per generazione, o all'incirca $2.80 al tasso di credito di livello di ingresso^[5]. Le esecuzioni sprecate si accumulano. Il flusso di lavoro che minimizza lo spreco:

Fai un draft sul livello veloce/base per primo. Stesso prompt, stessi parametri, costo in crediti inferiore. Se la composizione è sbagliata sul base, sarà sbagliata anche su high, correggila prima di pagare per high. Vedi pricing per i tassi di livello attuali.
Genera a 5 secondi per primo, anche se alla fine vuoi 15. Un test da 5 secondi costa un terzo di una corsa da 15 secondi. Se il prompt regge a 5, scala.
Una variabile alla volta. Non cambiare il soggetto, la camera e lo stile in una singola re-roll. Non saprai quale cambiamento ha spostato l'ago della bilancia.
Salva le tue immagini seed. Quando un ritratto generato da Seedream funziona come riferimento, mantieni esattamente quell'immagine, ripetere lo stesso prompt R2V con lo stesso riferimento è la cosa più vicina a una re-roll deterministica.
Usa l'interruttore di enhancement del prompt quando parti da un'idea scarsa. La modalità potenziata da ricerca web dello studio riscrive il tuo prompt con il contesto recuperato prima di inviarlo al modello^[4]. Utile per query come "what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday", poiché il modello ora ha contesto recuperato da cui attingere.

Prompt multilingua e quando passare

Seedance 2.0 è stato allenato su un corpus multilingue e supporta prompt in inglese, cinese, giapponese, indonesiano, spagnolo e portoghese^[2]. Le varianti Seedance più vecchie (1.5 Pro, 1.0 Pro) supportano solo inglese e cinese. Questo importa in due scenari:

Dialogo localizzato. Se il video generato ha bisogno di personaggi che parlano italiano o sottotitoli in una lingua specifica, scrivi il dialogo nella lingua target direttamente. Non scrivere in inglese e chiedere al modello di "averli parlare in italiano", funziona, ma la qualità è peggiore che scrivere semplicemente la riga in italiano.
Specificità culturale. Un prompt come "a typical Mexican breakfast on a wooden table" scritto in italiano (una colazione italiana tipica su un tavolo di legno) produce frequentemente output più culturalmente accurato rispetto all'equivalente in inglese. Il peso dei dati di addestramento differisce.

Per tutto il resto, l'inglese è il default e funziona bene. I prompt in cinese sono leggermente più concisi per token (≤ 500 caratteri rispetto a ≤ 1.000 parole inglesi) ma producono output equivalente.

FAQ

Quanto dovrebbe essere lungo un prompt di Seedance 2.0?

Punta a 2-4 frasi, approssimativamente 60-200 parole inglesi. Il limite duro è 1.000 parole inglesi / 500 caratteri cinesi^[2], ma raggiungerai i rendimenti decrescenti molto prima. Oltre circa 250 parole il modello inizia a comprimere il tuo prompt internamente e perdi specifiche.

Seedance 2.0 supporta prompt negativi?

No come parametro dedicato. Non c'è campo "negative_prompt" nel contratto API^[2]. Puoi aggiungere vincoli inline, no on-screen text, no logos, no people in the background, e il modello li onora con coerenza ragionevole. Non è così deterministico come uno slot di negative-prompt vero in modelli di immagini come Stable Diffusion, ma funziona.

Posso referenziare 9 immagini e 3 video e 3 file audio nello stesso prompt?

Sì, questo è il carico massimo multi-modale R2V: fino a 9 immagini, 3 video, 3 input audio in una singola richiesta^[2]. L'API applica questi limiti. Praticamente, i prompt con così tanti riferimenti sono molto difficili da mantenere coerenti, la maggior parte del lavoro R2V di produzione utilizza 2-5 riferimenti di immagine e al massimo uno o un riferimento audio.

Perché la mia generazione fallisce con "real face not allowed"?

Seedance 2.0 rifiuta riferimenti contenenti volti umani reali rilevabili^[2]. Usa un ritratto generato fittizio, un avatar virtuale pre-autorizzato, o carica un'autorizzazione esplicita per la persona reale raffigurata. Il controllo viene eseguito a monte a livello di modello, non c'è override a livello di piattaforma.

Qual è la differenza tra Seedance 2.0 e Seedance 2.0 Fast per i prompt?

Stessa grammatica prompt, stessa sintassi di riferimento, stessi limiti di lunghezza. Fast è il livello di qualità base con costo inferiore; Preview è qualità alta. Un prompt che funziona su Fast funzionerà identicamente su Preview, solo con fedeltà visiva superiore e approssimativamente 1,7 volte il costo di credito sulla maggior parte dei provider^[5]. Itera su Fast, finalizza su Preview.

Posso scrivere prompt in italiano per output in inglese, o vice versa?

Sì. La lingua del prompt e la lingua dell'output sono indipendenti. Scrivi nella lingua in cui pensi più chiaramente, il modello gestisce la traduzione tra lingue internamente. L'eccezione è il testo sullo schermo e il dialogo: quelli appariranno nella lingua in cui li hai scritti.

L'ordine del prompt all'interno di una frase importa?

Sì, materialmente. I token precedenti ottengono più budget di attenzione. Inizia con i vincoli più duri (identità del soggetto, azione primaria, posizione chiave) e lascia che gli abbellimenti stilistici seguano. "A red sports car at sunset, cinematic" richiede al modello di ottimizzare per "red sports car"; "Cinematic shot of a red sports car at sunset" appesantisce "cinematic shot" per primo e l'auto diventa secondaria.

C'è una libreria di prompt Seedance 2.0 ufficiale?

Volcengine fornisce una guida ai prompt ufficiale con esempi funzionanti per slogan, sottotitoli, dialogo a bolle, riferimenti multi-immagine, riferimenti di azione, riferimenti di movimento della camera, riferimenti di VFX, e editing video^[1]^[3]. È la fonte canonica. Lo studio a seedance2.so/text-to-video mappa gli stessi pattern a un'interfaccia utente; se puoi esprimere la struttura del prompt in uno qualsiasi, puoi usare l'altro.

I prompt che navigano: il riepilogo

Scrivere bene i prompt di Seedance 2.0 si riduce a tre abitudini. Primo, segui la formula a tre blocchi, soggetto e azione, poi ambiente e stile, poi segnali di camera e audio, e carica in primo piano i tuoi vincoli più duri nella frase di apertura. Secondo, usa la sintassi di riferimento esplicita (@image1 attraverso @image9, @video1 attraverso @video3, @audio1 attraverso @audio3) ogni singola volta che hai input multi-modali; la differenza tra riferimento vago e riferimento con puntatore è la differenza tra "kind of works" e "ships". Terzo, rispetta i vincoli che il modello documenta, prompt da 2-4 frasi, 1-2 soggetti, no volti umani reali, lunghezza sotto 1.000 parole inglesi, e itera cheap sul livello Fast prima di impegnare crediti su Preview. Fai questi tre cosa e i tuoi prompt di Seedance 2.0 produrranno output di qualità ship alla prima o seconda roll, non alla quinta o sesta.

References

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

Autore

Seedance Team

Categorie

Prompts

TL;DR La formula prompt Seedance 2.0 a tre parti Carica in primo piano le parole ad alto contenuto informativo Scegli uno stile e commettiti La sintassi dei riferimenti che nessuno documenta chiaramente Riferimenti multi-immagine: il pattern lista della spesa Riferimenti video: azione, camera, FX Riferimenti audio e beat-sync Template di prompt modalità per modalità Text-to-video (T2V)Image-to-video (I2V), modalità primo fotogramma Image-to-video (I2V), modalità primo+ultimo fotogramma Reference-to-video / riferimento multi-modale (R2V)Video editing attraverso R2V Estensione video (avanti/indietro)Stitching traccia (composizione 3 clip)Linguaggio della camera che Seedance 2.0 effettivamente comprende Descrittori di stile e illuminazione che effettivamente fanno la differenza Modalità di fallimento comuni e come risolverle "L'output ha ignorato metà del mio prompt""L'immagine di riferimento è stata disegnata sopra""Rifiuta di generare con la mia foto di riferimento""Il movimento è instabile / il soggetto si morfologizza""L'audio è fuori sincronia con i visivi"Flusso di lavoro di iterazione che non brucia crediti Prompt multilingua e quando passare FAQ Quanto dovrebbe essere lungo un prompt di Seedance 2.0?Seedance 2.0 supporta prompt negativi?Posso referenziare 9 immagini e 3 video e 3 file audio nello stesso prompt?Perché la mia generazione fallisce con "real face not allowed"?Qual è la differenza tra Seedance 2.0 e Seedance 2.0 Fast per i prompt?Posso scrivere prompt in italiano per output in inglese, o vice versa?L'ordine del prompt all'interno di una frase importa?C'è una libreria di prompt Seedance 2.0 ufficiale?I prompt che navigano: il riepilogo References Further reading

Altri articoli

Tutorial

Estendi Immagine AI: Come Allargare e Espandere le Foto con l'Intelligenza Artificiale

Scopri come estendere le immagini con l'AI in pochi secondi. Guida completa all'outpainting AI: allarga foto, espandi sfondi e crea composizioni perfette con Seedance 2.0 — gratis e senza competenze tecniche.

Seedance Team

2026/03/21

Tutorial

Come Animare una Foto con l'IA: Guida Completa 2026

Scopri come trasformare le tue foto statiche in video affascinanti usando l'IA. Tutorial passo dopo passo per animare foto con Seedance 2.0 — gratis, senza carta di credito.

Seedance Team

2026/03/15

2026/05/07

Seedance 2.0 prompts: guida completa alla scrittura

Padroneggia i prompt di Seedance 2.0 con la formula ufficiale a tre parti, la sintassi multi-modale (@image, @video, @audio) e template specifici per ogni modalità.

TL;DR

I prompt di Seedance 2.0 seguono una formula a tre parti: soggetto + azione, poi ambiente / illuminazione / stile, poi segnali di camera o audio^[1].
Il modello accetta fino a 9 immagini di riferimento, 3 video di riferimento e 3 file audio in una singola richiesta^[2]. Fai loro riferimento inline come 图片1 / 视频2 / 音频1 (cinese) o @image1 / @video2 / @audio1 (la scorciatoia di seedance2.so)^[3].
Limite di lunghezza del prompt: ≤ 500 caratteri cinesi o ≤ 1.000 parole inglesi. Tutto il resto dilue l'attenzione e il modello inizia a ignorare i dettagli^[2].
Seedance 2.0 supporta prompt in inglese, cinese, giapponese, indonesiano, spagnolo e portoghese, le varianti Seedance più vecchie supportano solo inglese e cinese^[2].
A monte ci sono solo tre modalità reali: text-to-video, image-to-video (primo fotogramma o primo+ultimo fotogramma), e riferimento multi-modale. "Video edit" e "video extend" sono pattern di utilizzo reference-to-video, non modelli separati^[2].
Seedance 2.0 rifiuta riferimenti con volti umani reali, si aspetta invece un ritratto generato, un asset pre-autorizzato, o uno degli avatar virtuali forniti dalla piattaforma^[2].

La formula prompt Seedance 2.0 a tre parti

Un prompt pulito a tre blocchi:

Una donna alta in un cappotto grigio carbone percorre un ponte di pietra bagnato.
Luce al tramonto, lampioni che si riflettono su lastricati, color grade teal-e-ambra desaturato.
Lento dolly in avanti seguendo il soggetto. Traffico lontano e pioggia morbida su pietra.

Sono tre frasi e copre tutti e tre i blocchi. Il modello ha tutto quello di cui ha bisogno.

Carica in primo piano le parole ad alto contenuto informativo

Scegli uno stile e commettiti

Per il lavoro text-to-video in particolare, la coerenza stilistica è ciò che separa "effettivamente utilizzabile per una campagna" da "divertente da guardare una volta".

La sintassi dei riferimenti che nessuno documenta chiaramente

Il punto: reference-to-video senza puntatori espliciti è solo un suggerimento vago al modello. Con i puntatori, gli stai dicendo esattamente quale slot di input si mappa a quale idea nel prompt.

Riferimenti multi-immagine: il pattern lista della spesa

Il template consigliato di Volcengine per i riferimenti multi-immagine^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

La guida ufficiale di Volcengine fornisce questo esempio composto per usare tre input di immagine per definire rispettivamente soggetto, outfit e prodotto^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

rispetto alla versione strutturata:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Riferimenti video: azione, camera, FX

Lo stesso pattern si applica agli input video^[3]. Volcengine documenta tre modi distinti per usare un video di riferimento:

Cosa vuoi dal riferimento	Template del prompt
Prendi in prestito l'azione (movimento, coreografia)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Prendi in prestito il movimento della camera (dolly, orbit, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Prendi in prestito l'effetto VFX o particle	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Riferimenti audio e beat-sync

Un prompt di beat-sync funzionante:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

Il modello non sta facendo analisi audio letterale su ogni colpo di tamburo, ma produce costantemente movimento che sembra sincronizzato con l'audio di origine quando gli lo dici.

Template di prompt modalità per modalità

Text-to-video (T2V)

Pattern:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Eseguilo su seedance2.so/text-to-video quando non hai input di riferimento.

Image-to-video (I2V), modalità primo fotogramma

Pattern:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Brutto prompt I2V:

A blonde woman in a red dress walks through a market.

(L'immagine la mostra già. Stai lottando contro il modello.)

Buon prompt I2V:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-to-video (I2V), modalità primo+ultimo fotogramma

Carica due immagini. Il modello interpola tra loro e il tuo prompt descrive il percorso di transizione. Questo è il modo più pulito per ottenere un arco narrativo deterministico in 5 secondi.

Pattern:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Reference-to-video / riferimento multi-modale (R2V)

La struttura del template ufficiale^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Esempio tratto dalla guida ufficiale^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Video editing attraverso R2V

Volcengine tratta l'editing video (aggiungere / eliminare / modificare elementi) come un pattern di utilizzo R2V, non una modalità separata^[3]. Template dalla guida ufficiale:

Operazione	Template
Aggiungi elemento	`In @video1, at <time/space position>, add <element description>.`
Elimina elemento	`Delete <element> from @video1, keep everything else unchanged.`
Sostituisci elemento	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

La coda "keep motion and camera unchanged" sta facendo un lavoro importante, senza di essa, il modello spesso rigenera la scena da capo. Provalo su video editing.

Estensione video (avanti/indietro)

Stesso meccanismo R2V. Due template^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

Il modello auto-clippa i fotogrammi della cucitura dal tuo input, non rigenera l'originale, e sintetizza solo la nuova coda o testa. Sottoponi il tuo intento di estensione su video extension.

Stitching traccia (composizione 3 clip)

Se carichi più video per lo stitching, il vincolo è duro: massimo 3 input video, durata totale ≤ 15 secondi^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Esempio funzionante dalla guida ufficiale^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

Il modello inventa solo i fotogrammi di transizione; i clip di origine rimangono intatti.

Linguaggio della camera che Seedance 2.0 effettivamente comprende

Movimento:

slow dolly forward (camera fisica che si muove verso il soggetto) batte zoom in (regolazione dell'obiettivo) ogni volta
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake per il tono documentaristico
whip pan to <new subject> per transizioni snappy

Angolo:

low angle looking up at subject rende i soggetti potenti
overhead establishing shot per le relazioni spaziali
dutch tilt per il disagio
extreme close-up on hands dirige l'attenzione al dettaglio
eye-level medium shot per il framing neutrale della conversazione

Obiettivo:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

Il pattern: usa le parole che un cinematografo vero userebbe. "Cinematic" è troppo vago; "anamorphic 2.39:1, lens flare su highlight, DoF ridotta a f/1.8" è qualcosa su cui il modello può agire.

Descrittori di stile e illuminazione che effettivamente fanno la differenza

Lo stile è dove il Blocco 2 della formula guadagna il suo compenso. Alcune categorie vale la pena memorizzare.

Colore: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / formato: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Fai un draft sul livello veloce/base per primo. Stesso prompt, stessi parametri, costo in crediti inferiore. Se la composizione è sbagliata sul base, sarà sbagliata anche su high, correggila prima di pagare per high. Vedi pricing per i tassi di livello attuali.
Genera a 5 secondi per primo, anche se alla fine vuoi 15. Un test da 5 secondi costa un terzo di una corsa da 15 secondi. Se il prompt regge a 5, scala.
Una variabile alla volta. Non cambiare il soggetto, la camera e lo stile in una singola re-roll. Non saprai quale cambiamento ha spostato l'ago della bilancia.
Salva le tue immagini seed. Quando un ritratto generato da Seedream funziona come riferimento, mantieni esattamente quell'immagine, ripetere lo stesso prompt R2V con lo stesso riferimento è la cosa più vicina a una re-roll deterministica.
Usa l'interruttore di enhancement del prompt quando parti da un'idea scarsa. La modalità potenziata da ricerca web dello studio riscrive il tuo prompt con il contesto recuperato prima di inviarlo al modello^[4]. Utile per query come "what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday", poiché il modello ora ha contesto recuperato da cui attingere.

Prompt multilingua e quando passare

Dialogo localizzato. Se il video generato ha bisogno di personaggi che parlano italiano o sottotitoli in una lingua specifica, scrivi il dialogo nella lingua target direttamente. Non scrivere in inglese e chiedere al modello di "averli parlare in italiano", funziona, ma la qualità è peggiore che scrivere semplicemente la riga in italiano.
Specificità culturale. Un prompt come "a typical Mexican breakfast on a wooden table" scritto in italiano (una colazione italiana tipica su un tavolo di legno) produce frequentemente output più culturalmente accurato rispetto all'equivalente in inglese. Il peso dei dati di addestramento differisce.

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

Autore

Seedance Team

Categorie

Prompts

Altri articoli

Tutorial

Estendi Immagine AI: Come Allargare e Espandere le Foto con l'Intelligenza Artificiale

Seedance Team

2026/03/21

Tutorial

Come Animare una Foto con l'IA: Guida Completa 2026

Scopri come trasformare le tue foto statiche in video affascinanti usando l'IA. Tutorial passo dopo passo per animare foto con Seedance 2.0 — gratis, senza carta di credito.

Seedance Team

2026/03/15