2026/05/07

Seedance 2.0: guia completo para escrever prompts de IA de vídeo

Domine os prompts Seedance 2.0 com a fórmula oficial de três partes, sintaxe de referência multi-modal (@image, @video, @audio) e templates que funcionam.

A maioria dos artigos sobre "prompts para IA de vídeo" que você encontra online foi escrita por pessoas que digitam "cinematic shot of a wolf in the snow" e chamam de tutorial. Não é assim que os prompts Seedance 2.0 funcionam na prática. O modelo tem uma gramática multi-modal específica (@image1, @video2, @audio1, @character:<id>), e a Volcengine, que é dona do modelo, fornece um guia oficial de prompts estruturado em torno de cinco categorias distintas^[1]. Se seus prompts não corresponderem a essa estrutura, você vai queimar créditos refazendo abordagens quase certas.

Este é o guia completo de prompts Seedance 2.0 que gostaria de ter tido quando comecei. Ele cobre a fórmula textual oficial, a sintaxe de referência que controla execuções multi-imagem e multi-vídeo, templates específicos de modo para os quatro caminhos reais de geração (text-to-video, image-to-video, reference-to-video, edição de vídeo), e os modos de falha que enviam iniciantes de volta à fila. Verificado contra a especificação da API ByteDance/Volcengine e a configuração do estúdio ao vivo em seedance2.so.

TL;DR

Os prompts Seedance 2.0 seguem uma fórmula de três partes: sujeito + ação, depois ambiente / iluminação / estilo, depois dicas de câmera ou áudio^[1].
O modelo aceita até 9 imagens de referência, 3 vídeos de referência e 3 arquivos de áudio em uma única requisição^[2]. Faça referência a eles inline como 图片1 / 视频2 / 音频1 (chinês) ou @image1 / @video2 / @audio1 (abreviação do seedance2.so)^[3].
Limite de comprimento do prompt: ≤ 500 caracteres chineses ou ≤ 1.000 palavras em inglês. Qualquer coisa mais longa dilui a atenção e o modelo começa a ignorar detalhes^[2].
Seedance 2.0 suporta prompts em inglês, chinês, japonês, indonésio, espanhol e português; variantes antigas de Seedance apenas suportam inglês e chinês^[2].
Upstream existem apenas três modos reais: text-to-video, image-to-video (primeiro frame ou primeiro + último frame) e referência multi-modal. "Video edit" e "video extend" são padrões de uso de reference-to-video, não modelos separados^[2].
Seedance 2.0 vai recusar referências de rostos humanos reais, espera um retrato gerado, um ativo pré-autorizado ou um dos avatares virtuais fornecidos pela plataforma^[2].

A fórmula de três partes para prompts Seedance 2.0

O guia oficial de prompts da Volcengine estabelece a estrutura em três blocos composáveis^[1]. Você não precisa preencher cada bloco toda vez, mas empilhá-los nesta ordem oferece ao modelo o sinal mais limpo.

Bloco 1: sujeito e ação. Quem está na cena e o que estão fazendo. Este é o âncora lógica. "Uma mulher" não diz nada ao modelo. "Uma mulher alta em um casaco cinza-carvão longo atravessando um desenho molhado em ponte de pedra" oferece um sujeito, uma postura e um vetor de movimento.

Bloco 2: ambiente, iluminação, estilo. Onde acontece, como se parece a luz e o registro visual. "Ao entardecer, luzes de rua refletindo em paralelepípedos molhados pelo chuva, gradação desaturada de azul-esverdeado e âmbar" está fazendo trabalho real. Pule este bloco e o modelo usa como padrão um plano médio com iluminação neutra e nenhum ponto de vista estilístico.

Bloco 3: linguagem de câmera e dicas de áudio. Como a câmera se move e o que você ouve. "Dolly lento para frente, profundidade de campo rasa, piano ambiental como fundo musical" transforma um plano genérico em um dirigido. Seedance 2.0 gera áudio nativo com diálogo sincronizado com os lábios em 8+ idiomas, então dicas de áudio pertencem ao prompt, não como um pensamento posterior.

Um prompt limpo de três blocos:

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

Isso são três frases e cobre todos os três blocos. O modelo tem tudo o que precisa.

Coloque na frente as palavras de alta informação

Seedance 2.0 lê da esquerda para a direita com atenção diminuindo. A primeira frase carrega o peso mais pesado, a segunda é preenchida em volta dela, e qualquer coisa após a terceira é "detalhes para usar se houver espaço". Coloque suas restrições mais difíceis, identidade do sujeito, ação-chave, localização primária, na frase de abertura. Floreios estilísticos vêm depois.

Isso não é uma vibração. Corresponde a como o modelo equilibra tokens de prompt contra orçamento de atenção sob os limites de comprimento documentados (500 caracteres chineses / 1.000 palavras em inglês)^[2]. Passado o limite, os prompts recebem resumo agressivo internamente, e "resumido" geralmente significa perder os detalhes específicos com os quais você se importava.

Escolha um estilo e comprometa-se com ele

Misturar "animação Pixar 3D, grão de filme 35mm áspero, lavagem em aquarela" dentro de um único prompt é a maneira mais rápida de obter pura confusão visual. O modelo tem que reconciliar três sinais estéticos contraditórios e o resultado é geralmente um padrão plano. Escolha um (Pixar 3D animation ou gritty 35mm film, heavy grain ou loose watercolor wash) e incline-se para ele.

Para trabalho text-to-video em particular, coerência de estilo é o que separa "realmente utilizável para uma campanha" de "divertido de olhar uma vez".

A sintaxe de referência que ninguém documenta claramente

Aqui está a parte que a maioria dos guias de terceiros erram. O modo reference-to-video do Seedance 2.0 (Volcengine chama de 多模态参考生视频, "geração de vídeo de referência multi-modal") usa um sistema de indicador numérico explícito no próprio prompt^[3].

A sintaxe oficial de Volcengine é numeração entre colchetes quadrados chineses: 图片1, 图片2, ..., 图片9 para imagens; 视频1, 视频2, 视频3 para vídeos^[3]. No seedance2.so, o estúdio oferece uma abreviação amigável ao inglês mapeada para o mesmo contrato upstream, @image1 até @image9, @video1 até @video3, e @audio1 até @audio3^[4]. Produzem saídas idênticas; escolha o que ler mais limpo para você.

O ponto: reference-to-video sem indicadores explícitos é apenas uma dica vaga ao modelo. Com indicadores, você está dizendo exatamente qual slot de entrada mapeia para qual ideia no prompt.

Referências multi-imagem: o padrão da lista de compras

O template recomendado de Volcengine para referências multi-imagem^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

O mapeamento de número para entrada é posicional. A primeira imagem que você faz upload é @image1, a segunda é @image2, e assim por diante. Isso é inegociável, não há um campo "nome" nos uploads, apenas ordem. Se você fizer upload da mesma imagem segunda em vez de primeira, sua referência @image1 agora aponta para uma imagem diferente e o prompt quebra silenciosamente.

O guia oficial de Volcengine fornece este exemplo composto para usar três entradas de imagem para definir sujeito, traje e produto respectivamente^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

versus a versão estruturada:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Ambos funcionam. A segunda produz aderência mensuravelmente mais apertada às imagens de entrada. Se você se importa com fidelidade comercial, fotografia de produtos, continuidade de personagens entre cenas, use a forma de indicador explícito sempre.

Referências de vídeo: ação, câmera, FX

O mesmo padrão se aplica a entradas de vídeo^[3]. Volcengine documenta três formas distintas de usar um vídeo de referência:

O que você quer do vídeo de referência	Template de prompt
Emprestar a ação (movimento, coreografia)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Emprestar o movimento de câmera (dolly, orbit, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Emprestar o efeito VFX ou de partícula	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Isto é genuinamente um superpoder se você está produzindo uma série. Grave um clipe de referência com o movimento de câmera que você quer, handheld push-in, órbita suave, zoom de vertigem, e reutilize em dez variações de sujeito e cenário. Você obtém continuidade visual sem re-prompting de cinematografia do zero.

Referências de áudio e beat-sync

As entradas de áudio funcionam da mesma forma: até três arquivos de áudio, referenciados como @audio1, @audio2, @audio3^[4]. O uso mais comum é beat-sync video, fixe o movimento gerado a uma faixa de música para que os cortes e movimentos caiam no downbeat.

Um prompt beat-sync que funciona:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

O modelo não está fazendo análise de áudio literal em cada batida de bateria, mas consistentemente produz movimento que parece sincronizado com o áudio de origem quando você diz para fazer.

Templates de prompt modo por modo

Seedance 2.0 tem três modos upstream reais de geração, mais vários padrões de uso de reference-to-video que a API superfície como fluxos de trabalho distintos^[2]. Aqui está como os prompts diferem entre eles.

Text-to-video (T2V)

O modo mais simples. Apenas seu prompt impulsiona a saída. A fórmula completa de três blocos carrega toda a carga. Proporção de aspecto (16:9, 9:16, 4:3, 3:4) e duração (5, 10 ou 15 segundos) vêm de parâmetros de requisição, não do prompt, não desperdice tokens escrevendo "em formato 16:9"^[4].

Padrão:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Execute no seedance2.so/text-to-video quando você não tiver entradas de referência.

Image-to-video (I2V), modo primeiro frame

Você faz upload de uma imagem; ela se torna o frame de abertura. Seu prompt descreve apenas o movimento e continuação, não o sujeito, já que o sujeito já está na imagem. Re-descrever o que a imagem mostra geralmente causa que o modelo "redraw" o sujeito e se afaste da origem.

Padrão:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Prompt ruim de I2V:

A blonde woman in a red dress walks through a market.

(A imagem já mostra isso. Você está lutando contra o modelo.)

Bom prompt de I2V:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-to-video (I2V), modo primeiro + último frame

Faça upload de duas imagens. O modelo interpola entre elas e seu prompt descreve o caminho de transição. Esta é a maneira mais limpa de obter um arco narrativo determinístico em 5 segundos.

Padrão:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Nota: a primeira e última imagens devem ser quase alinhadas em proporção de aspecto. O modelo auto-corta a segunda para alinhar se diferem, mas corte pesado degrada o resultado^[2].

Este é o modo de destaque do Seedance 2.0 e o que justifica a maioria deste guia. Você pode misturar imagens, vídeos e áudio em uma única requisição, até 9 + 3 + 3, e tecer junto ao prompt com os indicadores explícitos cobertos acima^[2].

A estrutura de template oficial^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Exemplo tirado do guia oficial^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Cinco entradas de imagem, cinco papéis explícitos, uma narrativa coesa. Este tipo de prompt estruturado é o que permite reference-to-video com qualidade de produção. Sem a disciplina de indicador, o modelo fica vago e os elementos desfocam.

Edição de vídeo através de R2V

Volcengine trata edição de vídeo (adicionar / excluir / modificar elementos) como um padrão de uso de R2V, não um modo separado^[3]. Templates do guia oficial:

Operação	Template
Adicionar elemento	`In @video1, at <time/space position>, add <element description>.`
Excluir elemento	`Delete <element> from @video1, keep everything else unchanged.`
Substituir elemento	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

A cauda "keep motion and camera unchanged" está fazendo trabalho importante, sem ela, o modelo frequentemente regenera a cena do zero. Tente em video editing.

Extensão de vídeo (adiante/atrás)

Mesmo mecanismo de R2V. Dois templates^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

O modelo auto-corta os frames da costura da sua entrada, não regenera o original, e apenas sintetiza a cauda ou cabeça nova. Envie sua intenção de extensão em video extension.

Stitching de faixa (composição de 3 clipes)

Se você faz upload de vários vídeos para stitching, a restrição é dura: máximo 3 entradas de vídeo, duração total ≤ 15 segundos^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Exemplo trabalhado do guia oficial^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

O modelo inventa apenas os frames de transição; os clipes de origem permanecem intactos.

Linguagem de câmera que o Seedance 2.0 realmente entende

O modelo foi treinado em descrições de cinematografia, então o vocabulário profissional de cenas supera a linguagem casual. Os termos abaixo são os que vi produzir saída confiável, retirados de execuções de produção em seedance2.so e verificados contra exemplos de referência de Volcengine^[3].

Movimento:

slow dolly forward (câmera física se movendo em direção ao sujeito) vence zoom in (ajuste de lente) toda vez
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake para sensação de documentário
whip pan to <new subject> para transições rápidas

Ângulo:

low angle looking up at subject torna sujeitos parecerem poderosos
overhead establishing shot para relacionamentos espaciais
dutch tilt para desconforto
extreme close-up on hands direciona atenção para detalhe
eye-level medium shot para enquadramento de conversa neutra

Lente:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

O padrão: use as palavras que um cinematógrafo trabalhando usaria. "Cinematic" é muito vago; "anamorphic 2.39:1, lens flare on highlights, shallow DoF at f/1.8" é algo em que o modelo pode agir.

Descritores de estilo e iluminação que realmente movem a agulha

Estilo é onde o Bloco 2 da fórmula ganha seu sustento. Algumas categorias que valem a pena memorizar.

Iluminação: golden hour, blue hour, harsh midday sun, soft window light, single key light from screen-left, practical neon underlighting, silhouette against sunset, volumetric god rays through fog.

Cor: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / formato: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Gênero: Wes Anderson symmetry, pastel, David Fincher cool palette, low-key, Studio Ghibli watercolor backgrounds, '80s sci-fi, neon and chrome, noir, deep shadows, venetian blind patterns.

Quanto mais próximo seu descritor é de uma referência cinematográfica ou de produção real, melhor o resultado. "Cinematic and dramatic" não diz nada ao modelo. "Roger Deakins golden hour, low contrast, subtle haze" diz muito.

Modos de falha comuns e como corrigi-los

Depois de revisar centenas de gerações em seedance2.so e ler relatórios de usuários, os mesmos cinco modos de falha representam a maioria do feedback "isso se parece ruim". Aqui está a busca de diagnóstico.

"A saída ignorou metade do meu prompt"

Quase sempre um problema de comprimento. Seu prompt provavelmente está acima do limite (500 caracteres chineses / 1.000 palavras em inglês)^[2], ou você entupiu muitas ideias em um único disparo. Regra de ouro: 1–2 sujeitos por prompt, 2–4 frases no total. Se você precisa de três sujeitos fazendo três coisas diferentes em três localizações, isso são três gerações separadas costuradas em pós, não um prompt.

"A imagem de referência foi desenhada sobre"

No modo I2V, você descreveu o que estava na imagem em vez do que deveria acontecer próximo. Reescreva o prompt para descrever apenas movimento, não sujeito. No modo R2V, você esqueceu do indicador explícito @imageN, então o modelo tratou o upload como uma dica estética vaga em vez de uma restrição dura.

"Ele se recusa a gerar com minha foto de referência"

Seedance 2.0 explicitamente não aceita referências de rosto humano real, uploads com rostos humanos reais detectáveis são rejeitados na camada de segurança^[2]. Três workarounds: use um retrato gerado por Seedream de uma pessoa fictícia como sua referência, use um dos avatares virtuais pré-ajustados de Volcengine, ou forneça autorização documentada para a pessoa real descrita. Não há toggler "desligar este filtro".

"O movimento é entrecortado / o sujeito se transforma"

Você provavelmente foi muito longe. Gere em 5 segundos primeiro para verificar se o prompt se mantém coeso, depois comprometa-se com 10 ou 15 segundos. Qualidade em 15s é significativamente diferente de qualidade em 5s, não porque o modelo é pior, mas porque mais está acontecendo, e qualquer ambiguidade de prompt é amplificada em 25–35 frames por segundo de conteúdo adicional.

"Áudio está fora de sincronização com os visuais"

Ou você não fez referência ao áudio explicitamente com @audio1, ou seu prompt descreveu ritmo visual que contradiz o áudio real. Se o áudio é uma faixa de 110 BPM e seu prompt diz "slow contemplative pacing", o modelo tem que escolher um. Diga explicitamente: match cuts to the kick drum of @audio1 é inequívoco.

Fluxo de trabalho de iteração que não queima créditos

Gerar um vídeo Seedance 2.0 de alta qualidade de 10 segundos custa cerca de 7 créditos por segundo na tier padrão, cerca de 70 créditos por geração, ou aproximadamente $2.80 na taxa de crédito de nível de entrada^[5]. Execuções desperdiçadas se acumulam. O fluxo de trabalho que minimiza desperdício:

Draft na tier rápida/básica primeiro. Mesmo prompt, mesmos parâmetros, custo de crédito mais baixo. Se a composição estiver errada em básico, estará errada em alta também, corrija antes de pagar por alta. Veja pricing para taxas de tier atuais.
Gere em 5 segundos primeiro, mesmo que em última análise você queira 15. Um teste de 5 segundos custa um terço de uma execução de 15 segundos. Se o prompt se mantém em 5, escale para cima.
Uma variável de cada vez. Não mude o sujeito, a câmera e o estilo em um único re-roll. Você não saberá qual mudança moveu a agulha.
Salve suas imagens de seed. Quando um retrato gerado por Seedream funciona como referência, mantenha essa imagem exata, re-executar o mesmo prompt de R2V com a mesma referência é o mais próximo de um re-roll determinístico.
Use o toggler de aprimoramento de prompt ao começar com uma ideia esparsa. O modo aprimorado por web-search do estúdio reescreve seu prompt com contexto recuperado antes de enviá-lo ao modelo^[4]. Útil para consultas como "what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday", já que o modelo agora tem contexto recuperado do qual extrair.

Prompts multi-idioma e quando mudar

Seedance 2.0 foi treinado em um corpus multilíngue e suporta prompts em inglês, chinês, japonês, indonésio, espanhol e português^[2]. As variantes antigas de Seedance (1.5 Pro, 1.0 Pro) apenas suportam inglês e chinês. Isto importa em dois cenários:

Diálogo localizado. Se o vídeo gerado precisa de personagens que falam espanhol ou legendas em coreano, escreva a linha no idioma alvo diretamente. Não escreva em inglês e peça ao modelo para "tê-los falando espanhol", funciona, mas a qualidade é pior do que apenas escrever a linha em espanhol.
Especificidade cultural. Um prompt como "a typical Mexican breakfast on a wooden table" escrito em espanhol (un desayuno mexicano típico sobre una mesa de madera) frequentemente produz saída culturalmente mais precisa do que o equivalente em inglês. A ponderação de dados de treinamento difere.

Para todo o resto, inglês é o padrão e funciona bem. Prompts em chinês são ligeiramente mais concisos por token (≤ 500 caracteres versus ≤ 1.000 palavras em inglês) mas produzem saída equivalente.

FAQ

Quanto tempo deve ter um prompt Seedance 2.0?

Apunte para 2–4 frases, aproximadamente 60–200 palavras em inglês. O limite rígido é 1.000 palavras em inglês / 500 caracteres chineses^[2], mas você vai bater retornos decrescentes bem antes disso. Passado ~250 palavras o modelo começa a comprimir seu prompt internamente e você perde detalhes.

O Seedance 2.0 suporta prompts negativos?

Não como um parâmetro dedicado. Não há um campo "negative_prompt" no contrato da API^[2]. Você pode adicionar restrições inline, no on-screen text, no logos, no people in the background, e o modelo as honra com consistência razoável. Não é tão determinístico quanto um slot true negative-prompt em modelos de imagem como Stable Diffusion, mas funciona.

Posso fazer referência a 9 imagens, 3 vídeos e 3 arquivos de áudio no mesmo prompt?

Sim, essa é a carga máxima de R2V multi-modal: até 9 imagens, 3 vídeos, 3 entradas de áudio em uma única requisição^[2]. A API impõe esses limites. Praticamente, prompts com tantas referências são muito difíceis de manter coeso, a maioria do trabalho de R2V de produção usa 2–5 referências de imagem e no máximo uma referência de vídeo ou áudio.

Por que minha geração falha com "real face not allowed"?

Seedance 2.0 recusa referências contendo rostos humanos reais detectáveis^[2]. Use um retrato gerado fictício, um avatar virtual pré-autorizado, ou faça upload de uma autorização explícita para a pessoa real retratada. A verificação é executada upstream no nível do modelo, não há override ao nível da plataforma.

Qual é a diferença entre Seedance 2.0 e Seedance 2.0 Fast para prompts?

Mesma gramática de prompt, mesma sintaxe de referência, mesmos limites de comprimento. Fast é a tier básica de custo mais baixo; Preview é alta qualidade. Um prompt que funciona em Fast funcionará identicamente em Preview, apenas com maior fidelidade visual e aproximadamente 1.7x o custo de crédito na maioria dos provedores^[5]. Itere em Fast, finalize em Preview.

Posso escrever prompts em chinês para saída em inglês, ou vice-versa?

Sim. Idioma do prompt e idioma de saída são independentes. Escreva no idioma que você acha que pensa mais claramente, o modelo lida com a tradução entre idiomas internamente. A exceção é texto na tela e diálogo: esses aparecerão no idioma em que você os escreveu.

A ordem do prompt dentro de uma frase importa?

Sim, materialmente. Tokens anteriores recebem mais orçamento de atenção. Comece com as restrições mais difíceis (identidade do sujeito, ação primária, localização-chave) e deixe os floreios estilísticos seguirem. "A red sports car at sunset, cinematic" solicita ao modelo para otimizar para "red sports car"; "Cinematic shot of a red sports car at sunset" pondera "cinematic shot" primeiro e o carro se torna secundário.

Existe uma biblioteca oficial de prompts Seedance 2.0?

Volcengine fornece um guia oficial de prompts com exemplos trabalhados para slogans, legendas, diálogo de balão, referências multi-imagem, referências de ação, referências de movimento de câmera, referências de VFX e edição de vídeo^[1]^[3]. É a fonte canônica. O estúdio em seedance2.so/text-to-video mapeia os mesmos padrões para uma UI; se você pode expressar a estrutura do prompt em um, você pode usar o outro.

Prompts que funcionam: o resumo

Escrever prompts Seedance 2.0 bem se resume a três hábitos. Primeiro, siga a fórmula de três blocos, sujeito e ação, depois ambiente e estilo, depois câmera e dicas de áudio, e coloque na frente suas restrições mais difíceis na frase de abertura. Segundo, use a sintaxe de referência explícita (@image1 até @image9, @video1 até @video3, @audio1 até @audio3) toda vez que você tiver entradas multi-modal; a diferença entre referência vaga e referência indicada é a diferença entre "funciona kind of" e "funciona". Terceiro, respeite as restrições que o modelo documenta, prompts de 2–4 frases, 1–2 sujeitos, sem rostos humanos reais, comprimento sob 1.000 palavras em inglês, e itere barato na tier Fast antes de comprometer créditos para Preview. Faça essas três coisas e seus prompts Seedance 2.0 produzirão saída de qualidade pronta para envio no primeiro ou segundo roll, não no quinto ou sexto.

Referências

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Recuperado em May 2026 de volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Recuperado em May 2026 de volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Recuperado em May 2026 de volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Recuperado em May 2026 de seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Recuperado em May 2026 de seedance2.so/pricing

Leitura adicional

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Todas as Publicações

Autor

Seedance Team

Categorias

Prompts

TL;DR A fórmula de três partes para prompts Seedance 2.0 Coloque na frente as palavras de alta informação Escolha um estilo e comprometa-se com ele A sintaxe de referência que ninguém documenta claramente Referências multi-imagem: o padrão da lista de compras Referências de vídeo: ação, câmera, FX Referências de áudio e beat-sync Templates de prompt modo por modo Text-to-video (T2V)Image-to-video (I2V), modo primeiro frame Image-to-video (I2V), modo primeiro + último frame Reference-to-video / referência multi-modal (R2V)Edição de vídeo através de R2V Extensão de vídeo (adiante/atrás)Stitching de faixa (composição de 3 clipes)Linguagem de câmera que o Seedance 2.0 realmente entende Descritores de estilo e iluminação que realmente movem a agulha Modos de falha comuns e como corrigi-los "A saída ignorou metade do meu prompt""A imagem de referência foi desenhada sobre""Ele se recusa a gerar com minha foto de referência""O movimento é entrecortado / o sujeito se transforma""Áudio está fora de sincronização com os visuais"Fluxo de trabalho de iteração que não queima créditos Prompts multi-idioma e quando mudar FAQ Quanto tempo deve ter um prompt Seedance 2.0?O Seedance 2.0 suporta prompts negativos?Posso fazer referência a 9 imagens, 3 vídeos e 3 arquivos de áudio no mesmo prompt?Por que minha geração falha com "real face not allowed"?Qual é a diferença entre Seedance 2.0 e Seedance 2.0 Fast para prompts?Posso escrever prompts em chinês para saída em inglês, ou vice-versa?A ordem do prompt dentro de uma frase importa?Existe uma biblioteca oficial de prompts Seedance 2.0?Prompts que funcionam: o resumo Referências Leitura adicional

Mais Publicações

Tutorial

Textos Multimodais: O Que São, Exemplos e Como Criar com IA

Entenda o que são textos multimodais, veja exemplos práticos e descubra como ferramentas de IA transformam texto em vídeo, imagem e áudio para criar conteúdo multimodal.

Seedance Team

2026/03/15

Tutorial

Replicação viral com vídeo IA: como criar conteúdo que se espalha sozinho

Aprenda estratégias práticas de replicação viral para criar vídeos com IA que viralizam nas redes sociais. Guia completo com técnicas reais para TikTok, Reels e Shorts.

Seedance Team

2026/03/15

Tutorial

Seedance 2.0 grátis: o que funciona, o que não funciona

Opções reais de Seedance 2.0 grátis em 2026: 3 créditos de bônus de registro, testes de terceiros, e por que todo site 'ilimitado grátis' é golpe. Com contas claras.

Seedance Team

2026/05/08

2026/05/07

Seedance 2.0: guia completo para escrever prompts de IA de vídeo

Domine os prompts Seedance 2.0 com a fórmula oficial de três partes, sintaxe de referência multi-modal (@image, @video, @audio) e templates que funcionam.

TL;DR

Os prompts Seedance 2.0 seguem uma fórmula de três partes: sujeito + ação, depois ambiente / iluminação / estilo, depois dicas de câmera ou áudio^[1].
O modelo aceita até 9 imagens de referência, 3 vídeos de referência e 3 arquivos de áudio em uma única requisição^[2]. Faça referência a eles inline como 图片1 / 视频2 / 音频1 (chinês) ou @image1 / @video2 / @audio1 (abreviação do seedance2.so)^[3].
Limite de comprimento do prompt: ≤ 500 caracteres chineses ou ≤ 1.000 palavras em inglês. Qualquer coisa mais longa dilui a atenção e o modelo começa a ignorar detalhes^[2].
Seedance 2.0 suporta prompts em inglês, chinês, japonês, indonésio, espanhol e português; variantes antigas de Seedance apenas suportam inglês e chinês^[2].
Upstream existem apenas três modos reais: text-to-video, image-to-video (primeiro frame ou primeiro + último frame) e referência multi-modal. "Video edit" e "video extend" são padrões de uso de reference-to-video, não modelos separados^[2].
Seedance 2.0 vai recusar referências de rostos humanos reais, espera um retrato gerado, um ativo pré-autorizado ou um dos avatares virtuais fornecidos pela plataforma^[2].

A fórmula de três partes para prompts Seedance 2.0

Um prompt limpo de três blocos:

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

Isso são três frases e cobre todos os três blocos. O modelo tem tudo o que precisa.

Coloque na frente as palavras de alta informação

Escolha um estilo e comprometa-se com ele

Para trabalho text-to-video em particular, coerência de estilo é o que separa "realmente utilizável para uma campanha" de "divertido de olhar uma vez".

A sintaxe de referência que ninguém documenta claramente

O ponto: reference-to-video sem indicadores explícitos é apenas uma dica vaga ao modelo. Com indicadores, você está dizendo exatamente qual slot de entrada mapeia para qual ideia no prompt.

Referências multi-imagem: o padrão da lista de compras

O template recomendado de Volcengine para referências multi-imagem^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

O guia oficial de Volcengine fornece este exemplo composto para usar três entradas de imagem para definir sujeito, traje e produto respectivamente^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

versus a versão estruturada:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Referências de vídeo: ação, câmera, FX

O mesmo padrão se aplica a entradas de vídeo^[3]. Volcengine documenta três formas distintas de usar um vídeo de referência:

O que você quer do vídeo de referência	Template de prompt
Emprestar a ação (movimento, coreografia)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Emprestar o movimento de câmera (dolly, orbit, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Emprestar o efeito VFX ou de partícula	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Referências de áudio e beat-sync

Um prompt beat-sync que funciona:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

O modelo não está fazendo análise de áudio literal em cada batida de bateria, mas consistentemente produz movimento que parece sincronizado com o áudio de origem quando você diz para fazer.

Templates de prompt modo por modo

Text-to-video (T2V)

Padrão:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Execute no seedance2.so/text-to-video quando você não tiver entradas de referência.

Image-to-video (I2V), modo primeiro frame

Padrão:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Prompt ruim de I2V:

A blonde woman in a red dress walks through a market.

(A imagem já mostra isso. Você está lutando contra o modelo.)

Bom prompt de I2V:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-to-video (I2V), modo primeiro + último frame

Faça upload de duas imagens. O modelo interpola entre elas e seu prompt descreve o caminho de transição. Esta é a maneira mais limpa de obter um arco narrativo determinístico em 5 segundos.

Padrão:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Nota: a primeira e última imagens devem ser quase alinhadas em proporção de aspecto. O modelo auto-corta a segunda para alinhar se diferem, mas corte pesado degrada o resultado^[2].

A estrutura de template oficial^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Exemplo tirado do guia oficial^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Edição de vídeo através de R2V

Volcengine trata edição de vídeo (adicionar / excluir / modificar elementos) como um padrão de uso de R2V, não um modo separado^[3]. Templates do guia oficial:

Operação	Template
Adicionar elemento	`In @video1, at <time/space position>, add <element description>.`
Excluir elemento	`Delete <element> from @video1, keep everything else unchanged.`
Substituir elemento	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

A cauda "keep motion and camera unchanged" está fazendo trabalho importante, sem ela, o modelo frequentemente regenera a cena do zero. Tente em video editing.

Extensão de vídeo (adiante/atrás)

Mesmo mecanismo de R2V. Dois templates^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

O modelo auto-corta os frames da costura da sua entrada, não regenera o original, e apenas sintetiza a cauda ou cabeça nova. Envie sua intenção de extensão em video extension.

Stitching de faixa (composição de 3 clipes)

Se você faz upload de vários vídeos para stitching, a restrição é dura: máximo 3 entradas de vídeo, duração total ≤ 15 segundos^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Exemplo trabalhado do guia oficial^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

O modelo inventa apenas os frames de transição; os clipes de origem permanecem intactos.

Linguagem de câmera que o Seedance 2.0 realmente entende

Movimento:

slow dolly forward (câmera física se movendo em direção ao sujeito) vence zoom in (ajuste de lente) toda vez
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake para sensação de documentário
whip pan to <new subject> para transições rápidas

Ângulo:

low angle looking up at subject torna sujeitos parecerem poderosos
overhead establishing shot para relacionamentos espaciais
dutch tilt para desconforto
extreme close-up on hands direciona atenção para detalhe
eye-level medium shot para enquadramento de conversa neutra

Lente:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

O padrão: use as palavras que um cinematógrafo trabalhando usaria. "Cinematic" é muito vago; "anamorphic 2.39:1, lens flare on highlights, shallow DoF at f/1.8" é algo em que o modelo pode agir.

Descritores de estilo e iluminação que realmente movem a agulha

Estilo é onde o Bloco 2 da fórmula ganha seu sustento. Algumas categorias que valem a pena memorizar.

Cor: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / formato: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Modos de falha comuns e como corrigi-los

"A saída ignorou metade do meu prompt"

"A imagem de referência foi desenhada sobre"

"Ele se recusa a gerar com minha foto de referência"

"O movimento é entrecortado / o sujeito se transforma"

"Áudio está fora de sincronização com os visuais"

Fluxo de trabalho de iteração que não queima créditos

Draft na tier rápida/básica primeiro. Mesmo prompt, mesmos parâmetros, custo de crédito mais baixo. Se a composição estiver errada em básico, estará errada em alta também, corrija antes de pagar por alta. Veja pricing para taxas de tier atuais.
Gere em 5 segundos primeiro, mesmo que em última análise você queira 15. Um teste de 5 segundos custa um terço de uma execução de 15 segundos. Se o prompt se mantém em 5, escale para cima.
Uma variável de cada vez. Não mude o sujeito, a câmera e o estilo em um único re-roll. Você não saberá qual mudança moveu a agulha.
Salve suas imagens de seed. Quando um retrato gerado por Seedream funciona como referência, mantenha essa imagem exata, re-executar o mesmo prompt de R2V com a mesma referência é o mais próximo de um re-roll determinístico.
Use o toggler de aprimoramento de prompt ao começar com uma ideia esparsa. O modo aprimorado por web-search do estúdio reescreve seu prompt com contexto recuperado antes de enviá-lo ao modelo^[4]. Útil para consultas como "what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday", já que o modelo agora tem contexto recuperado do qual extrair.

Prompts multi-idioma e quando mudar

Diálogo localizado. Se o vídeo gerado precisa de personagens que falam espanhol ou legendas em coreano, escreva a linha no idioma alvo diretamente. Não escreva em inglês e peça ao modelo para "tê-los falando espanhol", funciona, mas a qualidade é pior do que apenas escrever a linha em espanhol.
Especificidade cultural. Um prompt como "a typical Mexican breakfast on a wooden table" escrito em espanhol (un desayuno mexicano típico sobre una mesa de madera) frequentemente produz saída culturalmente mais precisa do que o equivalente em inglês. A ponderação de dados de treinamento difere.

FAQ

Quanto tempo deve ter um prompt Seedance 2.0?

O Seedance 2.0 suporta prompts negativos?

Posso fazer referência a 9 imagens, 3 vídeos e 3 arquivos de áudio no mesmo prompt?

Por que minha geração falha com "real face not allowed"?

Qual é a diferença entre Seedance 2.0 e Seedance 2.0 Fast para prompts?

Posso escrever prompts em chinês para saída em inglês, ou vice-versa?

A ordem do prompt dentro de uma frase importa?

Existe uma biblioteca oficial de prompts Seedance 2.0?

Prompts que funcionam: o resumo

Referências

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Recuperado em May 2026 de volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Recuperado em May 2026 de volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Recuperado em May 2026 de volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Recuperado em May 2026 de seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Recuperado em May 2026 de seedance2.so/pricing

Leitura adicional

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Todas as Publicações

Autor

Seedance Team

Categorias

Prompts

Mais Publicações

Tutorial

Textos Multimodais: O Que São, Exemplos e Como Criar com IA

Entenda o que são textos multimodais, veja exemplos práticos e descubra como ferramentas de IA transformam texto em vídeo, imagem e áudio para criar conteúdo multimodal.

Seedance Team

2026/03/15

Tutorial

Replicação viral com vídeo IA: como criar conteúdo que se espalha sozinho

Aprenda estratégias práticas de replicação viral para criar vídeos com IA que viralizam nas redes sociais. Guia completo com técnicas reais para TikTok, Reels e Shorts.

Seedance Team

2026/03/15

Tutorial

Seedance 2.0 grátis: o que funciona, o que não funciona

Opções reais de Seedance 2.0 grátis em 2026: 3 créditos de bônus de registro, testes de terceiros, e por que todo site 'ilimitado grátis' é golpe. Com contas claras.

Seedance Team

2026/05/08