2026/05/07

Guía completa de prompts Seedance 2.0: cómo escribir prompts que funcionen

Domina los prompts de Seedance 2.0 con la fórmula oficial de tres partes, sintaxis multimodal (@image, @video, @audio) y templates mode-específicos que dan resultados.

La mayoría de artículos sobre "prompts de IA para vídeo" que encuentras en línea están escritos por gente que escribe "cinematic shot of a wolf in the snow" y lo llama tutorial. Así no se escriben los prompts de Seedance 2.0 en la realidad. El modelo tiene una gramática multimodal específica (@image1, @video2, @audio1, @character:<id>), y Volcengine, que es dueña del modelo, publica una guía oficial de prompts estructurada en torno a cinco categorías distintas^[1]. Si tus prompts no coinciden con esa estructura, quemarás créditos haciendo rolleos de intentos casi correctos.

Esta es la guía larga de prompts Seedance 2.0 que me hubiera gustado tener cuando empecé. Cubre la fórmula de texto oficial, la sintaxis de referencia que controla ejecuciones multiimagen y multivídeo, templates específicos por mode para los cuatro caminos de generación reales (text-to-video, image-to-video, reference-to-video, video editing), y los failure modes que envían a los principiantes de vuelta a la cola. Verificado contra la especificación API de ByteDance/Volcengine y la configuración del estudio en vivo de seedance2.so.

Resumen ejecutivo

Los prompts Seedance 2.0 siguen una fórmula de tres partes: sujeto + acción, luego entorno / iluminación / estilo, luego pistas de cámara o audio^[1].
El modelo acepta hasta 9 imágenes de referencia, 3 vídeos de referencia y 3 archivos de audio en una única solicitud^[2]. Refiérete a ellos inline como 图片1 / 视频2 / 音频1 (chino) o @image1 / @video2 / @audio1 (el shorthand de seedance2.so)^[3].
Límite de longitud de prompt: ≤ 500 caracteres chinos o ≤ 1.000 palabras en inglés. Cualquier cosa más larga diluye la atención y el modelo comienza a ignorar detalles^[2].
Seedance 2.0 soporta prompts en inglés, chino, japonés, indonesio, español y portugués, las variantes Seedance antiguas solo soportan inglés y chino^[2].
Upstream solo existen tres modos reales: text-to-video, image-to-video (first frame o first+last frame), y referencia multimodal. "Video edit" y "video extend" son patrones de uso reference-to-video, no modelos separados^[2].
Seedance 2.0 rechazará referencias de caras humanas reales, espera un retrato generado, un asset preautorizado, o uno de los avatares virtuales proporcionados por la plataforma^[2].

La fórmula de prompts Seedance 2.0 en tres partes

La guía oficial de prompts de Volcengine establece la estructura como tres bloques componibles^[1]. No necesitas llenar cada bloque cada vez, pero apilar en este orden da al modelo la señal más clara.

Bloque 1: sujeto y acción. Quién está en la escena y qué está haciendo. Este es el ancla lógica. "Una mujer" no le dice nada al modelo. "Una mujer alta en un abrigo de carbón largo caminando sobre un puente de piedra mojada" le da un sujeto, una postura y un vector de movimiento.

Bloque 2: entorno, iluminación, estilo. Dónde sucede, cómo se ve la luz y el registro visual. "Al atardecer, faroles reflejándose en adoquines mojados, color desaturado teal y ámbar" está haciendo un trabajo real. Omite este bloque y el modelo se ajusta por defecto a un plano medio con iluminación neutral y cero punto de vista estilístico.

Bloque 3: lenguaje de cámara y pistas de audio. Cómo se mueve la cámara y qué escuchas. "Dolly lento hacia adelante, profundidad de campo reducida, piano ambiental de fondo" convierte un plano genérico en uno dirigido. Seedance 2.0 genera audio nativo con diálogos sincronizados en 8+ idiomas, así que las pistas de audio pertenecen al prompt, no como una ocurrencia posterior.

Un prompt limpio de tres bloques:

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

Son tres frases y cubren todos los bloques. El modelo tiene todo lo que necesita.

Prioriza las palabras con alta información

Seedance 2.0 lee de izquierda a derecha con atención decreciente. La primera frase lleva el peso más importante, la segunda se rellena alrededor, y cualquier cosa después de la tercera es "detalles para usar si hay espacio". Pon tus restricciones más duras, identidad del sujeto, acción clave, ubicación primaria, en la oración de apertura. Los detalles estilísticos van después.

Esto no es una vibra. Se mapea a cómo el modelo equilibra los tokens de prompt contra el presupuesto de atención bajo los límites de longitud documentados (500 caracteres chinos / 1.000 palabras en inglés)^[2]. Pasado el límite, los prompts se resumen agresivamente internamente, y "resumido" generalmente significa perder las especificidades de las que te importaba.

Elige un estilo y comprométete

Mezclar "animación 3D de Pixar, grano de película 35mm sucio, trazo de acuarela" dentro de un solo prompt es la forma más rápida de obtener papilla visual. El modelo tiene que reconciliar tres señales estéticas contradictorias y el resultado es usualmente un defecto plano. Elige una (digamos, animación 3D de Pixar o película 35mm sucio, grano pesado o trazo de acuarela suelto) y profundiza.

Para trabajo text-to-video en particular, la coherencia estilística es lo que separa "realmente usable para una campaña" de "divertido de mirar una vez".

La sintaxis de referencia que nadie documenta claramente

Este es la parte donde la mayoría de guías de terceros se equivocan. El mode reference-to-video de Seedance 2.0 (Volcengine lo llama 多模态参考生视频, "generación de vídeo con referencia multimodal") usa un sistema explícito de punteros numéricos en el propio prompt^[3].

La sintaxis oficial de Volcengine es numeración entre corchetes cuadrados chinos: 图片1, 图片2, ..., 图片9 para imágenes; 视频1, 视频2, 视频3 para vídeos^[3]. En seedance2.so, el estudio expone un shorthand amigable al inglés mapeado al mismo contrato upstream, @image1 a @image9, @video1 a @video3, y @audio1 a @audio3^[4]. Producen salidas idénticas; elige la que te sea más clara.

El punto: reference-to-video sin punteros explícitos es solo una vaga pista al modelo. Con punteros, le estás diciendo exactamente qué slot de entrada se mapea a qué idea en el prompt.

Referencias multiimagen: el patrón de lista de compras

El template recomendado de Volcengine para referencias multiimagen^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

El mapeo número-a-entrada es posicional. La primera imagen que subes es @image1, la segunda es @image2, y así sucesivamente. Esto es innegociable, no hay campo "nombre" en las subidas, solo orden. Si resubes la misma imagen segunda en lugar de primera, tu referencia @image1 ahora apunta a una imagen diferente y el prompt se rompe silenciosamente.

La guía oficial de Volcengine da este ejemplo compuesto para usar tres entradas de imagen para definir sujeto, atuendo y producto respectivamente^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

versus la versión estructurada:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Ambas funcionan. La segunda produce adherencia mediblemente más ajustada a las imágenes de entrada. Si te importa la fidelidad comercial, fotografía de productos, continuidad de caracteres en planos, usa la forma de puntero explícito cada vez.

Referencias de vídeo: acción, cámara, FX

El mismo patrón se aplica a entradas de vídeo^[3]. Volcengine documenta tres formas distintas de usar un vídeo de referencia:

Qué quieres del vídeo de referencia	Template de prompt
Tomar prestada la acción (movimiento, coreografía)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Tomar prestado el movimiento de cámara (dolly, órbita, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Tomar prestado el efecto VFX o partículas	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Esto es genuinamente un superpoder si estás produciendo una serie. Filma un clip de referencia con el movimiento de cámara que quieres, push-in en mano, órbita suave, zoom de vértigo, y reutilízalo en diez variaciones de sujeto y entorno. Obtienes continuidad visual sin repromptear cinematografía de cero.

Referencias de audio y beat-sync

Las entradas de audio funcionan del mismo modo: hasta tres archivos de audio, referenciados como @audio1, @audio2, @audio3^[4]. El uso más común es beat-sync video, fijar el movimiento generado a una pista de música para que los cortes y movimientos se alineen con el downbeat.

Un prompt beat-sync que funciona:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

El modelo no está haciendo análisis de audio literal en cada hit de batería, pero produce consistentemente movimiento que se siente sincronizado con el audio fuente cuando le dices que lo haga.

Templates de prompts por mode

Seedance 2.0 tiene tres modos de generación reales upstream, más varios patrones de uso reference-to-video que la API expone como flujos distintos^[2]. Aquí es cómo difieren los prompts en todos ellos.

Text-to-video (T2V)

El mode más simple. Solo tu prompt impulsa la salida. La fórmula completa de tres bloques lleva toda la carga. La relación de aspecto (16:9, 9:16, 4:3, 3:4) y duración (5, 10 o 15 segundos) vienen de parámetros de solicitud, no del prompt, no desperdicies tokens escribiendo "en formato 16:9"^[4].

Patrón:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Ejecútalo en seedance2.so/text-to-video cuando no tengas entradas de referencia.

Image-to-video (I2V), mode first-frame

Subes una imagen; se convierte en el fotograma de apertura. Tu prompt describe solo el movimiento y continuación, no el sujeto, ya que el sujeto ya está en la imagen. Redescribir lo que la imagen muestra usualmente causa que el modelo "redibuje" el sujeto y se desvíe de la fuente.

Patrón:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Prompt I2V malo:

A blonde woman in a red dress walks through a market.

(La imagen ya la muestra. Estás luchando contra el modelo.)

Prompt I2V bueno:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-to-video (I2V), mode first+last-frame

Sube dos imágenes. El modelo interpola entre ellas y tu prompt describe el camino de transición. Esta es la forma más limpia de obtener un arco narrativo determinista en 5 segundos.

Patrón:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Nota: las imágenes primera y última deben estar cerca de matched en relación de aspecto. El modelo auto-recorta la segunda para alinearse si difieren, pero recorte pesado degrada el resultado^[2].

Reference-to-video / referencia multimodal (R2V)

Este es el mode destacable de Seedance 2.0 y el que justifica la mayoría de esta guía. Puedes mezclar imágenes, vídeos y audio en una única solicitud, hasta 9 + 3 + 3, e intercalarlos en el prompt con los punteros explícitos cubiertos arriba^[2].

La estructura de template oficial^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Ejemplo sacado de la guía oficial^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Cinco entradas de imagen, cinco roles explícitos, una narrativa coherente. Este tipo de prompt estructurado es lo que habilita reference-to-video en calidad de producción. Sin la disciplina de puntero, el modelo se vuelve vago y los elementos se desdibujan.

Video editing a través de R2V

Volcengine trata el video editing (agregar / eliminar / modificar elementos) como un patrón de uso R2V, no un mode separado^[3]. Templates de la guía oficial:

Operación	Template
Agregar elemento	`In @video1, at <time/space position>, add <element description>.`
Eliminar elemento	`Delete <element> from @video1, keep everything else unchanged.`
Reemplazar elemento	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

La cola "keep motion and camera unchanged" está haciendo un trabajo importante, sin ella, el modelo a menudo regenera la escena de cero. Pruébalo en video editing.

Video extension (hacia adelante/atrás)

Mismo mecanismo R2V. Dos templates^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

El modelo auto-recorta los fotogramas de costura de tu entrada, no regenera el original, y solo sintetiza la cola nueva o la cabeza. Presenta tu intención de extensión en video extension.

Track stitching (composición de 3 clips)

Si subes múltiples vídeos para stitching, la restricción es dura: máximo 3 entradas de vídeo, duración total ≤ 15 segundos^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Ejemplo trabajado de la guía oficial^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

El modelo inventa solo los fotogramas de transición; los clips fuente permanecen intactos.

Lenguaje de cámara que Seedance 2.0 realmente entiende

El modelo fue entrenado en descripciones de cinematografía, así que el vocabulario de shot profesional supera el lenguaje casual. Los términos abajo son los que he visto producir salida confiable, extraído de ejecuciones de producción en seedance2.so y verificado cruzado contra ejemplos de referencia de Volcengine^[3].

Movimiento:

slow dolly forward (cámara física moviéndose hacia sujeto) supera zoom in (ajuste de lente) cada vez
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake para sensación documental
whip pan to <new subject> para transiciones snappy

Ángulo:

low angle looking up at subject hace que los sujetos se vean poderosos
overhead establishing shot para relaciones espaciales
dutch tilt para inquietud
extreme close-up on hands dirige atención a detalles
eye-level medium shot para framing de conversación neutral

Lente:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

El patrón: usa las palabras que un cinematógrafo de trabajo usaría. "Cinematic" es demasiado vago; "anamorphic 2.39:1, lens flare en highlights, shallow DoF a f/1.8" es algo con lo que el modelo puede actuar.

Descriptores de estilo e iluminación que realmente mueven la aguja

El estilo es donde el Bloque 2 de la fórmula gana su keep. Pocas categorías que vale la pena memorizar.

Iluminación: golden hour, blue hour, harsh midday sun, soft window light, single key light from screen-left, practical neon underlighting, silhouette against sunset, volumetric god rays through fog.

Color: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / formato: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Género: Wes Anderson symmetry, pastel, David Fincher cool palette, low-key, Studio Ghibli watercolor backgrounds, '80s sci-fi, neon and chrome, noir, deep shadows, venetian blind patterns.

Cuanto más cercano sea tu descriptor a una referencia real cinematográfica o de producción, mejor será el resultado. "Cinematic and dramatic" no le dice nada al modelo. "Roger Deakins golden hour, low contrast, subtle haze" le dice mucho.

Failure modes comunes y cómo arreglarlos

Después de revisar cientos de generaciones en seedance2.so y leer reportes de usuarios, los mismos cinco failure modes representan la mayoría de feedback "esto se ve mal". Aquí está el diagnóstico lookup.

"La salida ignoró la mitad de mi prompt"

Casi siempre un problema de longitud. Tu prompt es probablemente sobre el límite (500 caracteres chinos / 1.000 palabras en inglés)^[2], o metiste demasiadas ideas en un shot. Regla de oro: 1-2 sujetos por prompt, 2-4 frases total. Si necesitas tres sujetos haciendo tres cosas diferentes en tres ubicaciones, eso son tres generaciones separadas cosidas en post, no un prompt.

"La imagen de referencia fue dibujada encima"

En mode I2V, describiste lo que estaba en la imagen en lugar de qué debería suceder después. Reescribe el prompt para describir solo movimiento, no sujeto. En mode R2V, olvidaste el puntero explícito @imageN, así que el modelo trató la subida como una vaga pista estética en lugar de una restricción dura.

"Se reúsa a generar con mi foto de referencia"

Seedance 2.0 explícitamente no acepta referencias de caras humanas reales, las subidas con caras humanas reales detectables son rechazadas en la capa de seguridad^[2]. Tres workarounds: usa un retrato generado por Seedream de una persona ficticia como tu referencia, usa uno de los avatares virtuales preestablecidos de Volcengine, o suministra autorización documentada para la persona real representada. No hay toggle "turn off this filter".

"El movimiento es entrecortado / el sujeto se transforma"

Probablemente fuiste demasiado largo. Genera a 5 segundos primero para verificar que el prompt se mantiene junto, luego comprométete con 10 o 15 segundos. La calidad a 15s es significativamente diferente de la calidad a 5s, no porque el modelo sea peor, sino porque está sucediendo más, y cualquier ambigüedad de prompt se amplifica en 25-35 fotogramas por segundo de contenido adicional.

"El audio está fuera de sincronización con los elementos visuales"

O no referenciaste el audio explícitamente con @audio1, o tu prompt describió ritmo visual que contradice el audio real. Si el audio es una pista de 110 BPM y tu prompt dice "slow contemplative pacing", el modelo tiene que elegir uno. Díselo explícitamente: match cuts to the kick drum of @audio1 es inequívoco.

Flujo de iteración que no quema créditos

Generar un vídeo Seedance 2.0 de alta calidad de 10 segundos cuesta alrededor de 7 créditos por segundo en el tier estándar, aproximadamente 70 créditos por generación, o aproximadamente $2.80 a la tasa de crédito de tier de entrada^[5]. Los rolleos desperdiciados se acumulan. El flujo que minimiza desperdicio:

Drafting en el tier rápido/básico primero. Mismo prompt, mismos parámetros, costo de crédito más bajo. Si la composición está mal en básico, también estará mal en alto, arréglalo antes de pagar por alto. Ver pricing para tasas de tier actuales.
Genera a 5 segundos primero, incluso si eventualmente quieres 15. Una prueba de 5 segundos cuesta un tercio de una ejecución de 15 segundos. Si el prompt se mantiene a 5, escala hacia arriba.
Una variable a la vez. No cambies el sujeto, la cámara y el estilo en un único re-roll. No sabrás qué cambio movió la aguja.
Guarda tus imágenes seed. Cuando un retrato generado por Seedream funciona como referencia, mantén esa imagen exacta, re-ejecutar el mismo prompt R2V con la misma referencia es lo más cercano a un re-roll determinista.
Usa el toggle de enhancement de prompt cuando empieces desde una idea sparse. El mode mejorado con web-search del estudio reescribe tu prompt con contexto recuperado antes de enviarlo al modelo^[4]. Útil para queries como "what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday", ya que el modelo ahora tiene contexto recuperado del que extraer.

Prompts multiidioma y cuándo cambiar

Seedance 2.0 fue entrenado en un corpus multilingüe y soporta prompts en inglés, chino, japonés, indonesio, español y portugués^[2]. Las variantes Seedance antiguas (1.5 Pro, 1.0 Pro) solo soportan inglés y chino. Esto importa en dos escenarios:

Diálogos localizados. Si el vídeo generado necesita personajes que hablan español o subtítulos coreanos, escribe la línea en el idioma destino directamente. No escribas inglés y pidas al modelo que "hable español", funciona, pero la calidad es peor que simplemente escribir la línea en español.
Especificidad cultural. Un prompt como "a typical Mexican breakfast on a wooden table" escrito en español (un desayuno mexicano típico sobre una mesa de madera) frecuentemente produce salida más culturalmente exacta que el equivalente en inglés. El ponderado de datos de entrenamiento difiere.

Para todo lo demás, inglés es el defecto y funciona bien. Los prompts chinos son ligeramente más concisos por token (≤ 500 caracteres versus ≤ 1.000 palabras en inglés) pero producen salida equivalente.

Preguntas frecuentes

¿Cuánto tiempo debería tener un prompt Seedance 2.0?

Apunta a 2-4 frases, aproximadamente 60-200 palabras en inglés. El límite duro es 1.000 palabras en inglés / 500 caracteres chinos^[2], pero verás rendimientos decrecientes mucho antes de eso. Pasado ~250 palabras el modelo comienza a comprimir tu prompt internamente y pierdes especificidades.

¿Soporta Seedance 2.0 prompts negativos?

No como parámetro dedicado. No hay campo negative_prompt en el contrato API^[2]. Puedes agregar restricciones inline, no on-screen text, no logos, no people in the background, y el modelo las honra con consistencia razonable. No es tan determinista como un slot true negative-prompt en modelos de imagen como Stable Diffusion, pero funciona.

¿Puedo referenciar 9 imágenes y 3 vídeos y 3 archivos de audio en el mismo prompt?

Sí, esa es la carga máxima multimodal R2V: hasta 9 imágenes, 3 entradas de vídeo, 3 entradas de audio en una única solicitud^[2]. La API enforces estos límites. Prácticamente, los prompts con esa cantidad de referencias son muy difíciles de mantener coherentes, la mayoría del trabajo R2V de producción usa 2-5 referencias de imagen y como máximo una referencia de vídeo o audio.

¿Por qué mi generación falla con "real face not allowed"?

Seedance 2.0 rechaza referencias que contengan caras humanas reales detectables^[2]. Usa un retrato generado ficticio, un avatar virtual preautorizado, o sube una autorización explícita para la persona real representada. El chequeo se ejecuta upstream en el nivel del modelo, no hay override a nivel de plataforma.

¿Cuál es la diferencia entre Seedance 2.0 y Seedance 2.0 Fast para prompts?

Misma gramática de prompt, misma sintaxis de referencia, mismos límites de longitud. Fast es el tier de calidad básica de costo más bajo; Preview es calidad alta. Un prompt que funciona en Fast funcionará idénticamente en Preview, solo en fidelidad visual más alta y aproximadamente 1.7× el costo de crédito en la mayoría de proveedores^[5]. Itera en Fast, finaliza en Preview.

¿Puedo escribir prompts en chino para salida en idioma inglés, o viceversa?

Sí. El idioma del prompt y el idioma de salida son independientes. Escribe en el idioma en el que creas más claramente, el modelo maneja la traducción cross-language internamente. La excepción es texto y diálogos en pantalla: esos aparecerán en el idioma en el que los escribiste.

¿Importa el orden de los prompts dentro de una frase?

Sí, materialmente. Los tokens anteriores obtienen más presupuesto de atención. Comienza con las restricciones más duras (identidad del sujeto, acción principal, ubicación clave) y deja que los detalles estilísticos sigan. "A red sports car at sunset, cinematic" le solicita al modelo que optimice para "red sports car"; "Cinematic shot of a red sports car at sunset" pondera "cinematic shot" primero y el auto se vuelve secundario.

¿Hay una librería oficial de prompts Seedance 2.0?

Volcengine envía una guía de prompts oficial con ejemplos trabajados para slogans, subtítulos, diálogo de burbuja, referencias multiimagen, referencias de acción, referencias de movimiento de cámara, referencias de VFX, y video editing^[1]^[3]. Es la fuente canónica. El estudio en seedance2.so/text-to-video mapea los mismos patrones a una UI; si puedes expresar la estructura del prompt en uno, puedes usar el otro.

Prompts que funcionan: el resumen

Escribir bien prompts Seedance 2.0 se reduce a tres hábitos. Primero, sigue la fórmula de tres bloques, sujeto y acción, luego entorno y estilo, luego pistas de cámara y audio, y prioriza tus restricciones más duras en la oración de apertura. Segundo, usa la sintaxis de referencia explícita (@image1 a @image9, @video1 a @video3, @audio1 a @audio3) cada única vez que tienes entradas multimodales; la diferencia entre referencia vaga y referencia pointered es la diferencia entre "kind of works" y "funciona". Tercero, respeta las restricciones que el modelo documenta, prompts de 2-4 frases, 1-2 sujetos, sin caras humanas reales, longitud bajo 1.000 palabras en inglés, e itera barato en el tier Fast antes de comprometer créditos a Preview. Haz esas tres cosas y tus prompts Seedance 2.0 producirán salida de quality en el primer o segundo roll, no el quinto o sexto.

Referencias

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Recuperado en May 2026 de volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Recuperado en May 2026 de volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Recuperado en May 2026 de volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Recuperado en May 2026 de seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Recuperado en May 2026 de seedance2.so/pricing

Lectura adicional

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Todas las publicaciones

Autor

Seedance Team

Categorías

Prompts

Resumen ejecutivo La fórmula de prompts Seedance 2.0 en tres partes Prioriza las palabras con alta información Elige un estilo y comprométete La sintaxis de referencia que nadie documenta claramente Referencias multiimagen: el patrón de lista de compras Referencias de vídeo: acción, cámara, FX Referencias de audio y beat-sync Templates de prompts por mode Text-to-video (T2V)Image-to-video (I2V), mode first-frame Image-to-video (I2V), mode first+last-frame Reference-to-video / referencia multimodal (R2V)Video editing a través de R2V Video extension (hacia adelante/atrás)Track stitching (composición de 3 clips)Lenguaje de cámara que Seedance 2.0 realmente entiende Descriptores de estilo e iluminación que realmente mueven la aguja Failure modes comunes y cómo arreglarlos "La salida ignoró la mitad de mi prompt""La imagen de referencia fue dibujada encima""Se reúsa a generar con mi foto de referencia""El movimiento es entrecortado / el sujeto se transforma""El audio está fuera de sincronización con los elementos visuales"Flujo de iteración que no quema créditos Prompts multiidioma y cuándo cambiar Preguntas frecuentes ¿Cuánto tiempo debería tener un prompt Seedance 2.0?¿Soporta Seedance 2.0 prompts negativos?¿Puedo referenciar 9 imágenes y 3 vídeos y 3 archivos de audio en el mismo prompt?¿Por qué mi generación falla con "real face not allowed"?¿Cuál es la diferencia entre Seedance 2.0 y Seedance 2.0 Fast para prompts?¿Puedo escribir prompts en chino para salida en idioma inglés, o viceversa?¿Importa el orden de los prompts dentro de una frase?¿Hay una librería oficial de prompts Seedance 2.0?Prompts que funcionan: el resumen Referencias Lectura adicional

Más publicaciones

Tutorial

Guía Seedance 2.0 gratis: qué funciona, qué no, y por qué

Opciones reales de Seedance 2.0 gratis en 2026: 3 créditos de regalo al registrarse, pruebas de terceros, y por qué todo sitio 'ilimitado gratis' es un fraude.

Seedance Team

2026/05/08

Tutorial

Cómo Crear Videos con IA desde Cero: La Guía Completa para Principiantes

Descubre cómo generar videos impresionantes usando generadores de IA sin experiencia en edición. Guía paso a paso con Seedance 2.0 y consejos de expertos.

Seedance Team

2026/03/15

Tutorial

IA Creador de Imágenes: Cómo Crear Imágenes Profesionales con Inteligencia Artificial en 2026

Aprende a usar un creador de imágenes con IA para generar fotos, ilustraciones y diseños profesionales en minutos. Guía paso a paso con ejemplos y consejos prácticos.

Seedance Team

2026/03/21

2026/05/07

Guía completa de prompts Seedance 2.0: cómo escribir prompts que funcionen

Domina los prompts de Seedance 2.0 con la fórmula oficial de tres partes, sintaxis multimodal (@image, @video, @audio) y templates mode-específicos que dan resultados.

Resumen ejecutivo

Los prompts Seedance 2.0 siguen una fórmula de tres partes: sujeto + acción, luego entorno / iluminación / estilo, luego pistas de cámara o audio^[1].
El modelo acepta hasta 9 imágenes de referencia, 3 vídeos de referencia y 3 archivos de audio en una única solicitud^[2]. Refiérete a ellos inline como 图片1 / 视频2 / 音频1 (chino) o @image1 / @video2 / @audio1 (el shorthand de seedance2.so)^[3].
Límite de longitud de prompt: ≤ 500 caracteres chinos o ≤ 1.000 palabras en inglés. Cualquier cosa más larga diluye la atención y el modelo comienza a ignorar detalles^[2].
Seedance 2.0 soporta prompts en inglés, chino, japonés, indonesio, español y portugués, las variantes Seedance antiguas solo soportan inglés y chino^[2].
Upstream solo existen tres modos reales: text-to-video, image-to-video (first frame o first+last frame), y referencia multimodal. "Video edit" y "video extend" son patrones de uso reference-to-video, no modelos separados^[2].
Seedance 2.0 rechazará referencias de caras humanas reales, espera un retrato generado, un asset preautorizado, o uno de los avatares virtuales proporcionados por la plataforma^[2].

La fórmula de prompts Seedance 2.0 en tres partes

Un prompt limpio de tres bloques:

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

Son tres frases y cubren todos los bloques. El modelo tiene todo lo que necesita.

Prioriza las palabras con alta información

Elige un estilo y comprométete

Para trabajo text-to-video en particular, la coherencia estilística es lo que separa "realmente usable para una campaña" de "divertido de mirar una vez".

La sintaxis de referencia que nadie documenta claramente

El punto: reference-to-video sin punteros explícitos es solo una vaga pista al modelo. Con punteros, le estás diciendo exactamente qué slot de entrada se mapea a qué idea en el prompt.

Referencias multiimagen: el patrón de lista de compras

El template recomendado de Volcengine para referencias multiimagen^[3]:

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

La guía oficial de Volcengine da este ejemplo compuesto para usar tres entradas de imagen para definir sujeto, atuendo y producto respectivamente^[3]:

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

versus la versión estructurada:

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Referencias de vídeo: acción, cámara, FX

El mismo patrón se aplica a entradas de vídeo^[3]. Volcengine documenta tres formas distintas de usar un vídeo de referencia:

Qué quieres del vídeo de referencia	Template de prompt
Tomar prestada la acción (movimiento, coreografía)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Tomar prestado el movimiento de cámara (dolly, órbita, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Tomar prestado el efecto VFX o partículas	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Referencias de audio y beat-sync

Un prompt beat-sync que funciona:

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

El modelo no está haciendo análisis de audio literal en cada hit de batería, pero produce consistentemente movimiento que se siente sincronizado con el audio fuente cuando le dices que lo haga.

Templates de prompts por mode

Text-to-video (T2V)

Patrón:

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Ejecútalo en seedance2.so/text-to-video cuando no tengas entradas de referencia.

Image-to-video (I2V), mode first-frame

Patrón:

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Prompt I2V malo:

A blonde woman in a red dress walks through a market.

(La imagen ya la muestra. Estás luchando contra el modelo.)

Prompt I2V bueno:

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-to-video (I2V), mode first+last-frame

Sube dos imágenes. El modelo interpola entre ellas y tu prompt describe el camino de transición. Esta es la forma más limpia de obtener un arco narrativo determinista en 5 segundos.

Patrón:

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Nota: las imágenes primera y última deben estar cerca de matched en relación de aspecto. El modelo auto-recorta la segunda para alinearse si difieren, pero recorte pesado degrada el resultado^[2].

Reference-to-video / referencia multimodal (R2V)

La estructura de template oficial^[3]:

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Ejemplo sacado de la guía oficial^[3]:

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Video editing a través de R2V

Volcengine trata el video editing (agregar / eliminar / modificar elementos) como un patrón de uso R2V, no un mode separado^[3]. Templates de la guía oficial:

Operación	Template
Agregar elemento	`In @video1, at <time/space position>, add <element description>.`
Eliminar elemento	`Delete <element> from @video1, keep everything else unchanged.`
Reemplazar elemento	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

La cola "keep motion and camera unchanged" está haciendo un trabajo importante, sin ella, el modelo a menudo regenera la escena de cero. Pruébalo en video editing.

Video extension (hacia adelante/atrás)

Mismo mecanismo R2V. Dos templates^[3]:

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

El modelo auto-recorta los fotogramas de costura de tu entrada, no regenera el original, y solo sintetiza la cola nueva o la cabeza. Presenta tu intención de extensión en video extension.

Track stitching (composición de 3 clips)

Si subes múltiples vídeos para stitching, la restricción es dura: máximo 3 entradas de vídeo, duración total ≤ 15 segundos^[3].

Template:

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Ejemplo trabajado de la guía oficial^[3]:

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

El modelo inventa solo los fotogramas de transición; los clips fuente permanecen intactos.

Lenguaje de cámara que Seedance 2.0 realmente entiende

Movimiento:

slow dolly forward (cámara física moviéndose hacia sujeto) supera zoom in (ajuste de lente) cada vez
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake para sensación documental
whip pan to <new subject> para transiciones snappy

Ángulo:

low angle looking up at subject hace que los sujetos se vean poderosos
overhead establishing shot para relaciones espaciales
dutch tilt para inquietud
extreme close-up on hands dirige atención a detalles
eye-level medium shot para framing de conversación neutral

Lente:

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

Descriptores de estilo e iluminación que realmente mueven la aguja

El estilo es donde el Bloque 2 de la fórmula gana su keep. Pocas categorías que vale la pena memorizar.

Color: desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / formato: 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Failure modes comunes y cómo arreglarlos

"La salida ignoró la mitad de mi prompt"

"La imagen de referencia fue dibujada encima"

"Se reúsa a generar con mi foto de referencia"

"El movimiento es entrecortado / el sujeto se transforma"

"El audio está fuera de sincronización con los elementos visuales"

Flujo de iteración que no quema créditos

Drafting en el tier rápido/básico primero. Mismo prompt, mismos parámetros, costo de crédito más bajo. Si la composición está mal en básico, también estará mal en alto, arréglalo antes de pagar por alto. Ver pricing para tasas de tier actuales.
Genera a 5 segundos primero, incluso si eventualmente quieres 15. Una prueba de 5 segundos cuesta un tercio de una ejecución de 15 segundos. Si el prompt se mantiene a 5, escala hacia arriba.
Una variable a la vez. No cambies el sujeto, la cámara y el estilo en un único re-roll. No sabrás qué cambio movió la aguja.
Guarda tus imágenes seed. Cuando un retrato generado por Seedream funciona como referencia, mantén esa imagen exacta, re-ejecutar el mismo prompt R2V con la misma referencia es lo más cercano a un re-roll determinista.
Usa el toggle de enhancement de prompt cuando empieces desde una idea sparse. El mode mejorado con web-search del estudio reescribe tu prompt con contexto recuperado antes de enviarlo al modelo^[4]. Útil para queries como "what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday", ya que el modelo ahora tiene contexto recuperado del que extraer.

Prompts multiidioma y cuándo cambiar

Diálogos localizados. Si el vídeo generado necesita personajes que hablan español o subtítulos coreanos, escribe la línea en el idioma destino directamente. No escribas inglés y pidas al modelo que "hable español", funciona, pero la calidad es peor que simplemente escribir la línea en español.
Especificidad cultural. Un prompt como "a typical Mexican breakfast on a wooden table" escrito en español (un desayuno mexicano típico sobre una mesa de madera) frecuentemente produce salida más culturalmente exacta que el equivalente en inglés. El ponderado de datos de entrenamiento difiere.

Preguntas frecuentes

¿Cuánto tiempo debería tener un prompt Seedance 2.0?

¿Soporta Seedance 2.0 prompts negativos?

¿Puedo referenciar 9 imágenes y 3 vídeos y 3 archivos de audio en el mismo prompt?

¿Por qué mi generación falla con "real face not allowed"?

¿Cuál es la diferencia entre Seedance 2.0 y Seedance 2.0 Fast para prompts?

¿Puedo escribir prompts en chino para salida en idioma inglés, o viceversa?

¿Importa el orden de los prompts dentro de una frase?

¿Hay una librería oficial de prompts Seedance 2.0?

Prompts que funcionan: el resumen

Referencias

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Recuperado en May 2026 de volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Recuperado en May 2026 de volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Recuperado en May 2026 de volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Recuperado en May 2026 de seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Recuperado en May 2026 de seedance2.so/pricing

Lectura adicional

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Todas las publicaciones

Autor

Seedance Team

Más publicaciones

Tutorial

Guía Seedance 2.0 gratis: qué funciona, qué no, y por qué

Opciones reales de Seedance 2.0 gratis en 2026: 3 créditos de regalo al registrarse, pruebas de terceros, y por qué todo sitio 'ilimitado gratis' es un fraude.

Seedance Team

2026/05/08

Tutorial

Cómo Crear Videos con IA desde Cero: La Guía Completa para Principiantes

Descubre cómo generar videos impresionantes usando generadores de IA sin experiencia en edición. Guía paso a paso con Seedance 2.0 y consejos de expertos.

Seedance Team

2026/03/15

Tutorial

IA Creador de Imágenes: Cómo Crear Imágenes Profesionales con Inteligencia Artificial en 2026

Aprende a usar un creador de imágenes con IA para generar fotos, ilustraciones y diseños profesionales en minutos. Guía paso a paso con ejemplos y consejos prácticos.

Seedance Team

2026/03/21