2026/05/07

Seedance 2.0 prompts : le guide complet de rédaction

Maîtrise les prompts Seedance 2.0 avec la formule officielle en trois parties, la syntaxe de référence multimodale (@image, @video, @audio) et les templates à la production.

La plupart des articles « prompts vidéo IA » que tu trouveras en ligne sont écrits par des gens qui tapent « cinematic shot of a wolf in the snow » et appellent ça un tutoriel. Ce n'est pas comme ça qu'on rédige les prompts Seedance 2.0 en pratique. Le modèle a une grammaire multimodale spécifique (@image1, @video2, @audio1, @character:<id>), et Volcengine, qui possède le modèle, propose un guide de prompts officiel structuré autour de cinq catégories distinctes^[1]. Si tes prompts ne respectent pas cette structure, tu vas brûler des crédits en relançant des générations imparfaites.

C'est le guide complet des prompts Seedance 2.0 que j'aurais voulu avoir au début. Il couvre la formule textuelle officielle, la syntaxe de référence qui contrôle les séries multi-images et multi-vidéos, les templates spécifiques à chaque mode pour les quatre chemins de génération réels (texte-vers-vidéo, image-vers-vidéo, référence-vers-vidéo, édition vidéo), et les pièges qui renvoient les débutants à la queue. Vérifié contre la spec API ByteDance/Volcengine et la configuration du studio live seedance2.so.

TL;DR

Les prompts Seedance 2.0 suivent une formule en trois parties : sujet + action, puis environnement / éclairage / style, puis indices caméra ou audio^[1].
Le modèle accepte jusqu'à 9 images de référence, 3 vidéos de référence et 3 fichiers audio dans une seule requête^[2]. Référence-les en ligne comme 图片1 / 视频2 / 音频1 (chinois) ou @image1 / @video2 / @audio1 (le raccourci seedance2.so)^[3].
Limite de longueur du prompt : ≤ 500 caractères chinois ou ≤ 1000 mots anglais. Tout ce qui dépasse dilue l'attention et le modèle commence à ignorer les détails^[2].
Seedance 2.0 supporte les prompts en anglais, chinois, japonais, indonésien, espagnol et portugais, les anciennes variantes Seedance ne supportent que l'anglais et le chinois^[2].
En amont il n'y a que trois modes réels : texte-vers-vidéo, image-vers-vidéo (première image ou première+dernière image), et référence multimodale. « Video edit » et « video extend » sont des patterns d'utilisation de référence-vers-vidéo, pas des modèles distincts^[2].
Seedance 2.0 refusera les références de vrais visages humains, il attend soit un portrait généré, soit un asset pré-autorisé, soit l'un des avatars virtuels fournis par la plateforme^[2].

La formule de prompt Seedance 2.0 en trois parties

Le guide de prompts officiel de Volcengine structure le prompt en trois blocs composables^[1]. Tu n'as pas besoin de remplir tous les blocs chaque fois, mais les empiler dans cet ordre donne au modèle le signal le plus clair.

Bloc 1 : sujet et action. Qui est dans la scène et ce qu'il fait. C'est l'ancrage logique. « Une femme » ne dit rien au modèle. « Une grande femme dans un long manteau gris charbon enjambant un pont de pierre mouillé » lui donne un sujet, une posture et un vecteur de mouvement.

Bloc 2 : environnement, éclairage, style. Où ça se passe, à quoi ressemble la lumière et le registre visuel. « Au crépuscule, les réverbères se reflètent sur les pavés mouillés, grade de couleur bleu-vert désaturé et ambre » fait du vrai travail. Saute ce bloc et le modèle bascule par défaut sur un plan moyen avec un éclairage neutre et zéro point de vue stylistique.

Bloc 3 : langage caméra et indices audio. Comment la caméra se déplace et ce qu'on entend. « Slow dolly en avant, faible profondeur de champ, piano ambiant en arrière-plan » transforme un plan générique en un plan réalisé. Seedance 2.0 génère l'audio natif avec du dialogue synchronisé labial en 8+ langues, donc les indices audio appartiennent au prompt, pas à l'après-coup.

Un prompt pur et simple en trois blocs :

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

C'est trois phrases et ça couvre tous les trois blocs. Le modèle a tout ce dont il a besoin.

Front-charge les mots à haut contenu informationnel

Seedance 2.0 lit de gauche à droite avec une attention décroissante. La première phrase porte le plus de poids, la seconde est remplie autour, et tout ce qui vient après la troisième est « des détails à utiliser s'il y a de la place ». Mets tes contraintes les plus dures, l'identité du sujet, l'action clé, la localisation primaire, dans la première phrase. Les raffinements stylistiques viennent plus tard.

Ce n'est pas une ambiance. C'est mappé sur la façon dont le modèle équilibre les tokens de prompt par rapport au budget d'attention selon les limites de longueur documentées (500 caractères chinois / 1000 mots anglais)^[2]. Au-delà du plafond, les prompts sont agressivement résumés en interne, et « résumé » signifie généralement perdre les détails qui comptaient pour toi.

Choisis un seul style et engage-toi

Mélanger « animation 3D Pixar, grain de film 35mm gritty, lavis aquarelle » dans un seul prompt est la façon la plus rapide d'obtenir de la bouillie visuelle. Le modèle doit réconcilier trois signaux esthétiques contradictoires et le résultat est généralement un défaut plat. Choisis un (disons, animation 3D Pixar ou film 35mm gritty, grain lourd ou lavis aquarelle lâche) et penche-toi dessus.

Pour le travail texte-vers-vidéo en particulier, la cohérence stylistique est ce qui sépare « réellement utilisable pour une campagne » de « amusant à regarder une fois ».

La syntaxe de référence que personne ne documente clairement

Voici la partie que la plupart des guides tiers se trompent. Le mode référence-vers-vidéo de Seedance 2.0 (Volcengine l'appelle 多模态参考生视频, « génération vidéo référence multimodale ») utilise un système de pointeur numérique explicite dans le prompt lui-même^[3].

La syntaxe officielle Volcengine est la numérotation entre crochets carrés chinois : 图片1, 图片2, ..., 图片9 pour les images ; 视频1, 视频2, 视频3 pour les vidéos^[3]. Sur seedance2.so, le studio expose un raccourci amical à l'anglais mappé sur le même contrat amont, @image1 à @image9, @video1 à @video3, et @audio1 à @audio3^[4]. Ils produisent des résultats identiques ; choisis celui qui te semble le plus clair.

Le point : référence-vers-vidéo sans pointeurs explicites n'est qu'un indice vague au modèle. Avec des pointeurs, tu lui dis exactement quel slot d'entrée correspond à quelle idée dans le prompt.

Références multi-images : le pattern de liste de courses

Le template recommandé par Volcengine pour les références multi-images^[3] :

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

Le mapping nombre-vers-entrée est positionnel. La première image que tu uploads est @image1, la seconde est @image2, et ainsi de suite. C'est non-négociable, il n'y a pas de champ « nom » sur les uploads, juste l'ordre. Si tu re-uploads la même image en seconde au lieu de la première, ta référence @image1 pointe maintenant sur une image différente et le prompt casse silencieusement.

Le guide officiel Volcengine donne cet exemple composé pour utiliser trois entrées d'image pour définir respectivement le sujet, la tenue et le produit^[3] :

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

par rapport à la version structurée :

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Les deux fonctionnent. La seconde donne une adhérence mesurément plus serrée aux images d'entrée. Si tu tiens à la fidélité commerciale, la photographie de produit, la continuité des personnages à travers les plans, utilise la forme avec pointeur explicite chaque fois.

Références vidéo : action, caméra, FX

Le même pattern s'applique aux entrées vidéo^[3]. Volcengine documente trois façons distinctes d'utiliser une vidéo de référence :

Ce que tu veux de la référence	Template de prompt
Emprunter l'action (mouvement, chorégraphie)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Emprunter le mouvement caméra (dolly, orbit, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Emprunter l'effet VFX ou particule	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

C'est véritablement un superpouvoir si tu produis une série. Tourne un clip de référence avec le mouvement caméra que tu veux, push-in handheld, orbit lisse, zoom de vertige, et réutilise-le sur dix variations de sujet et de cadre. Tu obtiens la continuité visuelle sans repromptage de la cinématographie.

Références audio et synchronisation au beat

Les entrées audio fonctionnent de la même façon : jusqu'à trois fichiers audio, référencés comme @audio1, @audio2, @audio3^[4]. L'utilisation la plus courante est la vidéo synchronisée au beat, épingle le mouvement généré à une piste musicale pour que les coupes et les mouvements atterrissent sur le downbeat.

Un prompt de synchronisation au beat qui fonctionne :

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

Le modèle ne fait pas une analyse audio littérale sur chaque coup de tambour, mais il produit systématiquement un mouvement qui semble synchronisé avec l'audio source quand tu le lui dis.

Templates de prompt mode par mode

Seedance 2.0 a trois modes de génération réels en amont, plus plusieurs patterns d'utilisation référence-vers-vidéo que l'API expose comme des workflows distincts^[2]. Voici comment les prompts diffèrent selon les modes.

Texte-vers-vidéo (T2V)

Le mode le plus simple. Seul ton prompt détermine la sortie. La formule complète en trois blocs porte toute la charge. Le ratio d'aspect (16:9, 9:16, 4:3, 3:4) et la durée (5, 10 ou 15 secondes) viennent des paramètres de requête, pas du prompt, ne gaspille pas de tokens à écrire « in 16:9 format »^[4].

Pattern :

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Lance-le sur seedance2.so/text-to-video quand tu n'as pas d'entrées de référence.

Image-vers-vidéo (I2V), mode première image

Tu uploads une image ; elle devient le cadre d'ouverture. Ton prompt ne décrit que le mouvement et la continuation, pas le sujet, puisque le sujet est déjà dans l'image. Re-décrire ce que l'image montre cause généralement au modèle de « redessiner » le sujet et de s'écarter de la source.

Pattern :

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Mauvais prompt I2V :

A blonde woman in a red dress walks through a market.

(L'image le montre déjà. Tu combats le modèle.)

Bon prompt I2V :

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-vers-vidéo (I2V), mode première+dernière image

Uploads deux images. Le modèle interpole entre elles et ton prompt décrit le chemin de transition. C'est la façon la plus nette d'obtenir un arc narratif déterministe en 5 secondes.

Pattern :

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Note : les images première et dernière devraient être proches en ratio d'aspect. Le modèle recadre automatiquement la seconde pour s'aligner si elles diffèrent, mais un recadrage lourd dégrade le résultat^[2].

Référence-vers-vidéo / référence multimodale (R2V)

C'est le mode vedette de Seedance 2.0 et celui qui justifie la majorité de ce guide. Tu peux mélanger images, vidéos et audio dans une seule requête, jusqu'à 9 + 3 + 3, et les tisser dans le prompt avec les pointeurs explicites couverts ci-dessus^[2].

La structure de template officielle^[3] :

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Exemple tiré du guide officiel^[3] :

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Cinq entrées d'image, cinq rôles explicites, une narration cohésive. Ce genre de prompt structuré est ce qui permet la référence-vers-vidéo à la qualité de production. Sans la discipline des pointeurs, le modèle devient vague et les éléments se brouillent.

Édition vidéo via R2V

Volcengine traite l'édition vidéo (ajouter / supprimer / modifier des éléments) comme un pattern d'utilisation R2V, pas un mode distinct^[3]. Templates du guide officiel :

Opération	Template
Ajouter un élément	`In @video1, at <time/space position>, add <element description>.`
Supprimer un élément	`Delete <element> from @video1, keep everything else unchanged.`
Remplacer un élément	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

La queue « keep motion and camera unchanged » fait un travail important, sans ça, le modèle régénère souvent la scène à partir de zéro. Essaie-le sur édition vidéo.

Extension vidéo (avant/arrière)

Même mécanisme R2V. Deux templates^[3] :

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

Le modèle auto-clips les images de couture de ton entrée, il ne régénère pas l'original, et synthétise uniquement la nouvelle queue ou la tête. Soumets ton intention d'extension sur extension vidéo.

Assemblage de piste (composition 3 clips)

Si tu uploads plusieurs vidéos pour l'assemblage, la contrainte est dure : maximum 3 entrées vidéo, durée totale ≤ 15 secondes^[3].

Template :

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Exemple fonctionnelle du guide officiel^[3] :

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

Le modèle invente seulement les images de transition ; les clips source restent intacts.

Langage caméra que Seedance 2.0 comprend réellement

Le modèle a été entraîné sur des descriptions de cinématographie, donc le vocabulaire de tournage professionnel surpasse le langage casual. Les termes ci-dessous sont ceux que j'ai vu produire une sortie fiable, tirés des séries de production sur seedance2.so et vérifiés croisés avec les exemples de référence Volcengine^[3].

Mouvement :

slow dolly forward (caméra physique se déplaçant vers le sujet) bat zoom in (ajustement d'objectif) chaque fois
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake pour une ambiance documentaire
whip pan to <new subject> pour des transitions snappy

Angle :

low angle looking up at subject rend les sujets puissants
overhead establishing shot pour les relations spatiales
dutch tilt pour le malaise
extreme close-up on hands dirige l'attention vers le détail
eye-level medium shot pour le cadrage neutre de conversation

Objectif :

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

Le pattern : utilise les mots qu'un vrai cinématographe utiliserait. « Cinematic » est trop vague ; « anamorphic 2.39:1, lens flare on highlights, shallow DoF at f/1.8 » est quelque chose sur lequel le modèle peut agir.

Descripteurs de style et d'éclairage qui bougent réellement l'aiguille

Le style est où le bloc 2 de la formule gagne son argent. Quelques catégories valant la peine d'être mémorisées.

Éclairage : golden hour, blue hour, harsh midday sun, soft window light, single key light from screen-left, practical neon underlighting, silhouette against sunset, volumetric god rays through fog.

Couleur : desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / format : 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Genre : Wes Anderson symmetry, pastel, David Fincher cool palette, low-key, Studio Ghibli watercolor backgrounds, '80s sci-fi, neon and chrome, noir, deep shadows, venetian blind patterns.

Plus ton descripteur est proche d'une référence cinématographique réelle ou de production, meilleur est le résultat. « Cinematic and dramatic » ne dit rien au modèle. « Roger Deakins golden hour, low contrast, subtle haze » lui dit beaucoup.

Pièges courants et comment les corriger

Après avoir examiné des centaines de générations sur seedance2.so et lu des rapports d'utilisateurs, les cinq mêmes pièges expliquent la plupart du feedback « c'est mauvais ». Voici le diagnostic.

« La sortie a ignoré la moitié de mon prompt »

Presque toujours un problème de longueur. Ton prompt est probablement au-delà du plafond (500 caractères chinois / 1000 mots anglais)^[2], ou tu as entassé trop d'idées en un seul essai. Règle du pouce : 1–2 sujets par prompt, 2–4 phrases au total. Si tu as besoin de trois sujets faisant trois choses différentes dans trois endroits, c'est trois générations distinctes assemblées en post-production, pas un prompt.

« L'image de référence a été dessinée par-dessus »

En mode I2V, tu as décrit ce qui était dans l'image au lieu de ce qui devrait se passer ensuite. Re-écris le prompt pour décrire seulement le mouvement, pas le sujet. En mode R2V, tu as oublié le pointeur @imageN explicite, donc le modèle a traité l'upload comme un indice esthétique vague au lieu d'une contrainte dure.

« Il refuse de générer avec ma photo de référence »

Seedance 2.0 n'accepte explicitement pas les références de vrais visages humains, les uploads avec des vrais visages humains détectables sont rejetées au niveau de la sécurité^[2]. Trois contournements : utilise un portrait généré Seedream d'une personne fictive comme référence, utilise l'un des avatars virtuels pré-configurés Volcengine, ou fournis une autorisation documentée pour la vraie personne dépictée. Il n'y a pas de basculement « désactiver ce filtre ».

« Le mouvement est saccadé / le sujet se transforme »

Tu as probablement été trop long. Génère à 5 secondes d'abord pour vérifier que le prompt se maintient, puis engage-toi sur 10 ou 15 secondes. La qualité à 15s est sensiblement différente de la qualité à 5s, pas parce que le modèle est pire, mais parce que plus de choses se passent, et toute ambiguïté du prompt s'amplifie sur 25–35 images par seconde de contenu supplémentaire.

« L'audio est désynchronisé avec les visuels »

Soit tu n'as pas référencé l'audio explicitement avec @audio1, soit ton prompt décrivait un rythme visuel qui contredit l'audio réel. Si l'audio est une piste 110 BPM et ton prompt dit « slow contemplative pacing », le modèle doit en choisir un. Dis-le explicitement : match cuts to the kick drum of @audio1 est sans ambiguïté.

Workflow d'itération qui ne brûle pas les crédits

Générer une vidéo Seedance 2.0 haute qualité de 10 secondes coûte environ 7 crédits par seconde sur le tier standard, environ 70 crédits par génération, ou environ $2,80 au taux d'entrée de crédit^[5]. Les générations gaspillées s'accumulent. Le workflow qui minimise le gaspillage :

Brouille d'abord sur le tier rapide/basique. Même prompt, mêmes paramètres, coût de crédit inférieur. Si la composition est mauvaise en basique, elle sera mauvaise en haute aussi, corrige avant de payer pour haute. Voir tarification pour les taux de tier actuels.
Génère à 5 secondes d'abord, même si tu veux en fin de compte 15. Un test de 5 secondes coûte un tiers d'une course de 15 secondes. Si le prompt se maintient à 5, monte.
Une variable à la fois. Ne change pas le sujet, la caméra et le style dans un seul re-roll. Tu ne sauras pas quel changement a bougé l'aiguille.
Garde tes images de seed. Quand un portrait généré Seedream fonctionne comme référence, garde cette image exacte, re-lancer le même prompt R2V avec la même référence est la chose la plus proche d'un re-roll déterministe.
Utilise le basculement d'amélioration de prompt au démarrage d'une idée clairsemée. Le mode amélioré par recherche web du studio réécrit ton prompt avec le contexte récupéré avant de l'envoyer au modèle^[4]. Utile pour des requêtes comme « what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday », puisque le modèle a maintenant du contexte récupéré sur lequel s'appuyer.

Prompts multilingues et quand basculer

Seedance 2.0 a été entraîné sur un corpus multilingue et supporte les prompts en anglais, chinois, japonais, indonésien, espagnol et portugais^[2]. Les anciennes variantes Seedance (1.5 Pro, 1.0 Pro) ne supportent que l'anglais et le chinois. Cela compte dans deux scénarios :

Dialogue localisé. Si la vidéo générée a besoin de personnages parlant espagnol ou de sous-titres coréens, écris le dialogue dans la langue cible directement. Ne écris en anglais et demande au modèle de « have them speak Spanish », ça fonctionne, mais la qualité est moins bonne que juste écrire la phrase en espagnol.
Spécificité culturelle. Un prompt comme « a typical Mexican breakfast on a wooden table » écrit en espagnol (un desayuno mexicano típico sobre una mesa de madera) produit fréquemment une sortie plus culturellement précise que l'équivalent anglais. La pondération des données d'entraînement diffère.

Pour tout le reste, l'anglais est le défaut et fonctionne bien. Les prompts chinois sont légèrement plus concis par token (≤ 500 caractères contre ≤ 1000 mots anglais) mais produisent une sortie équivalente.

FAQ

Quelle longueur devrait avoir un prompt Seedance 2.0 ?

Vise 2–4 phrases, environ 60–200 mots anglais. Le plafond dur est 1000 mots anglais / 500 caractères chinois^[2], mais tu vas atteindre des rendements décroissants bien avant ça. Au-delà d'~250 mots le modèle commence à compresser ton prompt en interne et tu perds les détails.

Seedance 2.0 supporte-t-il les prompts négatifs ?

Pas comme paramètre dédié. Il n'y a pas de champ « negative_prompt » dans le contrat API^[2]. Tu peux ajouter des contraintes en ligne, no on-screen text, no logos, no people in the background, et le modèle les honore avec une cohérence raisonnable. Ce n'est pas aussi déterministe qu'un vrai slot negative-prompt dans les modèles d'image comme Stable Diffusion, mais ça fonctionne.

Peux-je référencer 9 images et 3 vidéos et 3 fichiers audio dans le même prompt ?

Oui, c'est la charge R2V multimodale maximum : jusqu'à 9 images, 3 vidéos, 3 entrées audio dans une seule requête^[2]. L'API impose ces plafonds. Pratiquement, les prompts avec autant de références sont très difficiles à garder cohérents, la majorité du travail R2V de production utilise 2–5 références d'image et au maximum une référence vidéo ou audio.

Pourquoi ma génération échoue avec « real face not allowed » ?

Seedance 2.0 refusent les références contenant des vrais visages humains détectables^[2]. Utilise un portrait généré fictif, un avatar virtuel pré-autorisé, ou upload une autorisation explicite pour la vraie personne dépictée. La vérification s'exécute en amont au niveau du modèle, il n'y a pas de contournement au niveau de la plateforme.

Quelle est la différence entre Seedance 2.0 et Seedance 2.0 Fast pour les prompts ?

Même grammaire de prompt, même syntaxe de référence, mêmes plafonds de longueur. Fast est le tier de qualité basique à coût inférieur ; Preview est haute qualité. Un prompt qui fonctionne sur Fast fonctionne de manière identique sur Preview, juste à plus haute fidélité visuelle et environ 1,7× le coût de crédit sur la plupart des fournisseurs^[5]. Itère sur Fast, finalise sur Preview.

Peux-je écrire des prompts en chinois pour une sortie en anglais, ou vice versa ?

Oui. La langue du prompt et la langue de sortie sont indépendantes. Écris dans la langue dans laquelle tu penses le plus clairement, le modèle gère la traduction inter-langues en interne. L'exception est le texte et le dialogue à l'écran : ils apparaîtront dans la langue dans laquelle tu les as écrits.

L'ordre des prompts dans une phrase compte-t-il ?

Oui, matériellement. Les tokens antérieurs obtiennent plus de budget d'attention. Conduit avec les contraintes les plus dures (identité du sujet, action primaire, localisation clé) et laisse les raffinements stylistiques suivre. « A red sports car at sunset, cinematic » pousse le modèle à optimiser pour « red sports car » ; « Cinematic shot of a red sports car at sunset » pèse « cinematic shot » d'abord et la voiture devient secondaire.

Y a-t-il une bibliothèque de prompts Seedance 2.0 officielle ?

Volcengine expédie un guide de prompts officiel avec des exemples fonctionnels pour les slogans, sous-titres, dialogue de bulles, références multi-images, références d'action, références de mouvement caméra, références VFX et édition vidéo^[1]^[3]. C'est la source canonique. Le studio à seedance2.so/text-to-video mappe les mêmes patterns à une UI ; si tu peux exprimer la structure du prompt dans l'un ou l'autre, tu peux utiliser l'autre.

Prompts qui livrent : le récapitulatif

Bien rédiger les prompts Seedance 2.0 se résume à trois habitudes. Premièrement, suis la formule en trois blocs, sujet et action, puis environnement et style, puis indices caméra et audio, et front-charge tes contraintes les plus dures dans la première phrase. Deuxièmement, utilise la syntaxe de référence explicite (@image1 à @image9, @video1 à @video3, @audio1 à @audio3) chaque fois que tu as des entrées multimodales ; la différence entre référence vague et référence pointée est la différence entre « fonctionne en gros » et « livre ». Troisièmement, respecte les contraintes que le modèle documente, prompts de 2–4 phrases, 1–2 sujets, pas de vrais visages humains, longueur sous 1000 mots anglais, et itère à bas coût sur le tier Fast avant de commencer les crédits à Preview. Fais ces trois choses et tes prompts Seedance 2.0 produiront une sortie de qualité livrable le premier ou le deuxième roll, pas le cinquième ou le sixième.

Références

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

Lectures complémentaires

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Tous les articlés

Auteur

Seedance Team

Catégories

Prompts

TL;DR La formule de prompt Seedance 2.0 en trois parties Front-charge les mots à haut contenu informationnel Choisis un seul style et engage-toi La syntaxe de référence que personne ne documente clairement Références multi-images : le pattern de liste de courses Références vidéo : action, caméra, FX Références audio et synchronisation au beat Templates de prompt mode par mode Texte-vers-vidéo (T2V)Image-vers-vidéo (I2V), mode première image Image-vers-vidéo (I2V), mode première+dernière image Référence-vers-vidéo / référence multimodale (R2V)Édition vidéo via R2V Extension vidéo (avant/arrière)Assemblage de piste (composition 3 clips)Langage caméra que Seedance 2.0 comprend réellement Descripteurs de style et d'éclairage qui bougent réellement l'aiguille Pièges courants et comment les corriger « La sortie a ignoré la moitié de mon prompt »« L'image de référence a été dessinée par-dessus »« Il refuse de générer avec ma photo de référence »« Le mouvement est saccadé / le sujet se transforme »« L'audio est désynchronisé avec les visuels »Workflow d'itération qui ne brûle pas les crédits Prompts multilingues et quand basculer FAQ Quelle longueur devrait avoir un prompt Seedance 2.0 ?Seedance 2.0 supporte-t-il les prompts négatifs ?Peux-je référencer 9 images et 3 vidéos et 3 fichiers audio dans le même prompt ?Pourquoi ma génération échoue avec « real face not allowed » ?Quelle est la différence entre Seedance 2.0 et Seedance 2.0 Fast pour les prompts ?Peux-je écrire des prompts en chinois pour une sortie en anglais, ou vice versa ?L'ordre des prompts dans une phrase compte-t-il ?Y a-t-il une bibliothèque de prompts Seedance 2.0 officielle ?Prompts qui livrent : le récapitulatif Références Lectures complémentaires

Plus d'articlés

Tutorial

Fusionner Video : 5 Méthodes pour Combiner vos Clips (avec et sans IA)

Découvrez comment fusionner des vidéos facilement : outils en ligne, logiciels de bureau et IA. Comparatif, astuces et guide pas à pas pour assembler vos clips sans perte de qualité.

Seedance Team

2026/03/15

2026/05/07

Seedance 2.0 prompts : le guide complet de rédaction

Maîtrise les prompts Seedance 2.0 avec la formule officielle en trois parties, la syntaxe de référence multimodale (@image, @video, @audio) et les templates à la production.

TL;DR

Les prompts Seedance 2.0 suivent une formule en trois parties : sujet + action, puis environnement / éclairage / style, puis indices caméra ou audio^[1].
Le modèle accepte jusqu'à 9 images de référence, 3 vidéos de référence et 3 fichiers audio dans une seule requête^[2]. Référence-les en ligne comme 图片1 / 视频2 / 音频1 (chinois) ou @image1 / @video2 / @audio1 (le raccourci seedance2.so)^[3].
Limite de longueur du prompt : ≤ 500 caractères chinois ou ≤ 1000 mots anglais. Tout ce qui dépasse dilue l'attention et le modèle commence à ignorer les détails^[2].
Seedance 2.0 supporte les prompts en anglais, chinois, japonais, indonésien, espagnol et portugais, les anciennes variantes Seedance ne supportent que l'anglais et le chinois^[2].
En amont il n'y a que trois modes réels : texte-vers-vidéo, image-vers-vidéo (première image ou première+dernière image), et référence multimodale. « Video edit » et « video extend » sont des patterns d'utilisation de référence-vers-vidéo, pas des modèles distincts^[2].
Seedance 2.0 refusera les références de vrais visages humains, il attend soit un portrait généré, soit un asset pré-autorisé, soit l'un des avatars virtuels fournis par la plateforme^[2].

La formule de prompt Seedance 2.0 en trois parties

Un prompt pur et simple en trois blocs :

A tall woman in a charcoal coat strides across a rain-slick stone bridge.
Dusk light, streetlights reflecting on cobblestones, desaturated teal-and-amber grade.
Slow dolly forward following the subject. Distant traffic and soft rain on stone.

C'est trois phrases et ça couvre tous les trois blocs. Le modèle a tout ce dont il a besoin.

Front-charge les mots à haut contenu informationnel

Choisis un seul style et engage-toi

Pour le travail texte-vers-vidéo en particulier, la cohérence stylistique est ce qui sépare « réellement utilisable pour une campagne » de « amusant à regarder une fois ».

La syntaxe de référence que personne ne documente clairement

Références multi-images : le pattern de liste de courses

Le template recommandé par Volcengine pour les références multi-images^[3] :

Reference @image1, @image2, @image3 (the camera), put it on a white desk.
Slowly orbit the camera, showing front, side, and back. White seamless backdrop.

Le guide officiel Volcengine donne cet exemple composé pour utiliser trois entrées d'image pour définir respectivement le sujet, la tenue et le produit^[3] :

A boy wearing glasses and a blue T-shirt next to a corgi puppy, sitting on a lawn,
3D cartoon style.

par rapport à la version structurée :

[image 1] a boy wearing glasses and a blue T-shirt and [image 2] the corgi puppy,
sitting on [image 3] the lawn, 3D cartoon style.

Références vidéo : action, caméra, FX

Le même pattern s'applique aux entrées vidéo^[3]. Volcengine documente trois façons distinctes d'utiliser une vidéo de référence :

Ce que tu veux de la référence	Template de prompt
Emprunter l'action (mouvement, chorégraphie)	`Reference the action in @video1, generate <new scene description>, keep action details consistent.`
Emprunter le mouvement caméra (dolly, orbit, push-in)	`Reference the camera language in @video1, generate <new scene description>, keep the camera move consistent.`
Emprunter l'effet VFX ou particule	`Reference the gold particle effect in @video1, apply the same effect to <subject in image2>.`

Références audio et synchronisation au beat

Un prompt de synchronisation au beat qui fonctionne :

Reference the rhythm of @audio1. A skateboarder cuts through a Tokyo alley at night,
neon reflections in puddles. Camera tracks alongside at hip height. Each turn lands
on the kick drum. Dynamic editing, fast cuts on the beat.

Le modèle ne fait pas une analyse audio littérale sur chaque coup de tambour, mais il produit systématiquement un mouvement qui semble synchronisé avec l'audio source quand tu le lui dis.

Templates de prompt mode par mode

Texte-vers-vidéo (T2V)

Pattern :

<Subject + action, one sentence>.
<Environment + lighting + style, one sentence>.
<Camera move + audio cue, one sentence>.

Lance-le sur seedance2.so/text-to-video quand tu n'as pas d'entrées de référence.

Image-vers-vidéo (I2V), mode première image

Pattern :

<Animation cue: how should the subject move?>
<Camera cue: how should the camera move?>
<Atmosphere cue: ambient sound, light shifts.>

Mauvais prompt I2V :

A blonde woman in a red dress walks through a market.

(L'image le montre déjà. Tu combats le modèle.)

Bon prompt I2V :

She turns slowly toward the camera and lifts her hand to brush hair from her face.
Slow dolly in. Distant market chatter, soft afternoon breeze.

Image-vers-vidéo (I2V), mode première+dernière image

Uploads deux images. Le modèle interpole entre elles et ton prompt décrit le chemin de transition. C'est la façon la plus nette d'obtenir un arc narratif déterministe en 5 secondes.

Pattern :

Transition from <description of first frame> to <description of last frame>.
<Movement style during transition: smooth, snappy, dreamy.>
<Camera cue.>

Référence-vers-vidéo / référence multimodale (R2V)

La structure de template officielle^[3] :

Reference / extract / combine + [图片n / @imageN] of <referenced element>,
generate <full scene description>, keep <referenced element> consistent.

Exemple tiré du guide officiel^[3] :

The scene is set inside @image4 (the restaurant). The girl from @image1 is wearing
the outfit from @image2 and tidying items at the counter. The boy from @image3 is
a customer who walks up to ask for her contact. The logo from @image5 stays in the
bottom-right corner throughout.

Édition vidéo via R2V

Volcengine traite l'édition vidéo (ajouter / supprimer / modifier des éléments) comme un pattern d'utilisation R2V, pas un mode distinct^[3]. Templates du guide officiel :

Opération	Template
Ajouter un élément	`In @video1, at <time/space position>, add <element description>.`
Supprimer un élément	`Delete <element> from @video1, keep everything else unchanged.`
Remplacer un élément	`Replace <original> in @video1 with <new>, keep motion and camera unchanged.`

La queue « keep motion and camera unchanged » fait un travail important, sans ça, le modèle régénère souvent la scène à partir de zéro. Essaie-le sur édition vidéo.

Extension vidéo (avant/arrière)

Même mécanisme R2V. Deux templates^[3] :

Extend @video1 backward + <description of pre-segment>.
Extend @video1 forward + <description of post-segment>.

Assemblage de piste (composition 3 clips)

Si tu uploads plusieurs vidéos pour l'assemblage, la contrainte est dure : maximum 3 entrées vidéo, durée totale ≤ 15 secondes^[3].

Template :

@video1 + <transition description> + connects to @video2 + <transition description>
+ connects to @video3.

Exemple fonctionnelle du guide officiel^[3] :

@video1, the moment a leaf hits the ground, gold particles burst, a gust of wind
blows through, connects to @video2.

Le modèle invente seulement les images de transition ; les clips source restent intacts.

Langage caméra que Seedance 2.0 comprend réellement

Mouvement :

slow dolly forward (caméra physique se déplaçant vers le sujet) bat zoom in (ajustement d'objectif) chaque fois
tracking shot following subject from left to right
orbiting around subject at eye level
crane shot ascending over <location>
steady push-in toward <subject>
handheld, slight shake pour une ambiance documentaire
whip pan to <new subject> pour des transitions snappy

Angle :

low angle looking up at subject rend les sujets puissants
overhead establishing shot pour les relations spatiales
dutch tilt pour le malaise
extreme close-up on hands dirige l'attention vers le détail
eye-level medium shot pour le cadrage neutre de conversation

Objectif :

shallow depth of field, subject in focus, background blurred
rack focus from foreground object to subject
anamorphic lens flare
wide-angle distortion at the edges

Descripteurs de style et d'éclairage qui bougent réellement l'aiguille

Le style est où le bloc 2 de la formule gagne son argent. Quelques catégories valant la peine d'être mémorisées.

Couleur : desaturated teal-and-amber grade, high-contrast monochrome, pastel washed-out palette, saturated tropical color, cool moonlit blues, warm tungsten interiors.

Stock / format : 35mm film, fine grain, 16mm film, heavy grain, digital cinema, clean, VHS, scan lines, color bleed, super-8 home movie, polaroid faded edges.

Brouille d'abord sur le tier rapide/basique. Même prompt, mêmes paramètres, coût de crédit inférieur. Si la composition est mauvaise en basique, elle sera mauvaise en haute aussi, corrige avant de payer pour haute. Voir tarification pour les taux de tier actuels.
Génère à 5 secondes d'abord, même si tu veux en fin de compte 15. Un test de 5 secondes coûte un tiers d'une course de 15 secondes. Si le prompt se maintient à 5, monte.
Une variable à la fois. Ne change pas le sujet, la caméra et le style dans un seul re-roll. Tu ne sauras pas quel changement a bougé l'aiguille.
Garde tes images de seed. Quand un portrait généré Seedream fonctionne comme référence, garde cette image exacte, re-lancer le même prompt R2V avec la même référence est la chose la plus proche d'un re-roll déterministe.
Utilise le basculement d'amélioration de prompt au démarrage d'une idée clairsemée. Le mode amélioré par recherche web du studio réécrit ton prompt avec le contexte récupéré avant de l'envoyer au modèle^[4]. Utile pour des requêtes comme « what does an authentic Seoul jjajangmyeon shop interior look like at 11pm on a weekday », puisque le modèle a maintenant du contexte récupéré sur lequel s'appuyer.

Prompts multilingues et quand basculer

Dialogue localisé. Si la vidéo générée a besoin de personnages parlant espagnol ou de sous-titres coréens, écris le dialogue dans la langue cible directement. Ne écris en anglais et demande au modèle de « have them speak Spanish », ça fonctionne, mais la qualité est moins bonne que juste écrire la phrase en espagnol.
Spécificité culturelle. Un prompt comme « a typical Mexican breakfast on a wooden table » écrit en espagnol (un desayuno mexicano típico sobre una mesa de madera) produit fréquemment une sortie plus culturellement précise que l'équivalent anglais. La pondération des données d'entraînement diffère.

Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Section 1: 总体要领. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Volcengine ArkClaw. 创建视频生成任务 API, Seedance 2.0 model capability spec, prompt language and length, input limits. Retrieved May 2026 from volcengine.com/docs/82379/1520757
Volcengine ArkClaw. Doubao Seedance 2.0 系列提示词指南, Sections 3–5: image / video reference and editing templates. Retrieved May 2026 from volcengine.com/docs/82379/2222480
Seedance2.so. Studio reference syntax and parameter helpText for omni-reference generation. Retrieved May 2026 from seedance2.so/reference-to-video
Seedance2.so. Pricing and credit-per-second rates by tier. Retrieved May 2026 from seedance2.so/pricing

Lectures complémentaires

BytePlus ModelArk. Product updates, Dreamina Seedance 2.0 API release. docs.byteplus.com/en/docs/ModelArk
ByteDance Seed. Seedance technical report and benchmark results. seed.bytedance.com/seedance

Tous les articlés

Auteur

Seedance Team

Plus d'articlés

Tutorial

Fusionner Video : 5 Méthodes pour Combiner vos Clips (avec et sans IA)

Découvrez comment fusionner des vidéos facilement : outils en ligne, logiciels de bureau et IA. Comparatif, astuces et guide pas à pas pour assembler vos clips sans perte de qualité.

Seedance Team

2026/03/15