Zurück zur VidCraft-Hauptseite
VidCraft unterstützt zwei AI-Avatar-Plattformen mit gegensätzlichen Modellen:
| Aspekt | HeyGen | Synthesia |
|---|---|---|
| Modell | Scene-basiert | Slide-basiert |
| Hintergrund | 1 pro Szene | Pro Slide variabel |
| Char-Limit | ~5.000 / Szene (API) | ~1.000 / Slide |
| Sprachen | 40+ | 130+ |
| Avatare | 100+ Premium + Custom | 160+ + Custom |
| Stärke | Cinematic, Brand-Videos | Slide-Decks, Multi-Lingual |
| Skill | heygen-engineer |
synthesia-engineer |
Die plattform-spezifischen Constraints liegen versionierbar in
knowledge/platform-checklist.md. Skills referenzieren diese Datei statt Regeln zu duplizieren.
| Constraint | Detail |
|---|---|
| Ein Background pro Szene | Ein Bild, Video oder Color pro HeyGen-Szene. Mehrere Backgrounds = mehrere Szenen. |
| Keine Timed Text-Overlays | Overlays sind die ganze Szene sichtbar. Timed Overlays = Post-Production. |
| Max 5.000 Zeichen pro Szene | Hartes API-Limit. AI Studio auto-splittet bei ~1.000 Zeichen/Segment — kein manuelles Splitting für Länge nötig. Nur für Background- oder Avatar-Wechsel manuell splitten. |
| Max Szenen pro Video | Plan-abhängig, Limit checken. |
| Ein Avatar pro Szene | Keine Multi-Avatar-Szenen. |
Wichtig: Pause-Marker und SSML-Tags funktionieren nur mit Custom Voices (Voice Clones, ElevenLabs, OpenAI Voices). Die öffentliche HeyGen Voice Library ignoriert alle Pause-Syntax stillschweigend.
| Marker | HeyGen-Verhalten | Voraussetzung |
|---|---|---|
[pause 0.5s] |
0,5 Sekunden Pause | Nur Custom Voice |
[pause 1s] |
1 Sekunde Pause | Nur Custom Voice |
| Absatz-Bruch | ~0,5 Sekunden Pause (Default) | Alle Voices |
Fallback für Public Voices: Stattdessen Interpunktions-Pacing nutzen:
, → kurze Pause (~300ms). → längere Pause (~600ms) mit fallender Intonation- → Silben-Trennung für Aussprache-KlarheitEine Szene nur splitten wenn:
Das 5.000-Zeichen-API-Limit wird in der Praxis kaum erreicht. AI Studio auto-splittet lange Segmente bei ~1.000 Zeichen — kein manuelles Eingreifen für Länge nötig.
Beim Splitten:
Nicht in HeyGen machbar — muss in Shotcut/Kdenlive/Premiere:
Im Script markieren mit [post-production ...] Syntax.
Tonalität pro Szene über Emotion Presets oder Natural-Language-Prompts steuern (HeyGen AI Studio → Voice → Voice Director).
| Preset | Best For |
|---|---|
Casual |
Tutorials, Developer-Content |
Calm |
Support, Step-by-Step-Erklärungen |
Excited |
Produkt-Launches, CTAs |
Serious |
Compliance, autoritative Inhalte |
Cool |
Thought Leadership, Brand |
Freiformulierungs-Alternative: "Speak in a warm, encouraging tone." — als Natural-Language-Prompt setzen.
Voice Director immer explizit setzen; der Default-Neutral-Ton passt selten zum Inhalt.
HeyGen Avatar IV (Mai 2025) unterstützt Custom-Gesture-Steuerung über Natural-Language Motion Prompts.
Syntax: [Körperteil] + [Aktion] + [Emotion/Intensität]
"Right arm raises to wave enthusiastically."
"Nods gently to emphasize agreement."
"Points forward with confidence."
"Looks surprised and raises eyebrows."
"Avatar smiles softly while raising a hand."
Regeln:
HeyGen Template API unterstützt personalisierte Video-Generierung via {{variable_name}} Platzhalter.
Syntax im Script:
{{first_name}}, willkommen bei {{company_name}}!
Dein Plan: {{plan_name}} — verlängert sich am {{renewal_date}}.
| Variable-Typ | Use Case |
|---|---|
text |
Namen, Daten, Plan-Namen, beliebiger dynamischer Text |
image |
Logo, Produkt-Shot pro Empfänger |
video |
Personalisierter Intro-Clip |
audio |
Custom-Begrüßung |
avatar |
Unterschiedlicher Avatar pro Empfänger |
Naming Convention: immer {{snake_case}} — keine Leerzeichen, kein camelCase.
heygen_format_script erkennt {{variables}} automatisch und listet sie im Output. Alle Variablen im Script müssen in der HeyGen Template API deklariert werden, bevor generiert wird — nicht deklarierte Variablen erscheinen als wörtlicher {{variable_name}} Text auf dem Bild.
⚠️ Community-verifiziert — NICHT in der offiziellen HeyGen-Dokumentation. Funktioniert nur mit Custom Voice Clones, ElevenLabs, OpenAI Voices. Immer zuerst mit einer kurzen Szene testen, bevor auf das ganze Video angewendet.
<prosody rate="x-slow">...</prosody> <!-- x-slow, slow, medium, fast, x-fast -->
<prosody pitch="high">...</prosody> <!-- x-low, low, medium, high, x-high -->
<prosody volume="loud">...</prosody> <!-- silent, x-soft, soft, medium, loud, x-loud -->
<emphasis level="strong">...</emphasis> <!-- strong, moderate, reduced -->
<p>...</p> <!-- Absatz-Pause (~400-800ms) -->
<s>...</s> <!-- Satz-Pause (~200-400ms) -->
Nicht unterstützt: <phoneme>, <audio>, <lang> (teilweise).
<emphasis> statt GROSSBUCHSTABEN für Betonung verwenden — portabler, saubereres Script. Nur nutzen wenn der User explizit zustimmt; im Output immer den Community-Disclaimer mitliefern.
Jede Szene braucht:
/vidcraft:avatar-selector)---
scene_id: 01-hook
heygen_avatar: "Anna_Professional_Front"
voice: "de-DE-KatjaNeural"
voice_director: "Calm"
background: "office-modern.jpg"
avatar_position: "left"
speed: 1.0
motion_prompt: "Nods gently to emphasize agreement."
---
# Scene 01 — Hook
In den nächsten drei Minuten zeige ich dir, wie du das OXID-Gallery-Plugin
in unter zehn Minuten installierst und konfigurierst.
[pause 0.5s]
Bereit? Dann legen wir los.
| Constraint | Detail |
|---|---|
| Max ~1.000 Zeichen pro Slide | Slide-basiert, an Satzgrenze splitten. |
| Max Slides pro Video | 150 (PowerPoint-Import: ebenfalls 150 Slides). |
| Sprachen | 130+ unterstützt. |
| Slide-basierte Szenen-Struktur | 1 Szene entspricht typischerweise 1 Slide. |
Inline-Gesture-Tags im Script-Text einbetten, um Avatar-Animationen zu triggern:
[gesture:nod] — Nicken (Zustimmung)
[gesture:headyes] — Kopf zweimal rauf/runter
[gesture:headno] — Kopf links/rechts (Ablehnung)
[gesture:eyebrowsup] — Hochgezogene Augenbrauen (Überraschung/Betonung)
[gesture:increase] — Arm-Geste für Wachstum/Expansion
Beispiel: "Wir sehen [gesture:increase] riesiges Wachstum dieses Quartal."
Wichtig: Gesture Tags sind nur für Express-1 Avatare. Express-2 generiert Gesten automatisch — keine Gesture Tags in Express-2 Scripts einfügen.
Synthesia hat Express-2 veröffentlicht — ein Diffusion-Transformer-basiertes Modell, das Gesten und Ausdrücke grundlegend ändert.
| Feature | Express-1 | Express-2 |
|---|---|---|
| Gesten | Manueller [gesture:tag] Syntax |
Automatisch aus Script-Kontext |
| Ausdrücke | Sentiment-gesteuert | Full-Body Co-Speech Gesten |
| Körpersprache | Nur Oberkörper | Full-Body-Bewegung |
| Script-Anforderungen | Explizite Gesture Tags | Starke Verben + konkrete Aktionen |
Für Express-2 schreiben: Aktive, konkrete Sprache nutzen — passive/abstrakte Scripts erzeugen keine Gesten (Avatar wirkt steif). Beispiel: "Klick den Button" (gut) vs. "Der Button sollte geklickt werden" (steifer Avatar).
Jeder Synthesia-Slide braucht:
Split wenn über 1.000 Zeichen:
| Szenen-Typ | Empfohlenes Layout |
|---|---|
| Intro / Outro | Avatar zentriert, gebrandeter Background |
| Erklärung | Avatar links, Key Points rechts |
| Screencast | Screen Recording fullscreen, Avatar-Overlay in Ecke |
| Vergleich | Split-Screen, vorher/nachher |
| Zusammenfassung | Text-only mit Bullet-Points |
| CTA | Avatar mittig, CTA-Text-Overlay |
---
scene_id: 01-hook
synthesia_avatar: "Mia_Casual"
voice: "de-DE-Mia"
layout: "avatar-left-text-right"
background: "solid-color-#2563EB"
text_overlay: "OXID Gallery installieren"
media: ""
---
# Slide 01 — Hook
Du willst dein OXID-Shop um eine moderne Galerie-Funktion erweitern?
In den nächsten Minuten zeige ich dir, wie das geht.
Bei großen Projekten kann es sinnvoll sein, dieselben Episoden in beiden Plattformen zu rendern:
VidCraft macht das einfach: Source-Script bleibt gleich, nur die Engineer-Skills (heygen-engineer vs. synthesia-engineer) erzeugen plattform-spezifische Outputs.
Der Skill /vidcraft:avatar-selector empfiehlt Avatare basierend auf:
| Kriterium | Einfluss |
|---|---|
| Zielgruppe | Demografie, Branche, Alter, Sprache |
| Video-Typ | Tutorial = sachlich; Marketing = energetisch |
| Brand | Vorgegebene Personas, Voice-IDs |
| Sprache | Native-Voice-Match |
| Plattform | Plattform-spezifische Avatar-IDs |
| Avatar-Generation | Express-1 vs. Express-2 für Synthesia; Avatar IV für HeyGen |
Empfohlene Avatare für "OXID Gallery Tutorial" (HeyGen, DE):
1. Anna_Professional_Front (HeyGen Avatar IV)
- Persona: Sachlich, vertrauenswürdig
- Voice: de-DE-KatjaNeural
- Voice Director: Calm
- Best for: Tutorials, Trainings, B2B
- Motion Prompt Vorschlag: "Nods gently to emphasize agreement."
2. Marcus_Casual_Side (HeyGen)
- Persona: Locker, zugänglich
- Voice: de-DE-ConradNeural
- Voice Director: Casual
- Best for: Onboarding, How-To, Explainers
Empfehlung: Anna_Professional_Front
Begründung: Tutorial-Typ + technische Audience + B2B-Kontext.
Diese Verhalten sind in beiden Plattformen gleich:
validate_platform_limits (MCP Tool) prüft Scripts gegen die Constraints:
/vidcraft:pre-generation-check oxid-gallery-tutorial 01-installation
Output bei Verstoß:
❌ HeyGen Validation Failed
Scene 07: 2 Backgrounds detected
→ Background "office.jpg" UND "screen-recording.mp4"
→ Lösung: Szene splitten oder einen Background entfernen
Scene 12: Avatar-Switch innerhalb Szene
→ "Anna_Professional" → "Marcus_Casual"
→ Lösung: Szene splitten
⚠️ Gate 10: SSML Prosody Tags gefunden aber keine Custom Voice gesetzt
→ Prosody Tags erfordern eine Custom Voice (Clone, ElevenLabs, OpenAI)
⚠️ Gate 11: Nicht deklarierte Variablen: {{company_name}}, {{plan_name}}
→ Alle Variablen in HeyGen Template API deklarieren vor der Generierung