Unser Erfahrungsbericht mit HeyGen
Hattest Du schon einmal dieses Problem?
Du nimmst ein Video für Social Media, für Deine Website, für Kund:innen oder für einen Onlinekurs auf. Alles scheint fertig – und dann passt doch etwas nicht: ein Versprecher, eine Formulierung, eine Folie – oder auch schön: die Kamera hat nicht richtig aufgenommen.
Also noch einmal von vorn. Das kostet Zeit, Geld und Nerven.
Genau das ist für uns ein reales Thema. Bei KIRevolution produzieren wir regelmäßig Onlinekurse und kurze Erklärvideos rund um Künstliche Intelligenz im Marketing. Weil sich KI-Tools laufend weiterentwickeln, müssen Inhalte immer wieder angepasst und aktualisiert werden. Der klassische Aufnahmeprozess kostet dafür viel Zeit: Kamera aufbauen, Beleuchtung einstellen, Ton prüfen, mehrere Takes aufnehmen. Schminken. Das ganze Programm.
Da lag für uns bei KiRevolution eine naheliegende Frage auf der Hand: Könnte nicht auch diese Aufgabe eine KI übernehmen?
Immerhin schulen wir in unseren KI-Masterclasses den Einstieg mit solchen Tools.
Tools wie HeyGen, Synthesia, D-ID, Elai, Colossyan oder VEED erstellen Videos automatisch aus Text. Gerade für Erklärvideos und skalierbaren Content wirkt das zunächst sehr attraktiv:
- keine extra Aufnahmen mit dem exakten Text nötig
- Inhalte lassen sich schneller anpassen
- mehrere Sprachen sind leichter umsetzen
- der Produktionsaufwand sinkt … theoretisch
Für genau unseren Anwendungsfall wollten Maryna und ich deshalb wissen: Funktioniert das wirklich auch für Business-Anwendungen und nicht nur als Spielerei?
Wir haben HeyGen Pro, also die Bezahlversion, einen Monat lang getestet – hier sind unsere Ergebnisse. Weiter unten findest Du praktische Lifehacks aus diesem Test.
Beispielvideo: KI-Avatar im Einsatz – gut, aber nicht perfekt
Unser Use Case:
ein kurzer KI-Pflichtschulungs-Crashkurs mit fünf kurzen Videoeinheiten – präsentiert von meinem eigenen KI-Zwilling.
Warum Heygen
Weil dieses Tool in der kostenlosen Version, die wir in unseren offenen Masterclasses nutzen, erstaunlich gute, vor allem natürlich wirkende Ergebnisse zeigte.
Meiner Workflow sah so aus:
1. Skript schreiben
Wie bei jeder Videoaufnahme beginnt alles mit einem klaren Skript. Struktur und Formulierungen sind entscheidend, damit die KI später natürlich klingt.
2. KI-Avatar erstellen
Mit unserem Plan konnten wir in HeyGen einen Custom Digital Twin anlegen. Dafür habe ich rund fünf Minuten Videomaterial von mir aufgenommen und der Nutzung meines Avatars zugestimmt. Mit diesem KI-Zwilling dürfte ich dann insgesamt rund 30 Minuten Videomaterial erstellen.
3. Stimme optimieren
Weil meine synthetische Stimme in HeyGen für uns noch nicht natürlich genug klang, haben wir dann zusätzlich noch einen ElevenLabs Creator Plan gebucht. Dieser Plan enthält Professional Voice Cloning. Ich habe dort meine eigene Stimmenkopie noch einmal angelegt und dafür rund zwei Stunden Sprachmaterial von mir als Referenz hochgeladen. Danach habe ich die Stimme per API mit HeyGen verbunden. Dafür benötigt man übrigens keine Codierungsfähigkeiten. Das geht relativ einfach.
4. Video generieren
Der Prozess läuft im Prinzip so: Bei HeyGen KI-Zwilling auswählen > Text einfügen > Stimmenklon aus ElevenLabs auswählen > optimieren > Video generieren.
Auf dem Papier wirkt das nach einer sehr schnellen Lösung. Und die Tests in der kostenlosen Version von HeyGen sind ja auch super.
Rund 40 US-Dollar. Ein Monat Testzeit. Und hat es sich gelohnt? Jein.
Sind die Ergebnisse gut? Naja, gut, aber nicht perfekt.
Denn in der Praxis kamen die ersten Herausforderungen schnell.
Die Videos lassen sich zwar technisch zügig erzeugen, aber man erkennt noch sehr deutlich, dass sie KI-generiert sind:
- Lippenbewegungen wirken teilweise unnatürlich
- Betonungen stimmen nicht immer
- Fachbegriffe werden falsch ausgesprochen – und zwar egal, was man macht
- Das Video wirkt weniger persönlich als eine echte Aufnahme
Vergleich: Echtes Video vs. KI-Avatar
Wenn Dich der Onlinekurs interessiert, den Prof. Claudia in den Videos anteasert, klickst Du hier: KI-Pflichtschulung.
Auch wenn das KI-Ergebnis nicht perfekt war, haben wir aus dem Test viel gelernt:
1) Deutsch ist für viele Tools noch schwieriger Englische Stimmen funktionieren deutlich stabiler
Im Deutschen entstehen häufiger Betonungs- und Aussprachefehler – besonders bei Abkürzungen wie „KI“ oder Begriffen wie „EU-AI-Act“.
2) Textänderungen erzeugen neue Stimmen
Sobald ein Text geändert wird, generiert die KI die Stimme komplett neu. Wenn Dir eine Version gefällt, solltest Du das Video deshalb direkt exportieren.
3) Externe Stimmen sind nicht immer besser
Die Integration von ElevenLabs hat mein „Stimmen-Problem“ nicht wirklich gelöst, weil die Ergebnisse nicht deutlich besser waren. Gleichzeitig wurden bei jeder Textanpassung neue Sprachversionen erzeugt, und damit waren unsere ElevenLabs-Credits schnell aufgebraucht. Sodass wir letztendlich die optimierte Stimme von ElenvenLabs gar nicht nutzen konnten.
4) Voice-Einstellungen sind entscheidend für ein natürlich wirkendes Ergebnis
In HeyGen haben Einstellungen wie Stabilität, Ausdruck oder Pausen spürbaren Einfluss auf die Qualität. Hilfreich fand ich auch Funktionen wie Voice Doctor und Voice Mirroring, weil sich damit Stimme und Betonung oft noch etwas natürlicher anpassen lassen.
Die Kosten
Wir haben für den Test zwei kostenpflichtige Tools gebucht:
- HeyGen Creator für 1 Monat: 29 US-Dollar. Enthalten sind unter anderem 1 Custom Digital Twin und Videos bis 30 Minuten Länge.
- ElevenLabs Creator für 1 Monat: regulär 22 US-Dollar, aktuell im ersten Monat 50 % günstiger, also 11 US-Dollar. Enthalten sind Professional Voice Cloning und 100.000 Credits pro Monat.
Unsere Lifehacks für bessere KI-Videos
Lifehack 1: Skripte wie gesprochene Sprache schreiben
KI-Avatare funktionieren deutlich besser mit gesprochenem Stil als mit „geschriebenem Deutsch“. Schreibe so, wie Du sprichst: kurze Sätze, einfache Struktur, möglichst wenige Abkürzungen.
Beispiel: Statt „Im Folgenden erläutern wir die Implementierung“ besser: „Ich zeige Dir jetzt Schritt für Schritt, wie das funktioniert.“
Lifehack 2: Pausen bewusst einbauen
Die KI orientiert sich stark an Zeichensetzung und Struktur. Wenn Du eine Pause möchtest, baue sie aktiv ein, mit „…“, durch einen Absatz oder am besten direkt mit der eingebauten Pause-Funktion in HeyGen.
Beispiel: „Das ist wichtig … weil sich hier die Qualität entscheidet.“
Oder in HeyGen mit Pause-Tag: „Das ist wichtig <break time=“0.5s“ /> weil sich hier die Qualität entscheidet.“
So wirkt die Betonung oft deutlich natürlicher und kontrollierter.
Lifehack 3: Kurze Videos produzieren
Die stabilsten Ergebnisse hatten wir bei Videos bis maximal 60 Sekunden. Ab ca. 1–2 Minuten steigt das Risiko für Fehler (Sprünge, Betonung, Lippenbewegung).
Tipp: Lieber mehrere kurze Clips (Microlearning) statt ein langes Video.
Lifehack 4: Voice-Einstellungen aktiv nutzen
Die Qualität hängt stark von den Einstellungen ab, nicht vom Tool allein.
Bewährt haben sich bei uns:
- Stability: eher niedrig bis mittel (ca. 30–50), damit die Stimme nicht zu monoton wird
- Similarity: hoch (ca. 70–90), damit die Stimme nah an Deiner echten Stimme bleibt
- Speed: leicht langsamer als Standard für bessere Verständlichkeit
- Style Exaggeration: niedrig, sonst wirkt es schnell unnatürlich
Zusätzlich hilfreich:
- Voice Doctor für klarere Audioqualität
- Voice Mirroring, wenn Du eine Referenzaufnahme hast
Lifehack 5: Mehrere Avatar-Looks anlegen
In HeyGen kann ein Avatar mehrere Looks haben. Das ist nicht nur für Abwechslung hilfreich, sondern vor allem fürs Training: Je mehr unterschiedliche Aufnahmen Du von Dir nutzt, desto besser kann die KI Mimik, Lippenbewegungen und Ausdruck lernen.
Zusätzlich kannst Du bei mehreren Videos zwischen den Looks wechseln, damit der Avatar nicht immer identisch wirkt (z. B. leicht andere Perspektive oder Kleidung).
Praxis-Tipp: Nimm mehrere kurze Trainingsvideos mit leicht unterschiedlichen Einstellungen auf – das gibt der KI mehr Material und macht den Avatar stabiler.
Lifehack 6: Nur aufnehmen, wenn Du wirklich fit klingst
Die KI übernimmt Deine Stimme – inklusive Energielevel. Wenn Du müde klingst, klingt auch der Avatar müde.
Deshalb: Referenzaufnahmen immer in guter, klarer und konzentrierter Stimmung machen.
Lifehack 7: KI-Inhalte offen kennzeichnen
KI-generierte Inhalte sollten klar gekennzeichnet werden. Das schafft Vertrauen – und wird mit dem EU-AI-Act ohnehin wichtiger.
Beispiel: „Dieses Video wurde mit einem KI-Avatar erstellt.“ oder „Ich bin ein KI-Avatar von Prof. Dr. Claudia“
So kennzeichnen wir KI-generierte Inhalte
Unser Fazit:
KI-Avatar-Videos sind interessant. Aber nach meinem Test ist für mich auch klar: Die Technologie ist noch nicht so weit, dass sie echte Aufnahmen von einem echten Menschen (hier Prof. Claudia) in Onlinekursen einfach ersetzt.
Für Microlearning, kurze Erklärvideos, Social-Media-Clips oder internationale Versionen, oder eben mit einem wirklich künstlichen Avatar, der kein echte Person nachahmt, kann das gut funktionieren. Für komplette Onlinekurse war der Aufwand in unserem Fall aber noch zu hoch – und die Qualität nicht stabil genug.
Oder anders gesagt: KI ersetzt nicht die Expertise der Person vor dem Rechner.
Denn gute KI-Videos entstehen nicht auf Knopfdruck. Sie brauchen klare Skripte, eine saubere Struktur, Erfahrung mit Storytelling und ein gutes Gespür dafür, wie Mensch und Maschine sinnvoll zusammenspielen.
Genau das trainieren wir auch in unseren KI-Masterclasses vor Ort.
Dort zeigen wir praxisnah, wie sich KI-Tools für Recherche, Content-Erstellung Bild- und Videogenerierung sinnvoll einsetzen lassen – Schritt für Schritt und direkt anwendbar im Arbeitsalltag. Und wir zeigen auch, was noch nicht funktioniert. Damit Ihr Eure Zeit damit nicht verschwendet.
Die nächsten beiden Termine: 13. Juni und 19. September
Und wenn Videogenerierung mit KI für Dein Unternehmen ein konkreter Use Case ist, können wir das Thema auch gezielt in einer Inhouse-Schulung vertiefen – praxisnah, mit passenden Tools und direkt bezogen auf Eure Inhalte. Dann lass uns sprechen – die Erstberatung ist kostenlos. Einfach eine Mail senden an FuerDichDa@KIRevolution.com
Berlin, 23.3.2026, Maryna Dovhal und Prof. Dr. Claudia Bünte