Es war ein Dienstagvormittag, als mich ein aufgelöster Marketingleiter anrief. Er hatte gerade 12.000 Euro für eine KI-gestützte Voiceover-Kampagne verbrannt. Das Team hatte Wochen damit verbracht, Skripte zu schreiben, die auf dem Papier perfekt aussahen. Aber als die synthetischen Stimmen die ersten Entwürfe ausspuckten, klang es wie ein Roboter, der versucht, eine Beerdigungsrede in einer Achterbahn zu halten. Die Intonation war völlig daneben, die Pausen saßen an den falschen Stellen und die emotionale Wirkung war gleich null. Das Problem war simpel: Sie hatten das Konzept von What It Sounds Like Text völlig ignoriert. Sie dachten, ein guter Text für das Auge sei automatisch ein guter Text für das Ohr. Ein teurer Irrtum, den ich in den letzten Jahren immer wieder beobachtet habe. Wer Audio-Inhalte produziert, ohne die akustische Dynamik der Sprache zu verstehen, produziert Elektroschrott.
Der fatale Glaube an die Schriftsprache beim What It Sounds Like Text
Der häufigste Fehler, den ich sehe, ist das Kopieren von Blogposts oder Whitepapern in ein Text-to-Speech-Tool oder das direkte Übergeben an einen Sprecher. In der Schriftsprache nutzen wir Schachtelsätze, Partizipialkonstruktionen und eine präzise, aber oft leblose Grammatik. Wenn das jemand vorliest, geht dem Hörer nach zehn Sekunden die Puste aus – und dem Sprecher physisch auch.
Ein Text, der für das Ohr bestimmt ist, muss atmen. Ich habe Projekte scheitern sehen, weil die Sätze im Schnitt 25 Wörter lang waren. Das menschliche Gehirn kann akustisch verarbeitete Informationen nicht so einfach "zurückspulen" wie beim Lesen. Wenn du also versuchst, komplexe Sachverhalte in juristischer Präzision zu formulieren, schalten die Leute ab. Die Lösung ist radikal: Schreib so, wie du an der Bar erzählst, nicht wie du eine Hausarbeit verfasst. Kurze Sätze. Aktive Verben. Keine Nominalstile. Wenn du „die Realisierung der Prozessoptimierung“ schreibst, hast du schon verloren. Sag einfach: „Wir machen den Ablauf schneller.“
Das unterschätzte Problem der phonetischen Stolperfallen
Ich erinnere mich an eine Kampagne für ein deutsches Pharmaunternehmen. Sie hatten ein Skript mit Fachbegriffen gefüllt, die zwar fachlich korrekt waren, aber akustisch wie ein Zungenbrecher-Wettbewerb klangen. Der Sprecher brauchte 40 Takes für einen einzigen Absatz. Das kostet Zeit, Nerven und im Studio bares Geld.
Viele unterschätzen, dass bestimmte Buchstabenkombinationen in der Audio-Produktion zischen oder knallen. S-Laute (Sibilanten) und P- oder B-Laute (Plosive) können ein Mikrofon oder eine KI-Stimme an den Rand des Wahnsinns treiben. Wer diese Strategie der akustischen Optimierung ignoriert, bekommt am Ende eine Aufnahme, die unangenehm in den Ohren sticht. Profis lesen sich ihre Texte laut vor, bevor sie das Studio buchen. Wenn du über deine eigenen Worte stolperst, wird es jeder andere auch tun. Das ist kein theoretisches Problem, sondern ein technisches. Ein „S“ zu viel und deine ganze Kompression im Audio-Schnitt fliegt dir um die Ohren.
Warum Interpunktion im What It Sounds Like Text anders funktioniert
Ein Punkt am Ende eines Satzes ist in einem Buch ein Satzende. In einem Skript ist er ein Regiehinweis für eine Pause und ein Absinken der Stimme. Viele Schreiber setzen Kommas nach den Regeln der Dudengrammatik. Das ist löblich, aber für Audio oft tödlich. Ich habe gelernt, dass man in Skripten „falsche“ Kommas setzen muss, um dem Sprecher oder der KI zu sagen, wo eine kurze Atempause hingehört.
Rhythmus schlägt Grammatik
Im Audio-Bereich ist der Rhythmus alles. Ein guter Sprecher braucht Führung durch das Schriftbild. Wenn ich Skripte für Kunden überarbeite, lösche ich oft die Hälfte der Nebensätze. Ich ersetze Semikolons durch harte Punkte. Ich baue Bindestriche ein, um Pausen zu erzwingen. Es geht darum, eine Melodie zu erzeugen. Wenn der Text keinen Groove hat, wird die Botschaft nicht hängen bleiben. Das ist reine Psychophysik: Unser Gehör ist darauf programmiert, Mustern zu folgen. Fehlen diese Muster, wandert die Aufmerksamkeit ab.
Der Vorher-Nachher-Check einer gescheiterten Audio-Botschaft
Schauen wir uns ein konkretes Beispiel aus meiner Praxis an. Ein Software-Anbieter wollte seine neue App vorstellen.
Der ursprüngliche Ansatz: „Unsere Applikation ermöglicht es den Anwendern, durch eine intuitive Benutzeroberfläche und die Implementierung modernster Algorithmen, ihre täglichen Aufgaben in einer wesentlich kürzeren Zeitspanne als bisher üblich zu bewältigen, was zu einer signifikanten Steigerung der Gesamteffizienz führt.“
Das ist ein Albtraum. Der Sprecher muss nach „Algorithmen“ Luft holen, verliert den roten Faden und der Hörer hat am Ende des Satzes vergessen, wie er angefangen hat. Es klingt hölzern, distanziert und langweilig.
Der korrigierte Ansatz nach meiner Überarbeitung: „Stellen Sie sich vor, Sie schaffen Ihre Arbeit in der halben Zeit. Unsere App macht genau das möglich. Wir haben die Bedienung so einfach gebaut, dass Sie sofort loslegen können. Kein langes Suchen, kein Stress. Sie sparen Zeit – jeden Tag.“
Der Unterschied ist massiv. Der zweite Text hat Tempo. Er hat Pausen eingebaut. Er spricht den Hörer direkt an. Er verwendet Wörter, die man im Alltag benutzt. Die Kosten für die Aufnahme halbierten sich, weil der Sprecher den Text im ersten Versuch perfekt einlesen konnte. Die Klickrate der Audio-Ad stieg um 40 Prozent. So sieht es aus, wenn man die akustische Wirkung versteht.
Die Falle der falschen Betonung bei Fachbegriffen und Eigennamen
Nichts zerstört die Glaubwürdigkeit eines Audio-Inhalts schneller als ein falsch ausgesprochener Eigenname oder ein Fachbegriff, den die KI-Stimme falsch betont. Ich habe erlebt, wie ein mittelständisches Unternehmen seinen eigenen Markennamen in einem Werbespot falsch betont hat, weil die Agentur den Text einfach nur eingereicht hat, ohne eine Lautschrift oder Audio-Referenz beizufügen.
In Deutschland haben wir zudem das Problem der Anglizismen. Ein Wort wie „Service“ wird von manchen KIs deutsch ausgesprochen, von anderen englisch. Wenn du nicht explizit festlegst, wie dieser Prozess der Aussprache ablaufen soll, ist das Ergebnis purer Zufall. Profis nutzen hierfür die IPA (International Phonetic Alphabet) oder schreiben Wörter phonetisch um. Aus „Live-Event“ wird dann im Skript vielleicht „Laif-Iwent“, damit die Betonung exakt dort landet, wo sie hingehört. Das wirkt mühsam, spart aber am Ende Stunden in der Nachbearbeitung, wenn man feststellt, dass der zentrale Markenbegriff wie Kauderwelsch klingt.
Die Illusion der perfekten KI-Stimme ohne manuelle Nacharbeit
Wir leben in einer Zeit, in der KI-Stimmen erschreckend gut geworden sind. Aber hier lauert die nächste Kostenfalle. Viele Unternehmen denken: „Wir werfen den Text in das Tool, drücken auf Export und fertig.“ Das klappt vielleicht für eine interne Durchsage im Treppenhaus, aber nicht für Content, der überzeugen soll.
Gute Audio-Inhalte brauchen Interjektionen, kleine Seufzer, Variationen in der Sprechgeschwindigkeit. Ein Text, der monoton im gleichen Tempo durchgerattert wird, wirkt unnatürlich, egal wie echt die Stimme klingt. Ich verbringe oft mehr Zeit damit, die Pausenlängen in Millisekunden anzupassen, als den Text zu schreiben. Ein kleiner Stopp von 200 Millisekunden vor einem wichtigen Wort kann den Unterschied zwischen einer banalen Information und einer wichtigen Botschaft ausmachen. Wer hier spart, spart am falschen Ende. Die Leute merken nicht unbedingt, warum sich etwas billig anhört, aber sie fühlen es. Und dieses Gefühl von „Billig“ überträgt sich sofort auf dein Produkt.
Realitätscheck: Was es wirklich braucht
Machen wir uns nichts vor: Guten Content für die Ohren zu erstellen, ist harte Arbeit. Es ist nicht damit getan, ein paar Sätze in ein Dokument zu tippen. Wenn du wirklich Erfolg haben willst, musst du bereit sein, jeden Satz laut zu lesen – und zwar drei Mal hintereinander. Wenn du außer Puste kommst, ist der Text schlecht. Wenn du über ein Wort stolperst, muss es raus.
Es gibt keine Abkürzung. Eine KI kann dir die Aufnahme abnehmen, aber sie kann dir nicht das Denken über die akustische Psychologie abnehmen. Ein Projekt, das gut klingt, braucht Planung, ein Verständnis für Phonetik und den Mut, die schöne Schriftsprache zugunsten einer direkten, fast schon banalen Sprechweise zu opfern. Wer das nicht versteht, wird weiterhin Geld für Aufnahmen ausgeben, die niemand bis zum Ende hört. Der Markt für Audio wächst rasant, aber die Aufmerksamkeitsspanne sinkt genauso schnell. Du hast oft nur die ersten drei Sekunden, um den Hörer zu packen. Mit einem verschachtelten Schachtelsatz voller Substantivierungen wirst du diese drei Sekunden garantiert verlieren. Ist nun mal so. Klappt nicht anders. Wer profitabel arbeiten will, muss die Theorie hinter sich lassen und anfangen, für die Ohren zu schreiben. Alles andere ist nur teures Rauschen im Äther.