Key Takeaways
- DeepZen verwendet KI (künstliche Intelligenz), um verblüffend realistische Hörbücher aus Text zu erstellen.
- Die Technologie verwendet echte menschliche Synchronsprecher, um die Bausteine bereitzustellen.
- Amazon und Audible akzeptieren derzeit keine computergenerierten Hörbücher.
DeepZen ist ein Unternehmen, das Computerstimmen erstellt, die in Hörbüchern verwendet werden, basierend auf den echten Stimmen menschlicher Schauspieler. Die Qualität ist erschreckend gut genug, um sie stundenlang zu hören. Das Gimmick hier ist die KI-Komponente (künstliche Intelligenz), die den Text lesen und aus dem Kontext auf die richtige emotionale Reaktion schließen kann. Es bringt diese Emotion dann in die Stimme.
Es ist beeindruckend und sehr praktisch. Aber wollen wir wirklich ein homogenisiertes Hörbucherlebnis? Und was ist mit diesen Synchronsprechern?
"Aus Sicht des Indie-Verlegers ist alles, was die Kosten der Hörbuchproduktion senkt, sehr interessant", sagte Rick Carlile, Eigentümer des unabhängigen Verlags Carlile Media, Lifewire per E-Mail.
"Aber diese Anziehungskraft setzt voraus, dass das Produkt von gleicher Qualität wie traditionelle Erzählung ist. Ich glaube nicht, dass wir es noch hundertprozentig geschafft haben. Verstehen Sie mich nicht falsch, DeepZen ist erstaunlich gut. Es ist ein enormer Durchbruch, und seine Schöpfer verdienen immenses Lob und Erfolg. Aber es ist noch nicht perfekt."
Audio das ist 'gut genug'
Der beste Weg, die Qualität von DeepZen zu verstehen, ist, sich die Samples anzuhören. Wenn Sie nicht wüssten, dass sie computergeneriert sind, merken Sie es vielleicht nicht einmal. Jedenfalls nicht für eine Weile. Nehmen wir an, dass die KI von DeepZen perfekt ist und niemals die emotionalen Töne falsch interpretiert, die sie treffen soll.
Selbst dann kann ein Mensch nuanciertere und oft überraschendere Interpretationen anbieten. Ein Schauspieler könnte den Worten eine unerwartete Wendung geben, die ein Computer nicht einmal berücksichtigen würde. Und in Wirklichkeit ist die KI-Interpretation sicherlich noch nicht so gut wie die eines professionellen Synchronsprechers.
"Als jemand, der an Filmen arbeitet und zuletzt in der Welt der Audiokommentare, obwohl ich von der KI beeindruckt bin, weiß ich genau, dass es tiefe Bedeutungen gibt, die eine Maschine nicht interpretieren kann", professionelle Stimme sagte Schauspieler Paul Cram Lifewire per E-Mail.
"Wird es eine Welle unbekannter Autoren geben, die es verwenden? Ich garantiere, dass es so sein wird, weil es 'gut genug' ist."
Gut genug zu sein, kombiniert mit Komfort und Kosteneinsparungen, könnte ausreichen, um Indie-Publisher zum Dienst zu bewegen.
"Hörbücher können bis zu 500 US-Dollar pro fertiger Audiostunde kosten (viel mehr für eine Promi-Stimme), und das beinh altet nicht die Zeitkosten für Management und Verw altung", sagt Carlile. "Die Möglichkeit, diese Kosten zu halbieren, indem man einfach ein Manuskript zu einem Anbieter wie DeepZen hochlädt, ist äußerst attraktiv."
Sprechschwierigkeiten
Es ist noch nicht ganz so einfach wie die Synchronsprecher zu feuern und Manuskripte auf DeepZen hochzuladen. Derzeit gibt es ein Hindernis für die einfache KI-Vortrag von Hörbüchern, und zwar von Amazon.
"Derzeit akzeptiert ACX, der Weg des Self-Publishers zum Hörbuchvertrieb von Audible und Amazon, keine Hörbücher, die nicht von einem Menschen aufgenommen wurden", sagt Carlile.
Warum? Qualität. Hier ist der FAQ-Eintrag von der Website:
"Text-to-Speech oder andere automatisierte Aufzeichnungen sind nicht zulässig. Hörbare Zuhörer wählen Hörbücher für die Darbietung des Materials sowie der Geschichte aus. Um diese Erwartung zu erfüllen, muss Ihr Hörbuch von einem Menschen aufgenommen werden."
Das bedeutet, dass von DeepZen generierte Hörbücher zumindest vorerst out sind. Dies ist reine Spekulation, aber DeepZen scheint eine ziemlich gute Akquisition für Amazon zu sein, da es den Service verkaufen und ihn ausschließlich für Audible-Bücher beh alten könnte. Und selbst wenn das nicht passiert, wenn die Qualität von computergenerierten Hörbüchern so gut ist, dann scheint es wenig Grund zu geben, von dieser Regel keine Ausnahme zu machen.
Würdest du gerne Hörbücher hören, die auf diese Weise erstellt wurden? Wenn es passiert, werden die meisten Leute es nicht einmal vermuten. Einige bevorzugen vielleicht die Perfektion von computergenerierten Stimmen, weil sie frei von Stimmtricks und Gewohnheiten sind, die manchmal ablenken können. Die Technologie eignet sich auch für Videospiele, Fernseh- und Radiowerbung und jedes andere Szenario, in dem Sie einen Synchronsprecher engagieren würden.
Die Technologie von DeepZen wäre auch eine großartige Möglichkeit, automatisch Nachrichten-Podcasts aus geschriebenen Artikeln zu erstellen, was für den Weg zur Arbeit praktisch sein könnte.
Und was ist mit diesen Synchronsprechern? Nun, es wird mindestens eine Gelegenheit geben: Sie können gehen und für DeepZen arbeiten.