Wie KI Computersprache natürlicher machen könnte

Inhaltsverzeichnis:

Wie KI Computersprache natürlicher machen könnte
Wie KI Computersprache natürlicher machen könnte
Anonim

Key Takeaways

  • Unternehmen versuchen, Wege zu finden, um computergenerierte Sprache realistischer klingen zu lassen.
  • NVIDIA hat kürzlich Tools vorgestellt, mit denen Sie den Klang natürlicher Sprache einfangen können, indem Sie eine KI mit Ihrer eigenen Stimme trainieren.
  • Intonation, Emotion und Musikalität sind die Eigenschaften, die Computerstimmen noch fehlen, sagt ein Experte.
Image
Image

Computergenerierte Sprache könnte bald viel menschlicher klingen.

Der Hersteller von Computerteilen NVIDIA hat kürzlich Tools vorgestellt, die den Klang natürlicher Sprache einfangen können, indem Sie eine KI mit Ihrer Stimme trainieren können. Die Software kann auch die Worte eines Sprechers mit der Stimme einer anderen Person übermitteln. Es ist Teil eines aufkeimenden Versuchs, Computersprache realistischer zu machen.

"Fortschrittliche Sprach-KI-Technologie ermöglicht es Benutzern, natürlich zu sprechen, viele Anfragen in einem einzigen Satz zu kombinieren und die Notwendigkeit zu beseitigen, Details aus der ursprünglichen Anfrage ständig zu wiederholen", Michael Zagorsek, Chief Operating Officer des Spracherkennungsunternehmens SoundHound, sagte Lifewire in einem E-Mail-Interview.

"Das Hinzufügen mehrerer Sprachen, die jetzt auf den meisten Sprach-KI-Plattformen verfügbar sind, macht digitale Sprachassistenten in mehr Regionen und für mehr Bevölkerungsgruppen zugänglich", fügte er hinzu.

Robospeech Rising

Amazons Alexa und Apples Siri klingen viel besser als Computersprache von vor einem Jahrzehnt, aber sie werden in absehbarer Zeit nicht mit authentischen menschlichen Stimmen verwechselt werden.

Um künstliche Sprache natürlicher klingen zu lassen, hat NVIDIAs Text-to-Speech-Forschungsteam ein RAD-TTS-Modell entwickelt. Das System ermöglicht es Einzelpersonen, ein Text-to-Speech (TTS)-Modell mit ihrer Stimme zu unterrichten, einschließlich Tempo, Tonalität, Klangfarbe und anderer Faktoren.

Das Unternehmen nutzte sein neues Modell, um für seine I Am AI-Videoserie mehr gesprächig klingende Sprachkommentare zu erstellen.

Mit dieser Schnittstelle könnte sich unser Videoproduzent beim Lesen des Videoskripts aufzeichnen und dann das KI-Modell verwenden, um seine Sprache in die Stimme der weiblichen Erzählerin umzuwandeln. Unter Verwendung dieser grundlegenden Erzählung könnte der Produzent dann die KI wie a steuern Synchronsprecher, der die synthetisierte Sprache optimiert, um bestimmte Wörter hervorzuheben, und das Tempo der Erzählung modifiziert, um den Ton des Videos besser auszudrücken“, schrieb NVIDIA auf seiner Website.

Schwerer als es klingt

Computergenerierte Sprache natürlich klingen zu lassen, ist ein kniffliges Problem, sagen Experten.

"Sie müssen Hunderte von Stunden der Stimme einer Person aufnehmen, um eine Computerversion davon zu erstellen", sagte Nazim Ragimov, CEO des Text-to-Speech-Softwareunternehmens Kukarella, in einem E-Mail-Interview mit Lifewire. „Und die Aufnahme muss von hoher Qualität sein, aufgenommen in einem professionellen Studio. Je mehr Stunden Sprachqualität geladen und verarbeitet werden, desto besser das Ergebnis."

Text-to-Speech kann in Spielen verwendet werden, um Personen mit Stimmbehinderungen zu helfen oder Benutzern zu helfen, mit ihrer eigenen Stimme zwischen Sprachen zu übersetzen.

Intonation, Emotion und Musikalität sind die Merkmale, die Computerstimmen noch fehlen, sagte Ragimov.

Wenn KI diese fehlenden Verbindungen hinzufügen kann, wird computergenerierte Sprache "nicht von den Stimmen echter Schauspieler zu unterscheiden sein", fügte er hinzu. "Das ist noch in Arbeit. Andere Stimmen werden mit Radiomoderatoren konkurrieren können. Bald werden Sie Stimmen sehen, die singen und Hörbücher lesen können."

Sprachtechnologie wird in einer Vielzahl von Unternehmen immer beliebter.

"Die Autoindustrie setzt seit Kurzem Sprach-KI ein, um sicherere und vernetztere Fahrerlebnisse zu schaffen", sagte Zagorsek.

"Seitdem sind Sprachassistenten immer allgegenwärtiger geworden, da Marken nach Möglichkeiten suchen, das Kundenerlebnis zu verbessern und die Nachfrage nach einfacheren, sichereren, bequemeren, effizienteren und hygienischeren Methoden zur Interaktion mit ihren Produkten und Dienstleistungen zu erfüllen."

In der Regel wandelt die Sprach-KI Anfragen in einem zweistufigen Prozess in Antworten um, der mit der Transkription von Sprache in Text mit automatischer Spracherkennung (ASR) beginnt und diesen Text dann in ein NLU-Modell (Natural Language Understanding) einspeist.

Image
Image

SoundHounds Ansatz kombiniert diese beiden Schritte in einem Prozess, um Sprache in Echtzeit zu verfolgen. Das Unternehmen behauptet, dass diese Technik es Sprachassistenten ermöglicht, die Bedeutung von Benutzeranfragen zu verstehen, noch bevor die Person zu Ende gesprochen hat.

Zukünftige Fortschritte in der Computersprache, einschließlich der Verfügbarkeit einer Vielzahl von Konnektivitätsoptionen von rein eingebettet (keine Cloud-Verbindung erforderlich) bis hin zu hybrid (eingebettet plus Cloud) und nur Cloud „werden Unternehmen aus allen Branchen mehr Auswahlmöglichkeiten bieten in Bezug auf Kosten, Datenschutz und Verfügbarkeit von Rechenleistung , sagte Zagoresk.

NVIDIA sagte, dass seine neuen KI-Modelle über Voiceover hinausgehen.

"Text-to-Speech kann in Spielen verwendet werden, um Personen mit Stimmbehinderungen zu helfen oder Benutzern zu helfen, mit ihrer eigenen Stimme zwischen Sprachen zu übersetzen", schrieb das Unternehmen. "Es kann sogar die Darbietungen berühmter Sänger nachbilden und nicht nur die Melodie eines Liedes, sondern auch den emotionalen Ausdruck hinter dem Gesang abgleichen."

Empfohlen: