Key Takeaways
- Meta verwendet KI, um Programme zu erstellen, die Emotionen in Sprache ausdrücken können.
- Das KI-Team des Unternehmens sagte, es habe Fortschritte bei der Modellierung ausdrucksstarker Lautäußerungen wie Lachen, Gähnen, Weinen und "spontanem Geplauder" in Echtzeit gemacht.
- KI wird auch zur Verbesserung der Spracherkennung eingesetzt.
Möglicherweise können Sie dank künstlicher Intelligenz (KI) bald natürlicher mit Ihrem Computer chatten.
Meta sagte, es habe erhebliche Fortschritte bei seinen Bemühungen gemacht, realistischere KI-generierte Sprachsysteme zu schaffen. Das KI-Team des Unternehmens sagte, es habe Fortschritte bei der Fähigkeit gemacht, ausdrucksstarke Lautäußerungen wie Lachen, Gähnen und Weinen zusätzlich zu „spontanem Geplauder“in Echtzeit zu modellieren.
"In jedem beliebigen Gespräch tauschen Menschen randvoll nonverbaler Signale aus, wie Intonationen, emotionaler Ausdruck, Pausen, Akzente, Rhythmen - all das ist wichtig für menschliche Interaktionen", schrieb das Team in dem kürzlich erschienenen Blogbeitrag. "Aber die heutigen KI-Systeme können diese reichen, ausdrucksstarken Signale nicht erfassen, weil sie nur aus geschriebenem Text lernen, der erfasst, was wir sagen, aber nicht, wie wir es sagen."
Klügere Sprache
In dem Blogbeitrag sagte das Team von Meta AI, dass sie daran arbeiten, die Einschränkungen traditioneller KI-Systeme zu überwinden, die nonverbale Signale in der Sprache nicht verstehen können, wie z. B. Intonationen, emotionale Ausdrücke, Pausen, Akzente und Rhythmen. Die Systeme werden zurückgeh alten, weil sie nur aus geschriebenem Text lernen können.
Aber die Arbeit von Meta unterscheidet sich von früheren Bemühungen, weil seine KI-Modelle natürliche Sprachverarbeitungsmodelle verwenden können, um die ganze Natur der gesprochenen Sprache zu erfassen. Metaforscher sagen, dass die neuen Modelle es KI-Systemen ermöglichen können, die Stimmung zu vermitteln, die sie vermitteln möchten – wie Langeweile oder Ironie.
"In naher Zukunft werden wir uns darauf konzentrieren, textlose Techniken anzuwenden, um nützliche Downstream-Anwendungen zu erstellen, ohne dass entweder ressourcenintensive Textetiketten oder automatische Spracherkennungssysteme (ASR) erforderlich sind, wie z. B. die Beantwortung von Fragen (z Wetter?"), "schreibt das Team im Blogbeitrag. "Wir glauben, dass die Prosodie in der Sprache helfen kann, einen Satz besser zu analysieren, was wiederum das Verständnis der Absicht erleichtert und die Leistung bei der Beantwortung von Fragen verbessert."
KI macht Verständnis
Computer werden nicht nur immer besser darin, Bedeutungen zu kommunizieren, sondern KI wird auch zur Verbesserung der Spracherkennung eingesetzt.
Informatiker arbeiten seit mindestens 1952 an der Computer-Spracherkennung, als drei Bell Labs-Forscher ein System entwickelten, das einzelne Ziffern erkennen konnte, sagte der Chief Technology Officer von AI Dynamics, Ryan Monsurate, in einer E-Mail an Lebensdraht. In den 1990er Jahren waren Spracherkennungssysteme im Handel erhältlich, hatten aber immer noch eine Fehlerrate, die hoch genug war, um von der Verwendung außerhalb sehr spezifischer Anwendungsbereiche wie dem Gesundheitswesen abzuraten.
"Jetzt, da Deep-Learning-Modelle Ensemble-Modelle (wie die von Microsoft) in die Lage versetzt haben, übermenschliche Leistungen bei der Spracherkennung zu erzielen, haben wir die Technologie, um eine sprecherunabhängige verbale Kommunikation mit Computern in großem Maßstab zu ermöglichen", sagte Monsurate. „In der nächsten Phase werden die Kosten gesenkt, damit jeder, der Siri oder die KI-Assistenten von Google verwendet, Zugriff auf diese Ebene der Spracherkennung hat.“
KI ist nützlich für die Spracherkennung, da sie sich im Laufe der Zeit durch Lernen verbessern kann, sagte Ariel Utnik, Chief Revenue Officer und General Manager des KI-Sprachunternehmens Verbit.ai, in einem E-Mail-Interview mit Lifewire. Verbit behauptet zum Beispiel, dass seine hauseigene KI-Technologie Hintergrundgeräusche und Echos erkennt und herausfiltert und Sprecher unabhängig vom Akzent transkribiert, um detaillierte, professionelle Transkripte und Untertitel von Live- und aufgezeichneten Videos und Audios zu erstellen.
Aber Utnik sagte, dass die meisten aktuellen Spracherkennungsplattformen nur zu 75-80% genau sind.
"KI wird den Menschen niemals vollständig ersetzen, da die persönliche Überprüfung durch Transkriptoren, Korrektoren und Lektoren notwendig ist, um eine qualitativ hochwertige und äußerst genaue endgültige Abschrift zu gewährleisten", fügte er hinzu.
Bessere Spracherkennung könnte auch verwendet werden, um Hacker zu verhindern, sagte Sanjay Gupta, Vice President Global Head of Product and Corporate Development beim Spracherkennungsunternehmen Mitek Systems, in einer E-Mail. Untersuchungen zeigen, dass innerhalb von zwei Jahren 20 Prozent aller erfolgreichen Kontoübernahmeangriffe synthetische Spracherweiterung verwenden, fügte er hinzu.
"Dies bedeutet, dass wir mit immer ausgefeilterer Deep-Fake-Technologie gleichzeitig fortschrittliche Sicherheitsmaßnahmen schaffen müssen, die diese Taktiken neben Deepfakes von Bildern und Videos bekämpfen können", sagte Gupta. "Die Bekämpfung von Voice Spoofing erfordert eine Liveness-Detection-Technologie, die in der Lage ist, zwischen einer Live-Stimme und einer aufgezeichneten, synthetischen oder computergenerierten Version einer Stimme zu unterscheiden."
Korrektur 2022-05-04: Schreibweise des Namens von Ryan Monsurate in Absatz 9 korrigiert.