Key Takeaways
- Der Tag rückt immer näher, an dem Sie computergenerierte Sprache nicht mehr von der Realität unterscheiden können.
- Google hat kürzlich LaMDA vorgestellt, ein Modell, das natürlichere Gespräche ermöglichen könnte.
- Menschenähnliche Sprache zu erzeugen, erfordert ebenfalls enorme Rechenleistung.
Im Moment ist es leicht zu erkennen, wenn Sie mit einem Computer sprechen, aber das könnte sich dank der jüngsten Fortschritte in der KI bald ändern.
Google hat kürzlich LaMDA vorgestellt, ein experimentelles Modell, von dem das Unternehmen behauptet, dass es die Fähigkeiten seiner Konversations-KI-Assistenten steigern und natürlichere Gespräche ermöglichen könnte. LaMDA zielt darauf ab, sich ohne vorheriges Training über fast alles normal zu unterh alten.
Es ist eines von einer wachsenden Zahl von KI-Projekten, bei denen Sie sich fragen könnten, ob Sie mit einem Menschen sprechen.
"Meine Schätzung ist, dass die Benutzer innerhalb der nächsten 12 Monate damit beginnen werden, diesen neuen, emotionaleren Stimmen ausgesetzt zu sein und sich an sie zu gewöhnen", James Kaplan, CEO von MeetKai, einem virtuellen Sprachassistenten und einer Suchfunktion für Konversations-KI Motor, sagte in einem E-Mail-Interview.
"Sobald dies geschieht, wird die synthetisierte Sprache von heute für Benutzer so klingen, wie die Sprache der frühen 2000er für uns heute klingt."
Sprachassistenten mit Zeichen
LaMDA von Google basiert auf Transformer, einer von Google Research erfundenen neuronalen Netzwerkarchitektur. Im Gegensatz zu anderen Sprachmodellen wurde LaMDA von Google auf echten Dialog trainiert.
Ein Teil der Herausforderung für eine natürlich klingende KI-Sprachausgabe ist die Offenheit von Gesprächen, schrieb Eli Collins von Google in einem Blogbeitrag.
"Ein Gespräch mit einem Freund über eine Fernsehsendung könnte sich zu einer Diskussion über das Land entwickeln, in dem die Serie gedreht wurde, bevor man sich auf eine Debatte über die beste regionale Küche dieses Landes einlässt", fügte er hinzu.
Die Dinge bewegen sich schnell mit der Robotersprache. Eric Rosenblum, geschäftsführender Gesellschafter bei Tsingyuan Ventures, das in Konversations-KI investiert, sagte, dass einige der grundlegendsten Probleme der computergestützten Sprache praktisch gelöst sind.
Zum Beispiel ist die Genauigkeitsrate beim Verstehen von Sprache bei Diensten wie Transkriptionen, die von der Software Otter.ai erstellt werden, oder medizinischen Notizen, die von DeepScribe erstellt werden, bereits extrem hoch.
"Die nächste Grenze ist jedoch viel schwieriger", fügte er hinzu.
"Kontextverständnis bewahren, was ein Problem ist, das weit über die Verarbeitung natürlicher Sprache und Empathie hinausgeht, da Computer, die mit Menschen interagieren, Frustration, Wut, Ungeduld usw. verstehen müssen. An diesen beiden Problemen wird gearbeitet, aber beide sind noch lange nicht zufriedenstellend."
Neuronale Netze sind der Schlüssel
Um lebensechte Stimmen zu erzeugen, verwenden Unternehmen Technologien wie Deep Neural Networks, eine Form des maschinellen Lernens, das Daten durch Schichten klassifiziert, Matt Muldoon, nordamerikanischer Präsident von ReadSpeaker, einem Unternehmen, das Text-to-Speech-Software entwickelt, sagte in einem E-Mail-Interview.
"Diese Schichten verfeinern das Signal und sortieren es in komplexere Klassifikationen", fügte er hinzu. "Das Ergebnis ist eine synthetische Sprache, die unheimlich wie ein Mensch klingt."
Eine weitere in der Entwicklung befindliche Technologie ist Prosody Transfer, bei der der Klang einer Text-to-Speech-Stimme mit dem Sprechstil einer anderen kombiniert wird, sagte Muldoon. Es gibt auch Transfer Learning, das die Menge an Trainingsdaten reduziert, die benötigt wird, um eine neue neuronale Text-zu-Sprache-Stimme zu erzeugen.
Kaplan sagte, dass die Erzeugung menschenähnlicher Sprache auch enorme Mengen an Rechenleistung erfordert. Unternehmen entwickeln neurale Beschleunigerchips, kundenspezifische Module, die in Verbindung mit regulären Prozessoren arbeiten.
"Der nächste Schritt wird darin bestehen, diese Chips in kleinere Hardware zu stecken, wie es derzeit bereits für Kameras getan wird, wenn KI für das Sehen erforderlich ist", fügte er hinzu. "Es wird nicht lange dauern, bis diese Art von Rechenleistung in den Kopfhörern selbst verfügbar ist."
Eine Herausforderung bei der Entwicklung von KI-gesteuerter Sprache ist, dass jeder anders spricht, sodass es Computern schwerfällt, uns zu verstehen.
"Denken Sie an die Akzente Georgia vs. Boston vs. North Dakota und ob Englisch Ihre Hauptsprache ist oder nicht", sagte Monica Dema, die bei MDinc an der Sprachsuchanalyse arbeitet, in einer E-Mail. "Global gedacht, ist es kostspielig, dies für alle Regionen Deutschlands, Chinas und Indiens zu tun, aber das bedeutet nicht, dass es nicht getan werden kann oder kann."