Key Takeaways
- Ein neues maschinelles Lernmodell halluziniert ein Bild vom Aussehen eines Satzes in einer Sprache, um die Übersetzung zu unterstützen.
- Das KI-System namens VALHALLA wurde entwickelt, um die Art und Weise nachzuahmen, wie Menschen Sprache wahrnehmen.
- Das neue System ist Teil einer wachsenden Bewegung zur Verwendung von KI zum Verstehen von Sprache.
Die menschliche Methode, Bilder zu visualisieren, während Wörter übersetzt werden, könnte der künstlichen Intelligenz (KI) helfen, Sie besser zu verstehen.
Ein neues maschinelles Lernmodell halluziniert ein Bild davon, wie ein Satz in einer Sprache aussieht. Laut einer kürzlich erschienenen Forschungsarbeit verwendet die Technik dann Visualisierung und andere Hinweise, um die Übersetzung zu unterstützen. Es ist Teil einer wachsenden Bewegung zur Verwendung von KI zum Verstehen von Sprache.
"Die Art und Weise, wie Menschen sprechen und schreiben, ist einzigartig, weil wir alle leicht unterschiedliche Töne und Stile haben", sagte Beth Cudney, Professorin für Datenanalyse an der Maryville University, die nicht an der Studie beteiligt war, in einem E-Mail-Interview mit Lifewire. „Das Verständnis des Kontexts ist schwierig, weil es so ist, als würde man mit unstrukturierten Daten umgehen. Hier ist die Verarbeitung natürlicher Sprache (NLP) nützlich. NLP ist ein Zweig der KI, der sich mit den Unterschieden in der Art und Weise befasst, wie wir mithilfe des maschinellen Leseverständnisses kommunizieren. Der Hauptunterschied in NLP, als Zweig der KI, konzentriert sich nicht einfach auf die wörtliche Bedeutung der Wörter, die wir sprechen oder schreiben, sondern auf die Bedeutung.“
Geh und frag Alice
Das neue KI-System namens VALHALLA, das von Forschern des MIT, IBM und der University of California in San Diego entwickelt wurde, wurde entwickelt, um die Art und Weise nachzuahmen, wie Menschen Sprache wahrnehmen. Laut Wissenschaftlern verbessert die Verwendung sensorischer Informationen, wie Multimedia, gepaart mit neuen und unbekannten Wörtern, wie Karteikarten mit Bildern, den Spracherwerb und das Beh alten.
Diese Systeme erhöhen die Leistungsfähigkeit von Chatbots, die derzeit nur trainiert und zu bestimmten Gesprächen fähig sind…
Das Team behauptet, dass ihre Methode die Genauigkeit der maschinellen Übersetzung gegenüber der reinen Textübersetzung verbessert. Die Wissenschaftler verwendeten eine Encoder-Decoder-Architektur mit zwei Transformatoren, eine Art neuronales Netzwerkmodell, das für sequenzabhängige Daten wie Sprache geeignet ist und auf Schlüsselwörter und die Semantik eines Satzes achten kann. Ein Transformator erzeugt eine visuelle Halluzination und der andere führt eine multimodale Übersetzung durch, indem er die Ausgaben des ersten Transformators verwendet.
"In realen Szenarien haben Sie möglicherweise kein Bild in Bezug auf den Quellsatz", sagte Rameswar Panda, eines der Mitglieder des Forschungsteams, in einer Pressemitteilung. „Unsere Motivation war also im Wesentlichen: Anstatt ein externes Bild während der Inferenz als Eingabe zu verwenden, können wir visuelle Halluzination – die Fähigkeit, uns visuelle Szenen vorzustellen – nutzen, um maschinelle Übersetzungssysteme zu verbessern?“
KI-Verständnis
Beträchtliche Forschung konzentriert sich auf die Weiterentwicklung von NLP, betonte Cudney. Zum Beispiel hat Elon Musk Open AI mitbegründet, das an GPT-3 arbeitet, einem Modell, das sich mit einem Menschen unterh alten kann und versiert genug ist, um Softwarecode in Python und Java zu generieren.
Google und Meta arbeiten auch an der Entwicklung von Konversations-KI mit ihrem System namens LAMDA. „Diese Systeme erhöhen die Leistungsfähigkeit von Chatbots, die derzeit nur trainiert und in der Lage sind, bestimmte Gespräche zu führen, was wahrscheinlich das Gesicht des Kundensupports und der Helpdesks verändern wird“, sagte Cudney.
Aaron Sloman, der Mitbegründer von CLIPr, einem KI-Technologieunternehmen, sagte in einer E-Mail, dass große Sprachmodelle wie GPT-3 aus sehr wenigen Trainingsbeispielen lernen können, um Textzusammenfassungen basierend auf menschlichem Feedback zu verbessern. Zum Beispiel, sagte er, kann man einem großen Sprachmodell ein mathematisches Problem geben und die KI bitten, Schritt für Schritt zu denken.
"Wir können davon ausgehen, dass aus großen Sprachmodellen mehr Einsichten und Argumentationen gewonnen werden, wenn wir mehr über ihre Fähigkeiten und Grenzen erfahren", fügte Sloman hinzu. "Ich erwarte auch, dass diese Sprachmodelle menschenähnlichere Prozesse schaffen, da Modellierer bessere Möglichkeiten entwickeln, die Modelle für bestimmte Aufgaben von Interesse abzustimmen."
Georgia Tech Computing-Professor Diyi Yang sagte in einem E-Mail-Interview voraus, dass wir in unserem täglichen Leben mehr Systeme zur Verarbeitung natürlicher Sprache (NLP) sehen werden, die von NLP-basierten personalisierten Assistenten bis hin zur Hilfe bei E-Mails und Telefonanrufen reichen. bis hin zu sachkundigen Dialogsystemen für die Informationssuche im Reise- oder Gesundheitswesen.„Sowie faire KI-Systeme, die Aufgaben ausführen und Menschen auf verantwortungsvolle und vorurteilsfreie Weise unterstützen können“, fügte Yang hinzu.
Enorme KI-Modelle, die Billionen von Parametern wie GPT-3 und DeepText verwenden, werden weiterhin auf ein einziges Modell für alle Sprachanwendungen hinarbeiten, sagte Stephen Hage, ein Ingenieur für maschinelles Lernen bei Dialexa, in einem E-Mail-Interview voraus. Er sagte, dass es auch neue Arten von Modellen geben wird, die für bestimmte Zwecke entwickelt wurden, wie z. B. sprachgesteuertes Online-Shopping.
"Ein Beispiel könnte ein Käufer sein, der sagt: 'Zeig mir diesen Lidschatten in Mitternachtsblau mit mehr Halo', um diesen Farbton auf den Augen der Person zu zeigen, mit einer gewissen Kontrolle darüber, wie er aufgetragen wird", fügte Hage hinzu.