Key Takeaways
- Forscher sagen, dass sie der KI beibringen können, Videos zu kennzeichnen, indem sie sie ansehen und anhören.
- Das KI-System lernt, Daten darzustellen, um Konzepte zu erfassen, die zwischen visuellen und akustischen Daten geteilt werden.
-
Es ist Teil der Bemühungen, der KI beizubringen, Konzepte zu verstehen, die Menschen ohne Probleme lernen können, die Computer jedoch nur schwer verstehen können.
Ein neues künstliches Intelligenzsystem (KI) könnte Ihre Videos ansehen und anhören und Dinge markieren, die passieren.
MIT-Forscher haben eine Technik entwickelt, die KI beibringt, Aktionen zu erfassen, die zwischen Video und Audio geteilt werden. Zum Beispiel kann ihre Methode verstehen, dass das Weinen eines Babys in einem Video mit dem gesprochenen Wort „Weinen“in einem Soundclip zusammenhängt. Es ist Teil der Bemühungen, der KI beizubringen, Konzepte zu verstehen, die Menschen ohne Probleme lernen können, die Computer jedoch nur schwer verstehen können.
"Das vorherrschende Lernparadigma, überwachtes Lernen, funktioniert gut, wenn Sie Datensätze haben, die gut beschrieben und vollständig sind", sagte KI-Experte Phil Winder in einem E-Mail-Interview mit Lifewire. "Leider sind Datensätze selten vollständig, weil die reale Welt die schlechte Angewohnheit hat, neue Situationen darzustellen."
Intelligente KI
Computer haben Schwierigkeiten, Alltagsszenarien zu verstehen, weil sie eher Daten verarbeiten müssen als Töne und Bilder wie Menschen. Wenn eine Maschine ein Foto „sieht“, muss sie dieses Foto in Daten kodieren, die sie verwenden kann, um eine Aufgabe wie eine Bildklassifizierung auszuführen. KI kann sich verzetteln, wenn Eingaben in mehreren Formaten wie Videos, Audioclips und Bildern vorliegen.
"Die größte Herausforderung hier ist, wie eine Maschine diese verschiedenen Modalitäten aufeinander abstimmen kann? Als Menschen ist das einfach für uns", sagte Alexander Liu, ein MIT-Forscher und Erstautor eines Artikels zu diesem Thema, in a Pressemitteilung. "Wir sehen ein Auto und hören dann das Geräusch eines vorbeifahrenden Autos, und wir wissen, dass dies dasselbe ist. Aber für maschinelles Lernen ist es nicht so einfach."
Lius Team hat eine KI-Technik entwickelt, von der sie sagen, dass sie lernt, Daten darzustellen, um Konzepte zu erfassen, die zwischen visuellen und Audiodaten geteilt werden. Mit diesem Wissen kann ihr maschinelles Lernmodell erkennen, wo eine bestimmte Aktion in einem Video stattfindet, und sie kennzeichnen.
Das neue Modell nimmt Rohdaten wie Videos und die entsprechenden Textuntertitel und kodiert sie, indem es Merkmale oder Beobachtungen zu Objekten und Aktionen im Video extrahiert. Anschließend bildet es diese Datenpunkte in einem Raster ab, das als Einbettungsraum bezeichnet wird. Das Modell bündelt ähnliche Daten als einzelne Punkte im Raster; Jeder dieser Datenpunkte oder Vektoren wird durch ein einzelnes Wort dargestellt.
Zum Beispiel könnte ein Videoclip einer jonglierenden Person auf einen Vektor mit der Bezeichnung "Jonglieren" abgebildet werden.
Die Forscher entwarfen das Modell so, dass es nur 1.000 Wörter verwenden kann, um Vektoren zu kennzeichnen. Das Modell kann entscheiden, welche Aktionen oder Konzepte es in einem einzigen Vektor kodieren möchte, aber es kann nur 1.000 Vektoren verwenden. Das Modell wählt die Wörter aus, die seiner Meinung nach die Daten am besten repräsentieren.
"Wenn es ein Video über Schweine gibt, kann das Model das Wort "Schwein" einem der 1.000 Vektoren zuweisen. Wenn das Model dann jemanden das Wort "Schwein" in einem Audioclip sagen hört, es sollte immer noch denselben Vektor verwenden, um das zu kodieren", erklärte Liu.
Ihre Videos, entschlüsselt
Bessere Kennzeichnungssysteme wie das vom MIT entwickelte könnten dazu beitragen, Verzerrungen in der KI zu reduzieren, sagte Marian Beszedes, Leiter der Forschung und Entwicklung beim Biometrieunternehmen Innovatrics, in einem E-Mail-Interview mit Lifewire. Beszedes schlug vor, dass die Datenindustrie KI-Systeme aus der Perspektive des Herstellungsprozesses betrachten kann.
"Die Systeme akzeptieren Rohdaten als Input (Rohstoffe), verarbeiten sie vor, nehmen sie auf, treffen Entscheidungen oder Vorhersagen und geben Analysen (fertige Produkte) aus", sagte Beszedes. "Wir nennen diesen Prozessablauf die "Datenfabrik" und wie andere Herstellungsprozesse sollte er Qualitätskontrollen unterliegen. Die Datenindustrie muss KI-Voreingenommenheit als Qualitätsproblem behandeln.
"Aus Verbrauchersicht erschweren falsch gekennzeichnete Daten z. B. die Online-Suche nach bestimmten Bildern/Videos", fügte Beszedes hinzu. "Mit richtig entwickelter KI können Sie Beschriftungen automatisch, viel schneller und neutraler durchführen als mit manueller Beschriftung."
Aber das MIT-Modell hat noch einige Einschränkungen. Zum einen konzentrierte sich ihre Forschung auf Daten aus zwei Quellen gleichzeitig, aber in der realen Welt stoßen Menschen auf viele Arten von Informationen gleichzeitig, sagte Liu
"Und wir wissen, dass 1.000 Wörter mit dieser Art von Datensätzen funktionieren, aber wir wissen nicht, ob sie auf ein reales Problem verallgemeinert werden können", fügte Liu hinzu.
Die MIT-Forscher sagen, dass ihre neue Technik viele ähnliche Modelle übertrifft. Wenn die KI trainiert werden kann, Videos zu verstehen, können Sie möglicherweise die Urlaubsvideos Ihrer Freunde überspringen und stattdessen einen computergenerierten Bericht erh alten.