Musik und Technik

Algorithmus für Töne: Probanden halten synthetische Klänge für echt

Ein neuer Algorithmus ergänzt stumme Videos auf realistische Weise mit Tönen. Die Erfindung soll unter anderem bei der Verbesserung von Robotern helfen.

Stammen heute bereits viele Filmbilder aus dem Computer, könnte in Zukunft auch die Tonspur auf künstliche Weise entstehen. Denn einem Forscherteam des Massachusetts Institute of Technology (MIT) ist die Entwicklung eines Algorithmus gelungen, der tonlose Videoausschnitte mit selbst erzeugten Geräuschen unterlegt. Das Ergebnis ist so realistisch, dass Testpersonen glaubten, echte Tonaufnahmen zu hören. Neben der automatischen Klangerzeugung für Film und Fernsehen soll das Programm auch dazu dienen, die Interaktion von Robotern mit ihrer Umgebung zu verbessern.

Die MIT-Wissenschaftler aus dem Forschungslabor für Informatik und künstliche Intelligenz trainierten ihren Algorithmus mittels Deep-Learning-Techniken. Dabei analysierte das Programm große Datenmengen, um wiederkehrende Muster darin aufzuspüren und diese reproduzieren zu können. Den audiovisuellen Datensatz legten die Forscher selbst an, indem sie über Monate circa 1.000 Videos aufnahmen, in denen ein Trommelstock durch Schlagen auf verschiedene Materialien rund 46.000 unterschiedliche Töne erzeugt. Der Algorithmus zerlegte die Videos in ihre Bestandteile und analysierte den Zusammenhang zwischen Tonhöhe, Lautstärke und den Oberflächen, auf die der Stock traf. So lernte er, Geräusche wie das Schlagen auf Beton oder raschelnde Blätter zu imitieren und die Töne den entsprechenden Videobildern zuzuordnen.

vom Algorithmus getäuscht

Um nach der Lernphase die Leistungsfähigkeit des Algorithmus zu testen, führten die Wissenschaftler ein Online-Experiment durch. Dabei bekamen die Probanden zwei visuell identische Videos zu sehen, von denen das eine mit der Original-Tonspur und das andere mit dem vom Algorithmus erzeugten Klang unterlegt war. Die Testpersonen sollten erkennen, welcher Ton der echte ist und entschieden sich in zwei Dritteln der Fälle für den künstlich erzeugten. Besonders häufig traten die Fehleinschätzungen bei weichen Oberflächen wie Erde und Blättern auf, weil diese im Gegensatz zu Materialien wie Holz und Metall einen Klang erzeugen, der sich weniger deutlich zuordnen lässt.

Der Algorithmus analysiert den Zusammenhang zwischen Bild und Ton.
Der Algorithmus analysiert den Zusammenhang zwischen Bild und Ton. Bild: MIT News – Adam Conner-Simons

Ein weiterer Algorithmus, der im Rahmen der Experimente entwickelt worden war, erkannte in 67 Prozent aller Fälle am Ton, ob ein Gegenstand hart oder weich ist. Die Tatsache, dass Klänge Rückschlüsse auf die physischen Eigenschaften eines Objekts zulassen, macht die Ton-Algorithmen besonders für den Einsatz in Robotern interessant. Denn diese müssen in der Lage sein, ihre Umwelt realistisch einzuschätzen, um mit ihr interagieren und sich sicher in ihr bewegen zu können. Menschen lernen das unter anderem durch Töne. So entwickeln Kleinkinder durch das Anstoßen oder Umwerfen von Gegenständen eine Intuition für physikalische Kräfte. Maschinen könnten dank der MIT-Forschung künftig auf die gleiche Art lernen.

Klänge liefern Erkenntnisse über Eigenschaften von Objekten

„Ein Algorithmus, der den Klang von Gegenständen imitiert, liefert Erkenntnisse über deren Form und Materialart“, erklärt Andrew Owens, MIT-Doktorand und Hauptautor der wissenschaftlichen Veröffentlichung, die die Forschungsergebnisse zusammenfasst. „Damit wäre ein Roboter in der Lage, einen Blick auf den Bürgersteig zu werfen und instinktiv zu wissen, dass der Zement hart und das Gras weich ist. Auf diese Weise wüsste er, was beim Betreten der Flächen passiert.“ Das wäre ein Fortschritt gegenüber dem momentanen Forschungsstand im Bereich der künstlichen Intelligenz, wie Abhinav Gupta hervorhebt. Der Juniorprofessor für Robotik an der Carnegie Mellon University in Pittsburgh weist darauf hin, dass die Wissenschaft gegenwärtig alle Sinne getrennt voneinander behandelt und daher das künstliche Sehen mittels Bildern und die Entwicklung von Sprache anhand von Tönen trainiert. Die MIT-Forscher hingegen verknüpfen visuelle und akustische Reize und ahmen damit menschliches Lernen nach.

Die vom Algorithmus erzeugte Tonspur klingt in den meisten Ohren echt.
Die vom Algorithmus erzeugte Tonspur klingt in den meisten Ohren echt. Bild: MIT News – Adam Conner-Simons

Zum jetzigen Zeitpunkt ist der Algorithmus allerdings noch nicht ausgereift und bedarf noch einiger Verbesserungen. So setzt er beispielsweise manchmal Schlaggeräusche zu früh ein, wenn sich der Trommelstab ungleichmäßig bewegt. Hinzu kommt, dass das Programm bisher allein auf visuelle Reize ausgerichtet ist und daher nur solche Töne erkennen kann, die durch direkte physische Interaktion entstehen. Für die Zukunft wünscht sich Owens daher, dass der Algorithmus auch das Summen von Laptoplüftern, das Pfeifen des Windes und weitere jener Umweltgeräusche imitieren kann, deren Auslöser nicht direkt sichtbar sind. Vielleicht helfen bei diesem Vorhaben weitere Forschungseinrichtungen mit, denn das vom MIT-Team angelegte Archiv mit Video- und Tonaufnahmen verschiedener Schläge ist allen Wissenschaftlern frei zugänglich – und trägt den Namen „Greatest Hits“.

Cover-Foto: Wikipedia – Humanrobo (CC BY-SA 3.0) Montage

Artikel empfehlen

Zugehörige Themen

Als Nächstes lesen

Read Full Story