Maschinelles Lernen Samsung hat Mona Lisa zum Leben erweckt

Von Henning Steier

24.5.2019

Mona Lisa scheint die Lippen zu bewegen.
Mona Lisa scheint die Lippen zu bewegen.
Video-Screenshot: PD

Forscher des südkoreanischen Unternehmens zeigen, wie wenig Daten es braucht, um Videos zu manipulieren. Das hat Spass- und Gefahrenpotenzial.

Samsung-Experten für künstliche Intelligenz haben mit Forschern vom Moskauer Skolkovo-Institut für Wissenschaft und Technologie eine Software entwickelt, die aus wenigen Fotos einer Person Videos generiert. In diesen erwacht die Person quasi zum Leben, weil sie nicht nur die Lippen, sondern auch diverse andere Teile der Gesichtsmuskulatur bewegt. Das wäre an sich nichts Neues. Was die Technologie besonders macht: Sie benötigt kein 3D-Modell des Kopfes. 

Wie die Entwickler mitteilten, wurden unter anderem einen Technologie des maschinellen Lernens eingesetzt, die sich Generative Adversarial Networks (GAN) nennt: Zwei künstliche neuronale Netzwerke treten sozusagen gegeneinander an und trainieren sich gegenseitig. Eines von ihnen erzeugt ein Bild, das andere lernt, zwischen Fake und Realität zu unterscheiden. So entstehen immer bessere Fakes. Trainiert wurde die künstliche Intelligenz unter anderem mit Videos Prominenter. 

Laut den Forschern soll das Ganze bereits mit einem Foto funktionieren. Naturgemäss würden die Ergebnisse aber mit jedem Bild, das man habe, besser. Die Macher nennen ihre Technologie passenderweise Few Shot Learning.

Wo könnten solche Animationen eingesetzt werden? Laut den Machern etwa in Games oder als Gimmicks in Videokonferenzen. Wie im Projektvideo zu sehen ist, haben die Programmierer Marilyn Monroe, Albert Einstein und die Mona Lisa sozusagen zum Leben erweckt. 

Software für diese sogenannten Deepfakes hat grosses Spasspotenzial: Damit lassen sich kinderleicht Personen Wörter in den Mund legen, die sie nie gesagt haben oder sie können in Situationen verfrachtet werden, in denen sie nie waren. Harmlos ist das mit Apps wie Mug Life.

Oder man denke an jene Forscher der Universität Berkeley, die das Programm Everybody Dance Now entwickelt haben, mit dem sich Bewegungen von professionellen Tänzern in Videos auf andere Personen übertragen lassen.

Doch Deepfakes bergen auch Gefahren: Wie vielen andere neuen Technologien wurden Deepfakes zuerst grossflächig in der Pornografie eingesetzt. Hier wurde es vor allem dafür genutzt, um die Gesichter bekannter Mainstream-Schauspielerinnen in pornografische Filme einzufügen. Ein einziges Deepfake-Video von Hollywood-Star Scarlett Johansson etwa wurde über 1,5 Millionen Mal angesehen.

Noch ernster wird es beispielsweise, wenn Politikern oder Wirtschaftsbossen in Videos Sätze in den Mund gelegt werden, die sie nicht gesagt haben. Solche Fälle sind allerdings noch nicht publik geworden.

Dafür macht derzeit auf Social Media ein Video die Runde, in dem die US-Demokratin Nancy Pelosi so wirkt, als wäre sie betrunken. Unter anderem hat Rudy Giuliani, Rechtsvertreter von US-Präsident Donald Trump, den Clip bereits genutzt, um die politische Gegnerin zu schmähen. Das Video stösst auf grosse Resonanz: Millionenfach wurde es gesehen und tausendfach geteilt. Allerdings wurde das Video bearbeitet: Die Abspielgeschwindigkeit einfach auf 75 Prozent gesenkt, die Tonhöhe erhöht. Daher wirkt Pelosi nur betrunken. 

Das Video war zunächst auf der Facebook-Seite AllNews 24/7 aufgetaucht. Das Social Network hat ihn noch nicht gelöscht. Denn die Richtlinien für Benutzer sehen nicht vor, dass Inhalte stimmen müssen. YouTube und Twitter haben den Clip übrigens entfernt. 

Hier können Sie dem Autor auf Twitter folgen – und dort können Sie sich mit ihm auf Linkedin vernetzen.

Bilder des Tages

Zurück zur Startseite