4 AI-Obamas learn Algo-Lipsynch from Audio

Seit ich über die neuen Möglichkeiten von Machine Learning bezüglich Computer Vision und der Generation von Bildern schreibe, vor allem bei Projekten wie Face2Face oder dem Adobe Voice-Generator, schreibe ich in kurzen, halbironischen Sätzen oft dazu, dass wir uns bald von unserer Realität verabschieden können und das FakeNews-Problem von 2016 nur den Auftakt darstellte.

Gestern postete die SigGraph Konferenz ihr 2017er Paper-Video. Darin stellen sie die neuesten Entwicklungen im Bereich des CGI (Computer-Generated Imagery) dar. Ich poste diese Videos regelmäßig, it's my thing. Im neuen Clip stellen sie jede Menge neuer Technologien vor, und eine davon lies mir grade die Kinnlade auf den Schreibtisch knallen.

Ab Minute 1:25 stellen sie das Paper „Synthesizing Obama: Learning Lip synch from Audio“ (noch nicht online, wenn das auftaucht, mach ich nochmal was dazu).

Die haben aus Sprach-Audiofiles (!) vier verschiedene Obama-Videos generiert, die exakt zu den gesprochenen Worten gesyncht sind. Die Videoqualität ist mindblowing (ich habe das alte Face2Face-Video unten nochmal dazu gepackt zum Vergleich) und nicht mehr weit vom Fotorealismus (müsste man sich näher anschauen) entfernt. Die Bewegungen sind flüssig und vor allem: Sie sehen denen von Obama zum verwechseln ähnlich. Vergleicht die Qualität von 2017 mit dem vom März 2016 (Video unten). Da liegen ganze Realitäten dazwischen.

Das heisst, in nur wenigen Monaten werden wir die Möglichkeit haben, mit Adobe Audio eine Aufnahme von Trumps Kriegserklärung an Nordkorea zu generieren und per AI in ein täuschend echtes Video zu verwandeln.

Ich kann mich nur wiederholen: Fuck FakeNews. We ain't seen nothing yet.