AI Voice-Cloning

Gepostet vor 3 Monaten, 27 Tagen in #Science #Tech #AI #AlgoCulture #Audio #Samples

Share: Twitter Facebook Mail

Vor ein paar Monate veröffentlichte Google sein WaveNet, ein auf Stimmen trainiertes Neurales Netzwerk mit einem deutlichen Qualitätssprung gegenüber bisherigen Text-2-Speech-Synthesis-Verfahren darstellte. Ein paar Wochen später präsentierte Adobe dann ein neues Tool namens VoCo für Audio-Editing, das Stimmen aus Audio-Aufnahmen generiert und damit täuschend echte Fake-Mitschnitte generieren konnte.

Und vor wenigen Wochen hatten Wissenschaftler einen „Neural Parametric Singing Synthesizer“ entwickelt, „a new model for singing synthesis based on a modified version of the WaveNet architecture“, eine künstliche Singstimme.

Nun gibt es Lyrebird, die behaupten, aus nur einer Minute Stimmaufzeichnungen jegliche Formulierung und Intonation simulieren zu können: „Record 1 minute from someone's voice and Lyrebird can
compress her/his voice's DNA into a unique key. Use this key to generate anything with its corresponding voice“. Lyrebird will angeblich „1000 sentences in less than half a second“ generieren, was verglichen mit Googles WaveNet („it takes 90 minutes to synthesize one second of audio“) einen Quantensprung darstellt (sofern sie ähnliche Verfahren benutzen) und am Ende wollen sie eine API bauen, mit der man jegliche Stimmen imitieren kann.

Lyrebird will offer an API to copy the voice of anyone. It will need as little as one minute of audio recording of a speaker to compute a unique key defining her/his voice. This key will then allow to generate anything from its corresponding voice. The API will be robust enough to learn from noisy recordings. The following sample illustrates this feature, the samples are not cherry-picked.

Die Demos sind gut, aber ausbaufähig:

Eine weitere neue App für Voice-Cloning mit einem anderen Verfahren (wie es auch bei Siri oder Alexa benutzt wird) kommt aus Paris, der Economist hat 'nen kleinen Artikel darüber und von dort ein nettes Detail über das sogenannte „Voice Banking“:

Until recently, voice cloning—or voice banking, as it was then known—was a bespoke industry which served those at risk of losing the power of speech to cancer or surgery. Creating a synthetic copy of a voice was a lengthy and pricey process. It meant recording many phrases, each spoken many times, with different emotional emphases and in different contexts (statement, question, command and so forth), in order to cover all possible pronunciations. Acapela Group, a Belgian voice-banking company, charges €3,000 ($3,200) for a process that requires eight hours of recording. Other firms charge more and require a speaker to spend days in a sound studio.

Die Probleme, die das reibungslose Kopieren von Stimmen mit sich bringt, liegen auf der Hand und die InfoSec-Bruhahas sind nur die offensichtlichsten davon:

Researchers at the University of Alabama, Birmingham, led by Nitesh Saxena, were able to use Festvox to clone voices based on only five minutes of speech retrieved online. When tested against voice-biometrics software like that used by many banks to block unauthorised access to accounts, more than 80% of the fake voices tricked the computer. Alan Black, one of Festvox’s developers, reckons systems that rely on voice-ID software are now “deeply, fundamentally insecure”.

Die Entwickler von Lyrebird sind sich der Probleme ihrer Technologie bewusst, Snip von der Ethics-Section ihrer Website:

Voice recordings are currently considered as strong pieces of evidence in our societies and in particular in jurisdictions of many countries. Our technology questions the validity of such evidence as it allows to easily manipulate audio recordings. This could potentially have dangerous consequences such as misleading diplomats, fraud and more generally any other problem caused by stealing the identity of someone else.

By releasing our technology publicly and making it available to anyone, we want to ensure that there will be no such risks. We hope that everyone will soon be aware that such technology exists and that copying the voice of someone else is possible. More generally, we want to raise attention about the lack of evidence that audio recordings may represent in the near future.

Hilft aber alles nix: Wenn wir die Stimm-Erzeugung erstmal mit AI-Video-Synthesis zusammenbringen können, dann fängt der Spaß erst richtig an. „Siri – upload video of Trump saying 'nuke em all!' to youtube“.

Algorithmic Image-Watermark Remover

Google hat ein neues Paper über die automatische Entfernung von Wasserzeichen in Pics, netterweise nennen sie das Paper „On the…

10 PRINT CHR$ (205.5 + RND (1)); on a Commodore Pet

10 PRINT CHR$ (205.5 + RND (1)); 20 GOTO 10 ist sowas wie ein Miniatur-Programm in Basic für Generative Graphics,…

DeepMind releases StarCraft AI

Google und Blizzard haben ihre StarCraft AI veröffentlicht: Testing our agents in games that are not specifically designed for AI…

Self-Driving Cars hacked with Love and Hate

Wissenschaftler der Uni Washington haben die Computer-Vision-Systeme von selbstfahrenden Autos gehackt – indem sie Love und Hate in colorierten Pixelfonts auf…

Cellular Automata Cube

Cubes.io: Conways Game of Life als 3D-Spielzeug mit Cubes und Spheres und Schnickschnack als Evolution-Nullpunkt, von wo aus die ganzen…

Neural Network-Faces synched to Music

„My first attempt to map a song made by @kamptweets onto GAN generated proto-faces.“ Bohemian Rhapsody next. The Three Nightingans.…

AI-Animations with human Sounds

Google vor ein paar Tagen so: „Yay, wir haben hier 'ne neue AI-based Animation-Tech, hooray!“ (Paper) Hayayo Miyazaki über AI-based…

Podcasts: Die Grenze des Sagbaren, Riot-Selfies, das Zeitalter des Zorns und der Summer of Love

Podcasts und Hörspiele, die ich in den letzten Wochen weggehört habe, unter anderem mit 'ner kurzen Kritik von Pankaj Mishras…

Visual AI-Spaces Auto-Pilot

Ich habe schon ein paar mal über Mario Klingemanns Arbeiten hier gebloggt, derzeit jagt er Neural Networks durch Feedback-Loops und…

Synthesizing Obama from Audio

Im Mai bloggte ich über ein damals noch nicht veröffentlichtes Paper zur SigGraph2017, in dem sie eine Methode für generative…

Generative Pearls

Cool fractal and generative art by Julien Leonard. I dig his explanation from his about-page: „I create algorithms that connect…