AI Voice-Cloning

Gepostet vor 27 Tagen in #Science #Tech #AI #AlgoCulture #Audio #Samples

Share: Twitter Facebook Mail

Vor ein paar Monate veröffentlichte Google sein WaveNet, ein auf Stimmen trainiertes Neurales Netzwerk mit einem deutlichen Qualitätssprung gegenüber bisherigen Text-2-Speech-Synthesis-Verfahren darstellte. Ein paar Wochen später präsentierte Adobe dann ein neues Tool namens VoCo für Audio-Editing, das Stimmen aus Audio-Aufnahmen generiert und damit täuschend echte Fake-Mitschnitte generieren konnte.

Und vor wenigen Wochen hatten Wissenschaftler einen „Neural Parametric Singing Synthesizer“ entwickelt, „a new model for singing synthesis based on a modified version of the WaveNet architecture“, eine künstliche Singstimme.

Nun gibt es Lyrebird, die behaupten, aus nur einer Minute Stimmaufzeichnungen jegliche Formulierung und Intonation simulieren zu können: „Record 1 minute from someone's voice and Lyrebird can
compress her/his voice's DNA into a unique key. Use this key to generate anything with its corresponding voice“. Lyrebird will angeblich „1000 sentences in less than half a second“ generieren, was verglichen mit Googles WaveNet („it takes 90 minutes to synthesize one second of audio“) einen Quantensprung darstellt (sofern sie ähnliche Verfahren benutzen) und am Ende wollen sie eine API bauen, mit der man jegliche Stimmen imitieren kann.

Lyrebird will offer an API to copy the voice of anyone. It will need as little as one minute of audio recording of a speaker to compute a unique key defining her/his voice. This key will then allow to generate anything from its corresponding voice. The API will be robust enough to learn from noisy recordings. The following sample illustrates this feature, the samples are not cherry-picked.

Die Demos sind gut, aber ausbaufähig:

Eine weitere neue App für Voice-Cloning mit einem anderen Verfahren (wie es auch bei Siri oder Alexa benutzt wird) kommt aus Paris, der Economist hat 'nen kleinen Artikel darüber und von dort ein nettes Detail über das sogenannte „Voice Banking“:

Until recently, voice cloning—or voice banking, as it was then known—was a bespoke industry which served those at risk of losing the power of speech to cancer or surgery. Creating a synthetic copy of a voice was a lengthy and pricey process. It meant recording many phrases, each spoken many times, with different emotional emphases and in different contexts (statement, question, command and so forth), in order to cover all possible pronunciations. Acapela Group, a Belgian voice-banking company, charges €3,000 ($3,200) for a process that requires eight hours of recording. Other firms charge more and require a speaker to spend days in a sound studio.

Die Probleme, die das reibungslose Kopieren von Stimmen mit sich bringt, liegen auf der Hand und die InfoSec-Bruhahas sind nur die offensichtlichsten davon:

Researchers at the University of Alabama, Birmingham, led by Nitesh Saxena, were able to use Festvox to clone voices based on only five minutes of speech retrieved online. When tested against voice-biometrics software like that used by many banks to block unauthorised access to accounts, more than 80% of the fake voices tricked the computer. Alan Black, one of Festvox’s developers, reckons systems that rely on voice-ID software are now “deeply, fundamentally insecure”.

Die Entwickler von Lyrebird sind sich der Probleme ihrer Technologie bewusst, Snip von der Ethics-Section ihrer Website:

Voice recordings are currently considered as strong pieces of evidence in our societies and in particular in jurisdictions of many countries. Our technology questions the validity of such evidence as it allows to easily manipulate audio recordings. This could potentially have dangerous consequences such as misleading diplomats, fraud and more generally any other problem caused by stealing the identity of someone else.

By releasing our technology publicly and making it available to anyone, we want to ensure that there will be no such risks. We hope that everyone will soon be aware that such technology exists and that copying the voice of someone else is possible. More generally, we want to raise attention about the lack of evidence that audio recordings may represent in the near future.

Hilft aber alles nix: Wenn wir die Stimm-Erzeugung erstmal mit AI-Video-Synthesis zusammenbringen können, dann fängt der Spaß erst richtig an. „Siri – upload video of Trump saying 'nuke em all!' to youtube“.

Heute in Darmstadt: Das Geile Neue Internet – Potential of (visible) Infinite Idea Space

[update] Hier ein Livestream auf Facebook. Heute abend erzähle ich auf dem Webmontag Darmstadt – Born and raised Heiner, gude!…

Smile-Filtering a Face until there is no Face left to smile-filter

Gene Kogan: „just in case you were wondering, this is what happens when you repeatedly run FaceApp’s smile filter until…

Neural Network dreams your Dreams

Wissenschaftler können bereits seit Jahren Bilder aus Gehirnscans extrahieren, also: Tatsächlich ein Abbild davon schaffen, was wir sehen. Die Resultate…

Neural Network dreams of riding a Train

Tolle Arbeit von Damien Henry: Ein Neural Network, ein sogenannter „prediction algorithm“, der Frames eines Videos „errät“, ausgehend vom jeweils…

4 AI-Obamas learn Algo-Lipsynch from Audio

Seit ich über die neuen Möglichkeiten von Machine Learning bezüglich Computer Vision und der Generation von Bildern schreibe, vor allem…

Daddy Cthulhu Cumshot: Weird Algo-Poetry from repetitive Cut'n'Paste-Autocomplete

Das LanguageLog hat die „psychedellic“ AI-„Dreaming of“-Technik auf Google Translate angewandt und dort regelmäßige Sprach/Zeichen-Muster („Iä! Iä! Iä! Iä! Iä!…

Neural Networks for Character Control

Daniel Holden, Taku Komura und Jun Saito haben ein Neural Network auf Character-Animationen trainiert, mit dem Figuren in Games und…

Predictive Policing for Banksters

Schönes Ding von Sam Lavigne, Predictive Policing für Wirtschaftskriminalität im Finanzsektor, 'ne Robocop-App für Bankster. White Collar Crime Risk Zones…

Neural Network cooks with Cthulhu

Janelle Shane spielt mit Neural Networks rum und hat eins davon auf Lovecraft trainiert. Dann hat sie das Neural Network…

Next Level, photorealistic Style-Transfer

In ihrem neuen Paper stellen Fujun Luan, Sylvain Paris, Eli Shechtman und Kavita Bala eine neue Style-Transfer-Methode vor: Figure 1:…