Google WaveNet: Neural Network-generated Text-2-Speech

Gepostet vor 3 Monaten, 1 Tag in Tech Share: Twitter Facebook Mail

sam

Google hat seine Neural Networks auf Stimmerzeugung trainiert und ein neues Verfahren zur Synthetisierung von Sprache erfunden. Die Ergebnisse sind deutlich besser, als das, was man bisher von Text-2-Speech-Synthesis so kennt:

Die füttern ihr WaveNet mit Lautsprache, bis zu einer „echten“ Text-2-Speech-Anwendung fehlt also noch ein kleines Stück (und das Teil ist ohnehin eher… langsam: „it takes 90 minutes to synthesize one second of audio.“)

Interessant: Da die Algorithmen aber auch auf Audio-Samples trainiert sind, können sie auch einfach losreden ohne Text-Input und die Ergebnisse hier beinhalten dann auch „menschliche Spuren“ in der Kunst-Stimme, also Atmen, Lispeln und subtile Schmatzer:

Discover Mag: Google DeepMind’s WaveNet AI Sounds Human, Rocks the Piano
Technology Review: Face of a Robot, Voice of an Angel? – DeepMind’s use of neural networks to synthesize speech could finally make computers sound more human.

generating speech with computers — a process usually referred to as speech synthesis or text-to-speech (TTS) — is still largely based on so-called concatenative TTS, where a very large database of short speech fragments are recorded from a single speaker and then recombined to form complete utterances. This makes it difficult to modify the voice (for example switching to a different speaker, or altering the emphasis or emotion of their speech) without recording a whole new database.

This has led to a great demand for parametric TTS, where all the information required to generate the data is stored in the parameters of the model, and the contents and characteristics of the speech can be controlled via the inputs to the model. So far, however, parametric TTS has tended to sound less natural than concatenative, at least for syllabic languages such as English. Existing parametric models typically generate audio signals by passing their outputs through signal processing algorithms known as vocoders.

WaveNet changes this paradigm by directly modelling the raw waveform of the audio signal, one sample at a time. As well as yielding more natural-sounding speech, using raw waveforms means that WaveNet can model any kind of audio, including music. […]

Here are some samples from all three systems so you can listen and compare yourself:

[…] If we train the network without the text sequence, it still generates speech, but now it has to make up what to say. As you can hear from the samples below, this results in a kind of babbling, where real words are interspersed with made-up word-like sounds:

[…] By changing the speaker identity, we can use WaveNet to say the same thing in different voices:

[…] Since WaveNets can be used to model any audio signal, we thought it would also be fun to try to generate music. Unlike the TTS experiments, we didn’t condition the networks on an input sequence telling it what to play (such as a musical score); instead, we simply let it generate whatever it wanted to. When we trained it on a dataset of classical piano music, it produced fascinating samples like the ones below:

Tags: AI AlgoCulture Language

homer

Homer Simpson gezeichnet mit dem Problem des Handlungsreisenden

Jack Morris hat einen Algorithmus programmiert, der ihm Vektorgrafiken und Simpsons in Punktierungen umwandelt und auf diese dann das Problem…

pf

„Postfaktisch“ ist Wort des Jahres

Die Gesellschaft für deutsche Sprache hat „postfaktisch“ zum Wort des Jahres gewählt, nachdem bereits das Oxford Dictionary vor ein paar Wochen…

unfoodtruckspecified

Artbot.Space: Twitter-Bot remixt Headlines über algorithmische Kunst

Maria Roszkowska and Nicolas Maigret haben eine Plattform für AI-generierte Konzeptkunst aufgesetzt. Auf Artbot.Space sammelt man die Ergebnisse des Predictive…

A screenshot of New Zealand man Richard Lee's passport photo rejection notice, supplied to Reuters December 7, 2016.   Richard Lee/Handout via REUTERS

„Racist“ Algorithm tells Asian to open his eyes

Ein „rassistischer“ Gesichtserkennungs-Algorithmus verweigert den Passbild-Upload eines Asiaten wegen angeblich geschlossener Augen. Richard Lee's attempt to renew his passport was…

Amazon works on killing billions of Jobs because Duh.

Amazon works on killing billions of Jobs because Duh.

Welcome to Amazon Go der Zukunft von alleine hierzulande über einer Million Jobs im Einzelhandel, ersetzt durch automatisierte Distribution, Konsum-Überwachung…

algo1

Algorithmic Nicolas Cage/Taylor Swift Face-Swaps

Iryna Korshunova, Wenzhe Shi, Joni Dambre und Lucas Theis haben einen Algorithmus für FaceSwaps programmiert und zur Illustration ihrer Methode…

c1

█ Blackout █ Generative Censorship-Poetry

█ Blackout █ ist Liza Dalys Beitrag zum NaNoGenMo 2016 (National Novel Generation Month, das AlgoPoetry-Äquivalent zum NaNoWriMo), ein Algorithmus…

sat

Neural Network Satellite-Images from Doodles

Invisible Cities, ein Neural Network, das Satellitenbilder aus Gekritzel generiert. Funktioniert so ein bisschen wie Style-Transfer, nur für Satellitenpics. In…

birdsounds

Google A.I. sortiert Vogelgesang

Google hat unter AI-Experiments ’ne Spielwiese für Machine Learning und AI eingerichtet. Ein paar der Experimente kannte ich bereits von…

obama

Adobe Voice-Generator formuliert neue Worte aus Stimmaufnahmen

Adobe hat vor zwei Tagen auf seiner Max Conference neben AI-Schnickschnack für seine CreativeCloud auch ein neues Tool namens VoCo…

AI goes Star Craft

AI goes Star Craft

Google und Blizzard haben gestern auf der BlizzCon eine offizielle Coop angekündigt, die StarCraft (also wohl den Code und damit…