A.I.s erzählen Geschichten aus Fotoserien, generieren Bilder aus Text und erzeugen eine Stimme

Gepostet vor 6 Monaten, 3 Tagen in Misc Tech Share: Twitter Facebook Mail

Drei hübsche neue AI-Bits, alle via CreativeAI:

1. ein Neural Network, das Stories aus Bilderserien generiert (Paper: Storytelling of Photo Stream with Bidirectional Multi-thread Recurrent Neural Network). Zur Erinnerung: Vor zwei Monaten waren wir noch bei (ziemlich guten) Beschreibungen von Einzelbildern.

ai1 ai2

Visual storytelling aims to generate human-level narrative language (i.e., a natural paragraph with multiple sentences) from a photo streams. A typical photo story consists of a global timeline with multi-thread local storylines, where each storyline occurs in one different scene. Such complex structure leads to large content gaps at scene transitions between consecutive photos. Most existing image/video captioning methods can only achieve limited performance, because the units in traditional recurrent neural networks (RNN) tend to "forget" the previous state when the visual sequence is inconsistent. In this paper, we propose a novel visual storytelling approach with Bidirectional Multi-thread Recurrent Neural Network (BMRNN). First, based on the mined local storylines, a skip gated recurrent unit (sGRU) with delay control is proposed to maintain longer range visual information. Second, by using sGRU as basic units, the BMRNN is trained to align the local storylines into the global sequential timeline. Third, a new training scheme with a storyline-constrained objective function is proposed by jointly considering both global and local matches. Experiments on three standard storytelling datasets show that the BMRNN model outperforms the state-of-the-art methods.

2. So ungefähr das Gegenteil: Ein Neural Network generiert Bilder aus Textbeschreibungen (Paper: Generative Adversarial Text to Image Synthesis). AI-generierte „Fotos“ sind nach wie vor ziemlich LoRes, dürfte noch ein bisschen dauern, bis da wirklich praxistaugliche Ergebnisse bei rauskommen. Es braucht allerdings nicht wenig Vorstellungskraft, um sich vorzustellen, wozu solche Algorithmen in ein paar Jahren in der Lage sind, zum Beispiel „diktierte“ Comics im Stil von Jack Kirby oder „Ey Siri, generier mir mal ’ne Steppenwolf-Verfilmung mit Wolverine in der Hauptrolle.“

ai3 ai4 ai5

Automatic synthesis of realistic images from text would be interesting and useful, but current AI systems are still far from this goal. However, in recent years generic and powerful recurrent neural network architectures have been developed to learn discriminative text feature representations. Meanwhile, deep convolutional generative adversarial networks (GANs) have begun to generate highly compelling images of specific categories such as faces, album covers, room interiors etc. In this work, we develop a novel deep architecture and GAN formulation to effectively bridge these advances in text and image modeling, translating visual concepts from characters to pixels. We demonstrate the capability of our model to generate plausible images of birds and flowers from detailed text descriptions.

3. Ein Neural Network generiert eine Stimme. Hierzu einfach ’nen Kurzfilm von Chris Cunningham vorstellen, am besten Rubber Johnny:

This is a recursive neural network (LSTM type) with 680 neurons and 3 layers trying to find patterns in audio and reproduce them as well as it can. It's not a particularly big network considering the complexity and size of the data, mostly due to computing constraints, which makes me even more impressed with what it managed to do.

The audio that the network was learning from is voice actress Kanematsu Yuka voicing Hinata from Pure Pure. I used 11025 Hz, 8-bit audio because sound files get big quickly, at least compared to text files - 10 minutes already runs to 6.29MB, while that much plain text would take weeks or months for a human to read.

I was using the program "torch-rnn" (https://github.com/jcjohnson/torch-rnn/), which is actually designed to learn from and generate plain text. I wrote a program that converts any data into UTF-8 text and vice-versa, and to my excitement, torch-rnn happily processed that text as if there was nothing unusual.

Tags: AI AlgoCulture

unfoodtruckspecified

Artbot.Space: Twitter-Bot remixt Headlines über algorithmische Kunst

Maria Roszkowska and Nicolas Maigret haben eine Plattform für AI-generierte Konzeptkunst aufgesetzt. Auf Artbot.Space sammelt man die Ergebnisse des Predictive…

A screenshot of New Zealand man Richard Lee's passport photo rejection notice, supplied to Reuters December 7, 2016.   Richard Lee/Handout via REUTERS

„Racist“ Algorithm tells Asian to open his eyes

Ein „rassistischer“ Gesichtserkennungs-Algorithmus verweigert den Passbild-Upload eines Asiaten wegen angeblich geschlossener Augen. Richard Lee's attempt to renew his passport was…

Amazon works on killing billions of Jobs because Duh.

Amazon works on killing billions of Jobs because Duh.

Welcome to Amazon Go der Zukunft von alleine hierzulande über einer Million Jobs im Einzelhandel, ersetzt durch automatisierte Distribution, Konsum-Überwachung…

algo1

Algorithmic Nicolas Cage/Taylor Swift Face-Swaps

Iryna Korshunova, Wenzhe Shi, Joni Dambre und Lucas Theis haben einen Algorithmus für FaceSwaps programmiert und zur Illustration ihrer Methode…

c1

█ Blackout █ Generative Censorship-Poetry

█ Blackout █ ist Liza Dalys Beitrag zum NaNoGenMo 2016 (National Novel Generation Month, das AlgoPoetry-Äquivalent zum NaNoWriMo), ein Algorithmus…

sat

Neural Network Satellite-Images from Doodles

Invisible Cities, ein Neural Network, das Satellitenbilder aus Gekritzel generiert. Funktioniert so ein bisschen wie Style-Transfer, nur für Satellitenpics. In…

birdsounds

Google A.I. sortiert Vogelgesang

Google hat unter AI-Experiments ’ne Spielwiese für Machine Learning und AI eingerichtet. Ein paar der Experimente kannte ich bereits von…

obama

Adobe Voice-Generator formuliert neue Worte aus Stimmaufnahmen

Adobe hat vor zwei Tagen auf seiner Max Conference neben AI-Schnickschnack für seine CreativeCloud auch ein neues Tool namens VoCo…

AI goes Star Craft

AI goes Star Craft

Google und Blizzard haben gestern auf der BlizzCon eine offizielle Coop angekündigt, die StarCraft (also wohl den Code und damit…

future

Alexa Fishbot

The Future. It's beautiful. who did thispic.twitter.com/Wriy531ALr — 🦃 Wolf ウルフ (@Ouren) November 4, 2016

bildschirmfoto-2016-11-04-um-18-50-29

Once in a Lifetime-Bot ❤️

Not the same as it ever was: Der Tweetie-Bot How Did I Get Here? von Botferatu, der Lyrics für Talking…