Bildkompression per Machine Learning

Gepostet vor 10 Monaten, 23 Tagen in #Science #Tech #AI #Compression

Share: Twitter Facebook Mail

comp

Google hat eine neue Methode zur Bildkomprimierung per Machine Learning erfunden, die rund 25% kleinere Dateien erzeugt. Die JPG-Artefakte fallen dabei weg – JPG komprimiert über eine Farbreduzierung in 8x8-Pixelblöcken, wodurch die Kanten entstehen –, dafür wird das Bild allerdings weichgezeichnet und verliert Details. Im Bild oben habe ich einen Bildausschnitt vergrößert, um die Details zu zeigen.

comp2

Die Komprimierung funktioniert grob gesagt, indem eine AI das Ausgangsbild lernt und in mehreren Durchgängen durch die gelernten Pattern und anhand der Unterschiede zum Quellbild rekonstruiert. Sieht man im Bild oben: „Left: Original image, I = R[0]. Center: Reconstructed image, P[1]. Right: the residual, R[1], which represents the error introduced by compression.“ Das mittlere, erste Ergebnis wird nun so oft durch denselben Algorithmus gejagt, bis die Fehler weitgehend ausgeglichen sind und das Bild rekonstriert wurde.

Paper: Full Resolution Image Compression with Recurrent Neural Networks
Github: Image Compression with Neural Networks

comp3

Our system works by iteratively refining a reconstruction of the original image, with both the encoder and decoder using Residual GRU layers so that additional information can pass from one iteration to the next. Each iteration adds more bits to the encoding, which allows for a higher quality reconstruction. […]

The residual image represents how different the current version of the compressed image is from the original. This image is then given as input to the network with the goal of removing the compression errors from the next version of the compressed image. […] At each further iteration, the network gains more information about the errors introduced by compression (which is captured by the residual image). If it can use that information to predict the residuals even a little bit, the result is a better reconstruction. Our models are able to make use of the extra bits up to a point. We see diminishing returns, and at some point the representational power of the network is exhausted.

To demonstrate file size and quality differences, we can take a photo of Vash, a Japanese Chin, and generate two compressed images, one JPEG and one Residual GRU. Both images target a perceptual similarity of 0.9 MS-SSIM, a perceptual quality metric that reaches 1.0 for identical images. The image generated by our learned model results in an file 25% smaller than JPEG.

DeepMind releases StarCraft AI

Google und Blizzard haben ihre StarCraft AI veröffentlicht: Testing our agents in games that are not specifically designed for AI…

Neural Network-Faces synched to Music

„My first attempt to map a song made by @kamptweets onto GAN generated proto-faces.“ Bohemian Rhapsody next. The Three Nightingans.…

AI-Animations with human Sounds

Google vor ein paar Tagen so: „Yay, wir haben hier 'ne neue AI-based Animation-Tech, hooray!“ (Paper) Hayayo Miyazaki über AI-based…

Visual AI-Spaces Auto-Pilot

Ich habe schon ein paar mal über Mario Klingemanns Arbeiten hier gebloggt, derzeit jagt er Neural Networks durch Feedback-Loops und…

Synthesizing Obama from Audio

Im Mai bloggte ich über ein damals noch nicht veröffentlichtes Paper zur SigGraph2017, in dem sie eine Methode für generative…

Moarph

Mario Klingemann does some weird shit again with CycleGAN Feedback Loops (Neural Networks feeding their results back to each other).…

3D-Visualized Typography-Ideaspace

Ich habe schon einige AI-Visualisierungen von Fonts gesehen, also sortierte Abbildungen des visuellen Idea-Space der Zeichensätze (also genau wie Skateboards…

I am sitting in a Machine

Tolle Arbeit von Martin Backes, eine Hommage an Alvin Luciers berühmtes Soundpiece I Am Sitting in a Room, für das…

Neural Network sorts Vibrators

Sabrina Verhage trainierte ein Neural Network auf Vibratoren und sortierte sie dann nach visuellen Merkmalen wie Farbe, Form, Pimmelrealismus und…

Imaginary People

Mike Tyka bastelt fiktive Gesichter aus zweistufigen Neural Networks: Portraits of imaginary People. Das erste generiert die herkömmlichen Kunstfressen in…

Neural Network dreams your Flesh

Das holländische Radio NPO hat eine eigene Instanz von Christopher Hesses Pix2Pix auf 'nem Server installiert und dort kann man…