Googles algorithmic Image Captions

Gepostet vor 2 Jahren, 9 Monaten in #Misc #Science #Tech #AI #Google #Language

Share: Twitter Facebook Mail

img

Google experimentiert mit automatisch generierten Bildbeschreibungen: Über ein Convolutional Neural Network (CNN) identifizieren sie zunächst die Objekte im Bild, mit einem Recurrent Neural Network (RNN) bauen sie dann aus diesen Stichwörtern komplette Sätze. Ich freue mich schon auf die Glitches!

imgggPeople can summarize a complex scene in a few words without thinking twice. It’s much more difficult for computers. But we’ve just gotten a bit closer -- we’ve developed a machine-learning system that can automatically produce captions (like the three above) to accurately describe images the first time it sees them. This kind of system could eventually help visually impaired people understand pictures, provide alternate text for images in parts of the world where mobile connections are slow, and make it easier for everyone to search on Google for images.

Google Research: A picture is worth a thousand (coherent) words: building a natural description of images (via Algopop)
Paper: Show and Tell: A Neural Image Caption Generator

[update] Die Stock-Photo-Bude EyeEm hat sich einen Algorithmus zur Bewertung der Ästhetik von Bildern gebastelt: „EyeEm is 'training' its algorithms to identify which photos actually look good. By looking at things like which objects are in focus and blurred, what’s located at each third of a photo, and other identifiers of 'beauty', the ranking algorithms determine an EyeRank of aesthetic quality for each photo and applies an aggregated score to each photographer.“ (Danke Fabian!)

DeepMind releases StarCraft AI

Google und Blizzard haben ihre StarCraft AI veröffentlicht: Testing our agents in games that are not specifically designed for AI…

Stats of Fucks to give on Twitter

Travis Hoppe („post-punk scientist; highly irrelevant“) analysiert das Wort „fuck“ auf Twitter. (via Reddit) Insgesamt findet sich „fuck“ mit einem…

Neural Network-Faces synched to Music

„My first attempt to map a song made by @kamptweets onto GAN generated proto-faces.“ Bohemian Rhapsody next. The Three Nightingans.…

AI-Animations with human Sounds

Google vor ein paar Tagen so: „Yay, wir haben hier 'ne neue AI-based Animation-Tech, hooray!“ (Paper) Hayayo Miyazaki über AI-based…

Visual AI-Spaces Auto-Pilot

Ich habe schon ein paar mal über Mario Klingemanns Arbeiten hier gebloggt, derzeit jagt er Neural Networks durch Feedback-Loops und…

Synthesizing Obama from Audio

Im Mai bloggte ich über ein damals noch nicht veröffentlichtes Paper zur SigGraph2017, in dem sie eine Methode für generative…

Text-Messaging Acronyms before Text-Messaging Acronyms

TMWYHOT will be my favorite prehistoric Chat-Acronym for the next few Aeons. Also: I ❤️ McSweeneys: TMB4TM (TEXT MESSAGES BEFORE…

Podcast: Von Palindromen, Reverse Speech und Teufelsbotschaften

Schöner Podcast vom Deutschlandfunk über Palindrome, satanische Botschaften und das Rückwärtsreden. Ich kann übrigens mit links flüssig spiegelverkehrt schreiben und…

VERSALSATZ-ẞ IST SEIT HEUTE OFFIZIELLER GROẞBUCHSTABE YAY!

Der Rat für Rechtschreibung hat das neue Regelwerk veröffentlicht und nun ist es amtlich: Das große ẞ ist seit heute…

Moarph

Mario Klingemann does some weird shit again with CycleGAN Feedback Loops (Neural Networks feeding their results back to each other).…

Gun-Emoji Pairings 🔫😶

Interesting analysis of the Gun-Emoji-Pairings: „What does the Gun shoot at?“ and „Who pulls the Trigger?“