I like AI-Turtles

Vor zwei Jahren bloggte ich zum ersten mal über Adversarial Images, die die Algorithmen von Computer Vision-Systemen stören oder komplett unbrauchbar machen. So kann man zum Beispiel eine Sonnenbrille mit einem Muster bedrucken, durch das man immer als Milla Jovovich identifiziert wird oder man kann Bilder mit einem für Menschen unsichtbaren Noise-Filter bearbeiten, die dann von Erkennungsalgorithmen als beliebiges Objekt erkannt werden.

Jetzt haben Wissenschaftler eine Methode entwickelt, in der ein einziger, genau platzierter Pixel im Bild ausreicht, um Computer Vision auszuhebeln: „In this paper, we propose a novel method for optically calculating extremely small adversarial perturbation (few-pixels attack), based on differential evolution. […] The results show that 73.8% of the test images can be crafted to adversarial images with modification just on one pixel with 98.7% confidence on average.“

In anderen Worten: Instagrams Nippel-Erkennung lässt sich wahrscheinlich und theoretisch mit einem standardisierten Photoshop-Layer aushebeln, wobei die Störer-Pixel im Paper keinesfalls unsichtbar und im Gegenteil supergut zu erkennen sind (Bild rechts) und in vollgesättigten RGB-Farben auf dem Bild rumliegen. Auch die Noise-Filter aus dem ersten Beispiel versagen, sobald man sie dreht oder skaliert. Maschinen kann man mit sowas vielleicht verarschen, mich allerdings nicht.

Aber Computer Vision-Trolling funktioniert nicht nur mit bedruckten Flächen oder Pixeln, man kann auch eine Schildkröte 3D-drucken, die von Googles Image Classifier niemals als Schildkröte und meistens als Gewehr klassifiziert wird: Fooling Neural Networks in the Physical World with 3D Adversarial Objects.

Das erreichen sie mit einem neuen Algorithmus, der die Maschinen-Sicht auf dasselbe Objekt zerstört – sowohl gedreht oder skaliert, in 3D oder 2D. Demnächst reicht also für einen falschen Terrorverdacht ein trojanisches Toy, das von der Überwachungscam am Südkreuz als Gewehr identifiziert wird. Yay, Future!

Here is a 3D-printed turtle that is classified at every viewpoint as a “rifle” by Google’s InceptionV3 image classifier, whereas the unperturbed turtle is consistently classified as “turtle”.

We do this using a new algorithm for reliably producing adversarial examples that cause targeted misclassification under transformations like blur, rotation, zoom, or translation, and we use it to generate both 2D printouts and 3D models that fool a standard neural network at any angle.

Our process works for arbitrary 3D models - not just turtles! We also made a baseball that classifies as an espresso at every angle! The examples still fool the neural network when we put them in front of semantically relevant backgrounds; for example, you’d never see a rifle underwater, or an espresso in a baseball mitt.