Xerox Copy-Machines alter Numbers

Gepostet vor 3 Jahren, 8 Monaten in #Misc #Tech #Error #NewAesthetics

Share: Twitter Facebook Mail

Klingt erstmal spooky, ist aber nachvollziehbar: David Kriesel hat einen Bug in Xerox-Scankopierern entdeckt, die falsche Zahlen auf kopierten Seiten ausgeben. Die Lösung scheint nicht in einem OCR-Verfahren zu liegen – warum auch, warum sollte ein Kopierer wegen nicht oder falsch erkannter Texte einen Bild-Teil ersetzen? –, sondern in der JBIG2-Kompression, die sich eine Datenbank aus minimalen Bildteilen anlegt und diese benutzt, wenn sie auf einen bestimmten „Ähnlichkeits-Wert“ stösst. Und schon wird aus der 1 eine 4 und das Flugzeug stürzt mitten in Alburquerque ab, wo Heisenberg einen blutigen Teddy im Pool findet. Noch 5 Tage.

The error does not occur if PDFs are scanned with OCR, or TIFs are scanned (the latter seems plausible, as the pure image data should be saved into the TIF). Additionally, there seems to be a correlation between font size, scan dpi used. I was able to reliably reproduce the error for 200 DPI PDF scans w/o OCR, of sheets with Arial 7pt and 8pt numbers. Overall it looks like some sort of compression algorithm using patches more than once (I think I could even identify some equally-pixeled eights).

Edit: It seems that the above thought was not that wrong at all. Several mails I got suggest that the xerox machines use JBIG2 for compression. This algorithm creates a dictionary of image patches it finds “similar”. Those patches then get reused instead of the original image data, as long as the error generated by them is not “too high”. Makes sense.

http://www.dkriesel.com/en/blog/2013/0802_xerox-workcentres_are_switching_written_numbers_when_scanning scanners/photocopiers randomly alter numbers in scanned documents (via Cashy, danke Hans!)

heise.de: Xerox-Multifunktionsgeräte vertauschen beim Scannen klein gedruckte Ziffern

[update] Xerox haben einen Patch angekündigt und mitgeteilt, dass der Bug nur bei der höchsten Kompressionsstufe auftritt, was durchaus Sinn ergibt.

MuscularAnimeGirl[NSFW].jpg = IndustrialMusic.mp3

Cool Bug featuring „a muscular girl“.jpg, anime style („slighly NSFW“ [„it's the only sample I had“ – sure]) and Industrial…

Phantom Atlas: Historische Weltkarten und ihre Fehler

Neues Buch von Ed Brooke-Hitching über historische Karten und speziell die Fehler auf ihnen, die falschen, ideologisch geformten Projektionen der…

Umberto Eco-inspired Bot invents infinite Fleet of Troja

A Mighty Host, ein wunderbar lyrischer Twitter-Bot von Mike Lynch, der basierend auf Umberto Ecos The Infinity of Lists (dt.…

A Different Take On Me

Nette Installation von Roland Smeenk auf der „Bring Your Own Beamer“-Ausstellung in Utrecht, ein virtuelles Take-On-Me mit virtuellen Welten anstatt…

Bank Datacenter downed by Noise

In Rumänien sind die Festplatten im Data-Center einer Bank gecrasht, weil der Krach während einer Feuerübung, bei der sie Gas…

Signal Jammer Tanks

Von Julian Oliver (dem Herrn mit der Transparency Grenade) auf Twitter: „My 3 jammer tanks 'No Network' (GSM), 'No Internet'…

Excellent Dwarf Fortress-Bug

Some Bugs are better than others. Aus einem Interview mit Dwarf Fortress-Macher Tarn Adams. (via @neoascetic) It’s funny how I…

„Can't stop loving you“ can't be stopped being loved ❤️

Offenbar gibt es einen Bug auf LastFM, dank dem man Van Halens „Can't stop loving you“ nicht aus seinen „Loved…

How To break a Skype Bot

Reddit-User Llaver hat zufällig einen Skype-Bot kaputtgechattet. Dazu hat er diesen String hier gepostet: // config/db.js module.exports = { url…

Neural Facegrid 256

Tom White trainiert ein Neural Network auf prozedurale Gesichtserzeugung und heraus kommen jede Menge Face-Grids. Das Source-Hackfresse in der Mitte…

Glitchy Malware Demos

Über den YT-Channel von danooct1 voller Demos von Viren hatte ich schonmal vor drei Jahren gebloggt, seitdem ist jede Menge…