Programmers identifiable by compiled Code

Gepostet vor 1 Jahr, 14 Tagen in #Misc #Science #Tech #Coding #Language #Privacy

Share: Twitter Facebook Mail

Vor einem Jahr hatte ich über ein Paper gebloggt, laut dem Programmierer anhand ihres Coding-Styles identifiziert werden konnten. Überraschend war das nicht wirklich, man kann schon länger Menschen anhand ihres Sprachabdrucks online identifizieren. Jetzt haben sie ihre Studie erweitert und das geht wohl auch bei kompiliertem Code, was nochmal ’ne Spur abgefahrener ist. (Kompilierung ist, grob vereinfacht, die Übersetzung von Code in Maschinensprache.)

Executable binaries of compiled source code on their own are difficult to analyze because they lack human readable information. Nevertheless reverse engineering methods make it possible to disassemble and decompile executable binaries. After applying such reverse engineering methods to executable binaries, we can generate numeric representations of authorial style from features preserved in binaries. […]

- By comparing advanced and less advanced programmers’, we found that more advanced programmers are easier to de-anonymize and they have a more distinct coding style.
- We also de-anonymize GitHub users in the wild, which we explain in detail in the paper. These promising results are encouraging us to extend our method to large real world datasets of various natures for future work.
- Why does de-anonymization work so well? It’s not because the decompiled source code looks anything like the original. Rather, the feature vector obtained from disassembly and decompilation can be used to predict, using machine learning, the features in the original source code — with over 80% accuracy. This shows that executable binaries preserve transformed versions of the original source code features.

Freedom to Tinker: When coding style survives compilation: De-anonymizing programmers from executable binaries (via Schneier)
media.ccc.de: De-anonymizing Programmers: Large Scale Authorship Attribution from Executable Binaries of Compiled Code and Source Code

C2iLaPsXEAAT9I0

RechtsLinks 19.1.2017: Die völkische Umkopfung der AfD, Big Data im Wahlkampf und eine Fake-News-Studie

Sascha Lobo auf spOnline: Björn Höcke in Dresden – Schauen Sie diese Rede!: „Ein Gedankenexperiment: Wenn sich einhundert Menschen versammeln,…

wolf

Algorithm watching Wolf of Wallstreet

Tolles Computervision-Experiment von Støj: An algorithm watching a movie trailer: „A program removing everything but the objects it recognises when…

grammer

Graffiti Grammar Police

Punctuation Vigilantes for the rescue: „Their names? Agent X and Agent Full Stop. Their mission? To fix illegible and grammatically…

louie

How Louis CK tells a Joke

Neuer Clip von Evan „Nerdwriter“ Puschak (Patreon) über Sprache und Rythmus von Louis CK.

captcha

Miniature-Playground for Captcha-Solving AIs

„I'm not a Robot“ my ass. Mini World of Bits ('MiniWoB') is a benchmark for reinforcement learning agents who interact…

panic

How To build a Marvin the Depressed Reddit Bot in Python

Die Grünen fordern ja eine Transparenzpflicht für Social Bots. Ich hoffe inständig, dass jemand einen angemessenen Marvin-Bot für die Grünen…

nnnames

Neural Network Names from the Future

Nate Parrott hat ein Neural Network auf 7500 Vornamen trainiert und generiert nun neue Namen aus der Zukunft, inklusive „…

trump

Donald Trumps Name in Gebärdensprache

Donald Trump in Gebärdensprache, oben der Vorschlag für die American Sign Language als GIF, unten der für Österreichs Gebärdensprache. Now…

ram_01

Mechanical Sand-RAM

Schöne Arbeit von Ralf Baecker, ein mechanischer RAM, der Binärdaten mit Sandkörnern schreibt und damit ein bisschen Voodoo ausrechnet: Random…

456170_10151334428835368_2009538313_o

VERßALßATZ-ẞ WIRD OFFIßIELL

Der Rat für Rechtschreibung hat in seinem Bericht an die Ständige Konferenz der Kultusminister vorgeschlagen, das große scharfe S offiziell…

homer

Homer Simpson gezeichnet mit dem Problem des Handlungsreisenden

Jack Morris hat einen Algorithmus programmiert, der ihm Vektorgrafiken und Simpsons in Punktierungen umwandelt und auf diese dann das Problem…