Programmers identifiable by compiled Code

Gepostet vor 1 Jahr, 7 Monaten in #Misc #Science #Tech #Coding #Language #Privacy

Share: Twitter Facebook Mail

Vor einem Jahr hatte ich über ein Paper gebloggt, laut dem Programmierer anhand ihres Coding-Styles identifiziert werden konnten. Überraschend war das nicht wirklich, man kann schon länger Menschen anhand ihres Sprachabdrucks online identifizieren. Jetzt haben sie ihre Studie erweitert und das geht wohl auch bei kompiliertem Code, was nochmal ’ne Spur abgefahrener ist. (Kompilierung ist, grob vereinfacht, die Übersetzung von Code in Maschinensprache.)

Executable binaries of compiled source code on their own are difficult to analyze because they lack human readable information. Nevertheless reverse engineering methods make it possible to disassemble and decompile executable binaries. After applying such reverse engineering methods to executable binaries, we can generate numeric representations of authorial style from features preserved in binaries. […]

- By comparing advanced and less advanced programmers’, we found that more advanced programmers are easier to de-anonymize and they have a more distinct coding style.
- We also de-anonymize GitHub users in the wild, which we explain in detail in the paper. These promising results are encouraging us to extend our method to large real world datasets of various natures for future work.
- Why does de-anonymization work so well? It’s not because the decompiled source code looks anything like the original. Rather, the feature vector obtained from disassembly and decompilation can be used to predict, using machine learning, the features in the original source code — with over 80% accuracy. This shows that executable binaries preserve transformed versions of the original source code features.

Freedom to Tinker: When coding style survives compilation: De-anonymizing programmers from executable binaries (via Schneier)
media.ccc.de: De-anonymizing Programmers: Large Scale Authorship Attribution from Executable Binaries of Compiled Code and Source Code

Stats of Fucks to give on Twitter

Travis Hoppe („post-punk scientist; highly irrelevant“) analysiert das Wort „fuck“ auf Twitter. (via Reddit) Insgesamt findet sich „fuck“ mit einem…

Monospaced Programming Fonts with Ligatures

Didn't know these exist, love it: Monospaced Programming Fonts with Ligatures. Three of the most interesting and thoughtful monospaced programming…

Text-Messaging Acronyms before Text-Messaging Acronyms

TMWYHOT will be my favorite prehistoric Chat-Acronym for the next few Aeons. Also: I ❤️ McSweeneys: TMB4TM (TEXT MESSAGES BEFORE…

Podcast: Von Palindromen, Reverse Speech und Teufelsbotschaften

Schöner Podcast vom Deutschlandfunk über Palindrome, satanische Botschaften und das Rückwärtsreden. Ich kann übrigens mit links flüssig spiegelverkehrt schreiben und…

Stereographic Torus Knot

I'm not sure what's going on here but I like it: „This is very similar to Rise Up, though with…

VERSALSATZ-ẞ IST SEIT HEUTE OFFIZIELLER GROẞBUCHSTABE YAY!

Der Rat für Rechtschreibung hat das neue Regelwerk veröffentlicht und nun ist es amtlich: Das große ẞ ist seit heute…

Gun-Emoji Pairings 🔫😶

Interesting analysis of the Gun-Emoji-Pairings: „What does the Gun shoot at?“ and „Who pulls the Trigger?“

The Power of Language

„In this reel, we explore the incredible power of language—written, spoken and performed. First, meet the creator of Game of…

Very Bad Volume Control Interfaces

Vor einer Woche postete Redditor Jacobone dieses Interface für Lautstärkeregelung von irgendeiner Win-App. Then this happened: r/ProgrammerHumor/search?q=volume&restrict_sr=on. Because ofcourse it…

Anthony Burgess lost Dictionary of Slang discovered

Die International Anthony Burgess Foundation in Manchester hat neulich das verlorene Slang-Wörterbuch von Anthony Burgess im Keller gefunden („at the…

Neural Network Genesis Alpha

Douglas Summers hat das erste Buch Genesis der Bibel mit Neural Network Voodoo in Worte übersetzt, die allesamt mit dem…