Programmers identifiable by compiled Code

Gepostet vor 1 Jahr, 5 Monaten in #Misc #Science #Tech #Coding #Language #Privacy

Share: Twitter Facebook Mail

Vor einem Jahr hatte ich über ein Paper gebloggt, laut dem Programmierer anhand ihres Coding-Styles identifiziert werden konnten. Überraschend war das nicht wirklich, man kann schon länger Menschen anhand ihres Sprachabdrucks online identifizieren. Jetzt haben sie ihre Studie erweitert und das geht wohl auch bei kompiliertem Code, was nochmal ’ne Spur abgefahrener ist. (Kompilierung ist, grob vereinfacht, die Übersetzung von Code in Maschinensprache.)

Executable binaries of compiled source code on their own are difficult to analyze because they lack human readable information. Nevertheless reverse engineering methods make it possible to disassemble and decompile executable binaries. After applying such reverse engineering methods to executable binaries, we can generate numeric representations of authorial style from features preserved in binaries. […]

- By comparing advanced and less advanced programmers’, we found that more advanced programmers are easier to de-anonymize and they have a more distinct coding style.
- We also de-anonymize GitHub users in the wild, which we explain in detail in the paper. These promising results are encouraging us to extend our method to large real world datasets of various natures for future work.
- Why does de-anonymization work so well? It’s not because the decompiled source code looks anything like the original. Rather, the feature vector obtained from disassembly and decompilation can be used to predict, using machine learning, the features in the original source code — with over 80% accuracy. This shows that executable binaries preserve transformed versions of the original source code features.

Freedom to Tinker: When coding style survives compilation: De-anonymizing programmers from executable binaries (via Schneier)
media.ccc.de: De-anonymizing Programmers: Large Scale Authorship Attribution from Executable Binaries of Compiled Code and Source Code

Gun-Emoji Pairings 🔫😶

Interesting analysis of the Gun-Emoji-Pairings: „What does the Gun shoot at?“ and „Who pulls the Trigger?“

The Power of Language

„In this reel, we explore the incredible power of language—written, spoken and performed. First, meet the creator of Game of…

Very Bad Volume Control Interfaces

Vor einer Woche postete Redditor Jacobone dieses Interface für Lautstärkeregelung von irgendeiner Win-App. Then this happened: r/ProgrammerHumor/search?q=volume&restrict_sr=on. Because ofcourse it…

Anthony Burgess lost Dictionary of Slang discovered

Die International Anthony Burgess Foundation in Manchester hat neulich das verlorene Slang-Wörterbuch von Anthony Burgess im Keller gefunden („at the…

Neural Network Genesis Alpha

Douglas Summers hat das erste Buch Genesis der Bibel mit Neural Network Voodoo in Worte übersetzt, die allesamt mit dem…

Podcasts: Sid Vicious, Baudrillards Simulacra, das Wörterbuch der Unruhe und das Märchen vom unglaublichen Super-Kim aus Pjöngjang

Jede Menge Podcasts und Hörspiele, die ich in den letzten Wochen gehört habe, unter anderem ein Hörspiel um einen mutierenden…

Urban Dictionary Anagrams, ranked

Sean Carney hat die Anagramme aus dem Urban Dictionary ermittelt und mit einem Algorithmus sortiert: How to Find Anagrams on…

Social Media based Substance Use Detection

Shit, they got me. (I think they follow me on Twitter, too. Damn. [Not really.]) Table 6 is hilarious: In…

15000yrs old ultraconserved Words from the Stone-Age found in present Languages

[update] Der verlinkte Artikel ist vier Jahre (hatte ich nicht gesehen), hier eine ausführliche Kritik im Languagelog: „The authors intend…

Do not pet a Snip Snap Doggo

I find this funnier than I should: this is the only video i need pic.twitter.com/uxN7AIc2X2 — Dank Memes 💎💎💎 (@FreeMemesKids)…

Zalgo Droplet

A Javascript-Droplet „to invoke the hive-mind representing chaos. Invoking the feeling of chaos. With out order. The Nezperdian hive-mind of…