Programmers are identifiable by Coding-Style

Gepostet vor 2 Jahren, 6 Monaten in #Misc #Science #Tech #Coding #Language

Share: Twitter Facebook Mail

Dass Menschen anhand ihres Schreibstils identifizierbar sind, ist nichts neues. Vor zwei Jahren gab's einen Vortrag auf dem 29C3 über Sprachabdrücke in Underground-Märkten im Darkweb (aka Silkroad u.ä.) Jetzt hat eine neue Studie festgestellt, dass dasselbe Prinzip für Coding gilt und sich da längst nicht nur auf wiederverwendete Funktionen bezieht.

Researchers […] have developed a “code stylometry,” which uses natural language processing and machine learning to determine the authors of source code based on coding style. Their findings, which were recently published in the paper “De-anonymizing Programmers via Code Stylometry,” could be applicable to a wide of range of situations where determining the true author of a piece of code is important. For example, it could be used to help identify the author of malicious source code and to help resolve plagiarism and copyright disputes.

The authors based their code stylometry on traditional style features, such as layout (e.g., whitespace) and lexical attributes (e.g., counts of various types of tokens). Their real innovation, though, was in developing what they call “abstract syntax trees” which are similar to parse tree for sentences, and are derived from language-specific syntax and keywords. These trees capture a syntactic feature set which, the authors wrote, “was created to capture properties of coding style that are completely independent from writing style.”

IT World: CSI Computer Science: Your coding style can give you away (via /.)

Dialect Coach dissects Movie-Idiolects

Super-interesting clip by Wired: „Dialect coach Erik Singer [here's a Reddit-AMA regarding the clip below] takes a look at idiolects,…

Holyge Bimbel – Storys vong Gott u s1 Crew

Der größte Fantasy-Roman der Welt in Internet-Bla von Shahak Shapira: Holyge Bimbel – Storys vong Gott u s1 Crew. Sure,…

Very Bad Bitcoin-Miners

Quartz war neulich in der größten Bitcoin-„Mine“ der Welt und hat von dort Fotos und Videos mitgebracht. Sind so ungefähr…

Stats of Fucks to give on Twitter

Travis Hoppe („post-punk scientist; highly irrelevant“) analysiert das Wort „fuck“ auf Twitter. (via Reddit) Insgesamt findet sich „fuck“ mit einem…

Monospaced Programming Fonts with Ligatures

Didn't know these exist, love it: Monospaced Programming Fonts with Ligatures. Three of the most interesting and thoughtful monospaced programming…

Text-Messaging Acronyms before Text-Messaging Acronyms

TMWYHOT will be my favorite prehistoric Chat-Acronym for the next few Aeons. Also: I ❤️ McSweeneys: TMB4TM (TEXT MESSAGES BEFORE…

Podcast: Von Palindromen, Reverse Speech und Teufelsbotschaften

Schöner Podcast vom Deutschlandfunk über Palindrome, satanische Botschaften und das Rückwärtsreden. Ich kann übrigens mit links flüssig spiegelverkehrt schreiben und…

Stereographic Torus Knot

I'm not sure what's going on here but I like it: „This is very similar to Rise Up, though with…

VERSALSATZ-ẞ IST SEIT HEUTE OFFIZIELLER GROẞBUCHSTABE YAY!

Der Rat für Rechtschreibung hat das neue Regelwerk veröffentlicht und nun ist es amtlich: Das große ẞ ist seit heute…

Gun-Emoji Pairings 🔫😶

Interesting analysis of the Gun-Emoji-Pairings: „What does the Gun shoot at?“ and „Who pulls the Trigger?“

The Power of Language

„In this reel, we explore the incredible power of language—written, spoken and performed. First, meet the creator of Game of…