Programmers are identifiable by Coding-Style

Gepostet vor 1 Jahr, 11 Monaten in #Misc #Science #Tech #Coding #Language

Share: Twitter Facebook Mail

Dass Menschen anhand ihres Schreibstils identifizierbar sind, ist nichts neues. Vor zwei Jahren gab's einen Vortrag auf dem 29C3 über Sprachabdrücke in Underground-Märkten im Darkweb (aka Silkroad u.ä.) Jetzt hat eine neue Studie festgestellt, dass dasselbe Prinzip für Coding gilt und sich da längst nicht nur auf wiederverwendete Funktionen bezieht.

Researchers […] have developed a “code stylometry,” which uses natural language processing and machine learning to determine the authors of source code based on coding style. Their findings, which were recently published in the paper “De-anonymizing Programmers via Code Stylometry,” could be applicable to a wide of range of situations where determining the true author of a piece of code is important. For example, it could be used to help identify the author of malicious source code and to help resolve plagiarism and copyright disputes.

The authors based their code stylometry on traditional style features, such as layout (e.g., whitespace) and lexical attributes (e.g., counts of various types of tokens). Their real innovation, though, was in developing what they call “abstract syntax trees” which are similar to parse tree for sentences, and are derived from language-specific syntax and keywords. These trees capture a syntactic feature set which, the authors wrote, “was created to capture properties of coding style that are completely independent from writing style.”

IT World: CSI Computer Science: Your coding style can give you away (via /.)

captcha

Miniature-Playground for Captcha-Solving AIs

„I'm not a Robot“ my ass. Mini World of Bits ('MiniWoB') is a benchmark for reinforcement learning agents who interact…

panic

How To build a Marvin the Depressed Reddit Bot in Python

Die Grünen fordern ja eine Transparenzpflicht für Social Bots. Ich hoffe inständig, dass jemand einen angemessenen Marvin-Bot für die Grünen…

nnnames

Neural Network Names from the Future

Nate Parrott hat ein Neural Network auf 7500 Vornamen trainiert und generiert nun neue Namen aus der Zukunft, inklusive „…

trump

Donald Trumps Name in Gebärdensprache

Donald Trump in Gebärdensprache, oben der Vorschlag für die American Sign Language als GIF, unten der für Österreichs Gebärdensprache. Now…

ram_01

Mechanical Sand-RAM

Schöne Arbeit von Ralf Baecker, ein mechanischer RAM, der Binärdaten mit Sandkörnern schreibt und damit ein bisschen Voodoo ausrechnet: Random…

456170_10151334428835368_2009538313_o

VERßALßATZ-ẞ WIRD OFFIßIELL

Der Rat für Rechtschreibung hat in seinem Bericht an die Ständige Konferenz der Kultusminister vorgeschlagen, das große scharfe S offiziell…

homer

Homer Simpson gezeichnet mit dem Problem des Handlungsreisenden

Jack Morris hat einen Algorithmus programmiert, der ihm Vektorgrafiken und Simpsons in Punktierungen umwandelt und auf diese dann das Problem…

pf

„Postfaktisch“ ist Wort des Jahres

Die Gesellschaft für deutsche Sprache hat „postfaktisch“ zum Wort des Jahres gewählt, nachdem bereits das Oxford Dictionary vor ein paar Wochen…

Atari 2600-Emulator in Minecraft

Atari 2600-Emulator in Minecraft

Impressive: „I built an Atari 2600 Emulator in vanilla Minecraft using a couple thousand command blocks.“

code

Gomix – Code-Remix-Environment for building Bots and Web-Apps

FogBugz, die Macher von Stack Overflow und Trello, haben eine neue Coding-Plattform online gestellt: „Gomix is the easiest way to…

algo1

Algorithmic Nicolas Cage/Taylor Swift Face-Swaps

Iryna Korshunova, Wenzhe Shi, Joni Dambre und Lucas Theis haben einen Algorithmus für FaceSwaps programmiert und zur Illustration ihrer Methode…