Programmers are identifiable by Coding-Style

Gepostet vor 1 Jahr, 8 Monaten in Misc Science Tech Share: Twitter Facebook Mail

Dass Menschen anhand ihres Schreibstils identifizierbar sind, ist nichts neues. Vor zwei Jahren gab's einen Vortrag auf dem 29C3 über Sprachabdrücke in Underground-Märkten im Darkweb (aka Silkroad u.ä.) Jetzt hat eine neue Studie festgestellt, dass dasselbe Prinzip für Coding gilt und sich da längst nicht nur auf wiederverwendete Funktionen bezieht.

Researchers […] have developed a “code stylometry,” which uses natural language processing and machine learning to determine the authors of source code based on coding style. Their findings, which were recently published in the paper “De-anonymizing Programmers via Code Stylometry,” could be applicable to a wide of range of situations where determining the true author of a piece of code is important. For example, it could be used to help identify the author of malicious source code and to help resolve plagiarism and copyright disputes.

The authors based their code stylometry on traditional style features, such as layout (e.g., whitespace) and lexical attributes (e.g., counts of various types of tokens). Their real innovation, though, was in developing what they call “abstract syntax trees” which are similar to parse tree for sentences, and are derived from language-specific syntax and keywords. These trees capture a syntactic feature set which, the authors wrote, “was created to capture properties of coding style that are completely independent from writing style.”

IT World: CSI Computer Science: Your coding style can give you away (via /.)

Tags: Coding Language

cam2

Webcam-Partikelsystem

Schickes Browsertoy von Léo Chéron: Sand Ghosts, ein Webcam-Partikelsystem. A displacement map is generated out of your webcam video stream,…

Binary Bandit steals 0s and 1s

Binary Bandit steals 0s and 1s

01010100 01101000 01100101 01101110 00100000 01110100 01101000 01101001 01110011 00100000 01101000 01100001 01110000 01110000 01100101 01101110 01100101 01100100 00111010 (via…

type

Audio from Typo-Outlines

Gestern auf der Konferenz der Association Typographique Internationale in der Academy of Fine Arts in Warsaw: Type-Designer Just van Rossum…

dolph

Delphine beim Sprechen belauscht

Wissenschaftler haben Delphine zum ersten mal beim Gespräch belauscht, indem sie ein Mikrophon entwickelt haben, das die „Stimmen“ der Tiere…

sam

Google WaveNet: Neural Network-generated Text-2-Speech

Google hat seine Neural Networks auf Stimmerzeugung trainiert und ein neues Verfahren zur Synthetisierung von Sprache erfunden. Die Ergebnisse sind…

penis

iPhone7 is Penis in Hong Kong

Mit Steve Jobs wär' das nicht passiert: The slogan for Apple’s new iPhone 7 translates into “This is penis” in…

trollscore

Hate-Mining is a thing

Neu auf dem Weg zum algorithmischen Hatespeech-Filter: HateMining vom Institut für Wirtschaftsinformatik. Not sure about this. HateMining fokussiert sich auf…

cube

Re:Cube-Composer

Über David Peters Cube-Composer hatte ich schonmal vor einem Jahr gebloggt, seitdem hat er das Teil bisschen aufgehübscht, den Code…

robots

Website inside robots.txt

Netter Hack von Alec Bertram, eine Website in robots.txt: What's going on here: When parsing robots.txt files, search engines ignore…

CqyJexUWAAEeWNY

Excellent Dwarf Fortress-Bug

Some Bugs are better than others. Aus einem Interview mit Dwarf Fortress-Macher Tarn Adams. (via @neoascetic) It’s funny how I…

burger

AI macht Cheeseburger

And this, Kids, is how an AI makes a Burger. It throws Noise together until it matches the pattern, just…