Yahoo entwickelt Anti-Troll Algorithmus

Gepostet vor 4 Monaten in Science Share: Twitter Facebook Mail

Yahoo entwickelt einen Anti-Troll-Algorithmus, der semi-automatisch bis zu 90% aller Comments in seiner Datenbank erkannte, die HateSpeech enthielten. Ich seh das aus offensichtlichen Gründen mehr als kritisch, ich fand schon den automatisierten Anti-Rightwinger-Trollbot ziemlich daneben. Fight Fire with Fire und so, da habe ich an die „Guten“ dann doch ein paar höhere Ansprüche.

“Automatically identifying abuse is surprisingly difficult,” says Alex Krasodomski-Jones, who tracks online abuse as a researcher with the U.K.-based Centre for Analysis of Social Media. “The language of abuse is amorphous—changing frequently and often used in ways that do not connote abuse, such as when racially or sexually charged terms are appropriated by the groups they once denigrated. Given 10 tweets, a group of humans will rarely all agree on which ones should be classed as abusive, so you can imagine how difficult it would be for a computer.”

Darüber hinaus arbeitet Yahoos Algorithmus mit massiver Vorarbeit von Menschen, in diesem Fall „trained Raters“ und „untrained Raters“ per Amazons Mechanical Turk. Wer hier warum und was als Hatespeech deklariert, bleibt unklar. Dazu kommen bislang nicht ausreichende, generalisierende und zu schwammige Definitionen des Terms Hatespeech, sowie die Frage, ob die bisherigen juristischen Grenzen nicht ausreichen.

Bildschirmfoto 2016-08-11 um 14.59.17Andererseits, hier ein faszinierendes Bit aus dem Paper zur Quantifizierung von Hatespeech. Laut deren Korpus wurden zwischen 7% (in Yahoos Finance-Comments) und massiven 20% (Yahoos News-Comments) als Hatespeech identifiziert. Bei aller Kritik und nehmen wir mal kurz an, dass diese identifizierten Kommentare tatsächlich juristisch relevante Beleidigungen und Drohungen aka Hatespeech enthalten und nicht etwa Ironie, Sarkasmus oder scharf formulierte Kritik: Dieses Aufkommen an gezielten Attacken übersteigt das im Real Life um ein Vielfaches und eine algorithmische Bekämpfung des Phänomens, ähnlich wie Spam, dürfte langfristig unvermeidbar sein.

Yahoo will den Datensatz demnächst veröffentlichen, da würde ich dann gerne nochmal ’nen genauen Blick drauf werfen. Mehr dazu: TAZ, Wired

Aus dem Paper:

Detecting abusive language is often more difficult than one expects for a variety of reasons. the noisiness of the data in conjunction with a need for world knowledge not only makes this a challenging task to automate but also potentially a difficult task for people as well.

More than simple keyword spotting. The intentional obfuscation of words and phrases to evade manual or automatic checking often makes detection difficult. Obfuscations such as ni9 9er, whoopiuglyniggerratgolberg and JOOZ make it impossible for simple keyword spotting metrics to be successful, especially as there are many permutations to a source word or phrase. Conversely, the use of keyword spotting could lead to false positives.

Difficult to track all racial and minority insults. One can make a reasonably effective abuse or profanity classifier with a blacklist (a collection of words known to be hateful or insulting), however, these lists are not static and are ever changing. So a blacklist would have to be regularly updated to keep up with language change. In addition, some insults which might be unacceptable to one group may be totally fine to another group, and thus the context of the blacklist word is all important (this forms the motivation for the work by [18]).

Abusive language may actually be very fluent and grammatical. While there are many examples on the internet of abusive language being very noisy, such as in Add another JEW fined a bi$$ion for stealing like a lil maggot. Hang thm all., which can be a helpful signal for an automated method, there are actually many cases where abusive language, or even more specifically hate speech, is quite fluent and grammatical. For example:I am surprised they reported on this crap who cares about another dead nigger?

Abusiveness can be cross sentence boundaries. In the sentence Chuck Hagel will shield Americans from the desert animals bickering. Let them kill each other, good riddance!, the second sentence which actually has the most hateful intensity (them kill each other) is dependent on the successful resolution of them to desert animals which itself requires world knowledge to resolve. The point here is that abusive language is not limited to just the sentence. In some cases, one has to take the other sentences into account to decide whether the text is abusive or carries incidences of hate speech.

Sarcasm. Finally, we noted cases where some users would post sarcastic comments in the same voice as the people that were producing abusive language. This is a very difficult for humans or machines to get correct as it requires knowledge of the community and potentially even the users themselves:

same thing over and over and over and over day in night and day ’cause i am handicapped and stay home. i hate jews they ran over my legs with their bmw. so i will blast them everyday.. I really hurt them i am so powerful .. If ipost about jews here they all suffer. im sow powerfull bwbwbwbwaaahahahahahah im a cripple but i can destroy them with my posts.. I am super poster. Bwwbwahahahaha noone can find me .. I am chicken so i can post behind yahoos wall of anonymous posters. Bwbwbwbabahahahah i will give him ten thumbs down and slander jews.. Bwbwbwbahahahah..i am adoplh hitler reincarnated.

Tags: AI AlgoCulture Bots DasGeileNeueInternet Hatespeech OutrageMemetics

homer

Homer Simpson gezeichnet mit dem Problem des Handlungsreisenden

Jack Morris hat einen Algorithmus programmiert, der ihm Vektorgrafiken und Simpsons in Punktierungen umwandelt und auf diese dann das Problem…

trevor

Links 10.12.2016: Manufacturing Normality, South Parks Trevor Axiom und die Subjektivität von Fake News

South Park hat den Algorithmus für das gefunden, was ich Outrage-Memetik nenne: Trevors Axiom. Erinnert mich auch so ein bisschen…

bildschirmfoto-2016-12-09-um-10-49-19

Links 9.12.2016: Das rechte Netz, The Age of Anger, Magischer Digitalismus, George Orwell & the Age of Outrage

BR: Rechtes Netz: „BR Data hat anhand der Seite von Pegida Nürnberg einen Teil des rechtspopulistischen Kosmos untersucht und ein…

15252534_1038116669631373_8896979166214787237_o

Links 8. 12. 2016: Schadenfreude with Bite, Dr. Jordan Petersons Free Speech Debate und Florian Cramer über Dark Enlightment und die Alt-Right

Hochinteressanter Vortrag von Florian Cramer über die Alt-Right, Neo-Reaktionismus und das Dark Enlightment: „A lecture by Florian Cramer on the…

poo

Pope: Fake News is like Sex with Shit 💩

Der Papst hat dann auch noch was zu Fake News zu sagen und das Statement ist einerseits bemerkenswert nerdcore, andererseits…

unfoodtruckspecified

Artbot.Space: Twitter-Bot remixt Headlines über algorithmische Kunst

Maria Roszkowska and Nicolas Maigret haben eine Plattform für AI-generierte Konzeptkunst aufgesetzt. Auf Artbot.Space sammelt man die Ergebnisse des Predictive…

A screenshot of New Zealand man Richard Lee's passport photo rejection notice, supplied to Reuters December 7, 2016.   Richard Lee/Handout via REUTERS

„Racist“ Algorithm tells Asian to open his eyes

Ein „rassistischer“ Gesichtserkennungs-Algorithmus verweigert den Passbild-Upload eines Asiaten wegen angeblich geschlossener Augen. Richard Lee's attempt to renew his passport was…

nnnn

Links 7.12.2016: Die Wir-Kapazität, universalistische Identitätspolitik und Steven Pinker über die Nicht-Apokalypse

Frau Meike: Die Befreiung des Ich: Die natürliche Gruppengröße wird Dunbar-Zahl genannt. Sie steht für die Anzahl der Menschen, denen…

Amazon works on killing billions of Jobs because Duh.

Amazon works on killing billions of Jobs because Duh.

Welcome to Amazon Go der Zukunft von alleine hierzulande über einer Million Jobs im Einzelhandel, ersetzt durch automatisierte Distribution, Konsum-Überwachung…

outrage

Links 6. 12. 2016: Outrage-Memetics Propaganda Machine, the Land of no Context und Trumps Filterbubble

Schöner Dreiteiler von Jonathan Albright über Filterbubbles, BigData-Voodoo und „Fake-News“. Den ersten Teil hatte ich schonmal verlinkt, im zweiten beschreibt…

trtrtr

Links 5. 12. 2016: Big Data Voodoo, Political Correctness, Verschwörungstheorien, Gamergate und Trump

Diese Story von Das Magazin über die Rolle von Psychometrie und targeted Facebook-Werbung bei der Wahl Trumps wird seit dem…