Ord som »hundehoveder« og »hængerøve« med på forskernes liste over dansk »hate speech«.
Da ITU-forskerne Gudbjartur Ingi Sigurbergsson og Leon Derczynski i 2019 ville skabe et værktøj, der kunne detektere dansksproget »hate speech« – hadefuld tale – på sociale medier, skulle de bruge eksempler fra den virkelige verden.
I den forbindelse spurgte forskerne danske brugere af Reddit om hjælp til at skabe en liste med hadefulde, racistiske, sexistiske udtryk på dansk.
En Reddit-bruger skrev tilbage til forskerne, at han havde en nærmest komplet liste, de kunne få. Det var forskerne, som ikke taler dansk, glade for.
Hvad de dog ikke vidste var, at listen var fuld af eder fra Olsen Banden-filmene såsom »hundehoveder«, »hængerøve« og »elendige socialdemokrater«.
De opdagede det heller ikke, for ordene indgik i den endelige liste, forskerne lagde til grund for udviklingen af hate speech-værktøjet.
Og der stopper det ikke.
Den Egon Olsen-inspirerede ordliste indgår også som en del af grundlaget for den »sexismealgoritme«, Leon Derczynski for nylig har udviklet i samarbejde med to andre ITU-forskere. En algoritme, som blandt andet kan opspore »neosexisme«, og som DR har udvist interesse for.
Hjælpsomme folk på Reddit
Ifølge artiklen om værktøjet, der kan opspore hadefuld tale på dansk på sociale medier, ‘Offensive Language and Hate Speech Detection for Danish’, publicerede Gudbjartur Ingi Sigurbergsson og Leon Derczynski forud for udviklingen af værktøjet et »survey« på Reddit for at få så mange brugergenererede eksempler på hadefuld tale som muligt.
»In efforts to maximize the number of user-generated comments from Reddit belonging to the classes of interest in our final dataset we published a survey on Reddit, asking Danish speaking users to suggest offensive, sexist, and racist terms,« skriver forskerne i artiklen.
Tilsyneladende bestod dette »survey« dog ikke af andet end et opslag på Reddit, hvor forskerne beder de danske Reddit-brugere om hjælp.
»Hi there, I’m doing a research project on hate speech in the nordic languages, and it would be very helpful to have a list of hate/racist/sexist/etc. slurs, and keywords in Danish. Therefore, I am asking if someone here has any suggestions, and or sources. I’m happy to answer any questions. Thanks in advance!«, skrev forskerne i et opslag oprettet til formålet på Reddits danske side.
Det var i en kommentar under dette opslag, at en Reddit-bruger skrev til forskerne og tilbød sin »næsten komplette« liste over hadefuld tale på dansk, som udelukkende bestod af eder fra Olsen Banden-filmene.
»This is pretty much the complete list: Amatører, bidesild, bløddyr, bollefjæs, fedtefyre, hundehoveder, feje hundehoveder, fnatmider, fæhoveder, grødbønder, hængerøve, ignoranter, jammerkommoder, karklud, elendige klamhuggere, klodsmajor, lusepustere, narrehatte, pattebørn, pjalt, pjok, pudseklud, skidespræller, skvadderhoveder, skvat, skvatpissere, slapsvanse, snotklatte, elendige socialdemokrater,« skrev brugeren.
En anden bruger tilføjede, at »Ti stille! Sindssyge kvindemenneske!« også var et ret almindeligt brugt udtryk på dansk.
»”Ti stille! Sindssyge kvindemenneske!” is also pretty common to use if you meet a woman who can’t shut up about her crazy ideas,« skrev brugeren.
En dansksproget forsker ville med al sandsynlighed have opdaget, hvad der var på spil, men det gjorde de engelsksprogede forskere ikke. I stedet takkede de brugerne.
»Thank you very much!« skrev forskerne, hvorefter de inddrog ordlisten som en del af grundlaget for værktøjets opsporing af hadefuld tale på dansk.
»Sindssyge kvindemenneske!« kom også med.
Den endelige liste
Reddit-brugerens grundige liste over Egon Olsen-eder betød, at disse kom til at udgøre en væsentlig del af forskernes endelige liste, det såkaldte »Danish Hate Speech Lexicon (Reddit)«. Omtrent hvert fjerde ord i »hate speech-leksikonet« stammer fra Reddit-brugerens liste.
Det fremgår af forskernes artikel om værktøjet og kan ses her.
»Hate speech-leksikonet« indeholder de ord, opsporingsværktøjet har taget udgangspunkt i på sin jagt efter dansk hadtale på sociale medier. En jagt, som altså i høj grad har baseret sig på ord fra Olsen Banden-universet.
Egon Olsen med i kampen mod sexisme
Det var ikke en enlig smutter, da Leon Derczynski i forbindelse med udviklingen af værktøjet til opsporing af hadefuld tale på dansk i 2019 baserede sin forskning på en Reddit-brugers morsomhed.
Listen med Egon Olsen-eder indgår nemlig også i Derczynskis seneste forskning, udviklingen af den meget omtalte »sexismealgoritme«, der kan bruges til at opspore sexistiske kommentarer på sociale medier.
Det fremgår af forskningsartiklen om »sexismealgoritmen«, ‘Annotating Online Misogyny’, som Leon Derczynski har skrevet sammen med forskerkollegerne Nanna Inie og Philine Zeinert, der ligesom Derczynski er tilknyttet ITU.
Her fortæller forskerne, at de har søgt efter nøgleord, de kender fra tidligere arbejde med hadefuld tale. Herunder det Egon Olsen-inspirerede liste, Derczynski fik i 2019 af en »hjælpsom« Reddit-bruger.
»We searched for keyword (specific slurs, hashtags), that are known to occur in sexist posts. These were defined by previous work, a slur list from Reddit, and from interviews and surveys of online misogyny among women,« skriver forskerne.
Dermed er også den nye algoritme på jagt efter udtryk, Egon Olsen brugte, når han skældte Kjeld og Benny huden fuld. Kun et enkelt synes at mangle på forskernes liste: lusede amatører.