OPUS


Volltext-Downloads (blau) und Frontdoor-Views (grau)

Automatische Sexismusdetektion in deutschsprachigen Texten

Automatic sexism detection in German-language texts

  • Das automatische Erkennen von Sexismus in Texten ist entscheidend für die Schaffung einer sichereren und inklusiveren Online-Umgebung. Diskriminierende Inhalte können sich schnell über öffentliche Kommunikationsplattformen verbreiten und stellen aufgrund der enormen Datenmengen erhebliche Herausforderungen für die manuelle Moderation dar. Maschinelle Lerntechniken (ML) bieten eine effiziente Lösung, indem sie die Echtzeiterkennung und -entfernung sexistischer Bemerkungen ermöglichen und somit Einzelpersonen schützen und Gemeinschaftsstandards aufrechterhalten. Die in dieser Arbeit für unterschiedliche Strategien trainierten Modelle basieren auf einer Feature-Selektion, bestehend aus einer „Frequency-Inverse Document Frequency“ (TF-IDF) und auf Basis einer Sentimentanalyse. Bei der TF-IDF wurden 22 Wörter als Features gewichtet und berücksichtigt, bei der Sentimentanalyse insgesamt zehn Wörter, die sich aus acht Emotionen sowie zwei allgemeinen Klassifikationen (positiv/negativ) zusammensetzten. Die Modelle wurden für den Subtask 1 der GermEVal 2024 trainiert, dessen Zielsetzung aus einer Binärklassifizierung (sexistischer Text: ja/nein) bestand. Das beste Modell war ein Random-Forest-Modell, das nach Hyperparametertuning für die Vorhersage, ob die Mehrheit der Annotatoren den Kommentar als sexistisch einstufte, einen Macro-F1 von 0.7441 erreichte. Ein ebenfalls gutes Ergebnis konnte mit einem Random-Forest-Modell für die Vorhersage, ob einer der Annotatoren den Kommentar als sexistisch eingestuft hat, erzielt werden. Der Macro-F1 - Score betrug dabei 0.719.

Download full text files

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Markus Byhan
Advisor:Michael Spranger, Jenny Felser
Document Type:Bachelor Thesis
Language:German
Date of Publication (online):2024/09/02
Year of first Publication:2024
Publishing Institution:Hochschule Mittweida
Granting Institution:Hochschule Mittweida
Date of final exam:2024/08/23
Release Date:2024/09/02
GND Keyword:Maschinelles Lernen; Random Forest
Page Number:47
Institutes:Angewandte Computer‐ und Bio­wissen­schaften
DDC classes:006.31 Maschinelles Lernen
Open Access:Frei zugänglich