Automatische Sexismusdetektion in deutschsprachigen Texten
Automatic sexism detection in German-language texts
- Das automatische Erkennen von Sexismus in Texten ist entscheidend für die Schaffung einer sichereren und inklusiveren Online-Umgebung. Diskriminierende Inhalte können sich schnell über öffentliche Kommunikationsplattformen verbreiten und stellen aufgrund der enormen Datenmengen erhebliche Herausforderungen für die manuelle Moderation dar. Maschinelle Lerntechniken (ML) bieten eine effiziente Lösung, indem sie die Echtzeiterkennung und -entfernung sexistischer Bemerkungen ermöglichen und somit Einzelpersonen schützen und Gemeinschaftsstandards aufrechterhalten. Die in dieser Arbeit für unterschiedliche Strategien trainierten Modelle basieren auf einer Feature-Selektion, bestehend aus einer „Frequency-Inverse Document Frequency“ (TF-IDF) und auf Basis einer Sentimentanalyse. Bei der TF-IDF wurden 22 Wörter als Features gewichtet und berücksichtigt, bei der Sentimentanalyse insgesamt zehn Wörter, die sich aus acht Emotionen sowie zwei allgemeinen Klassifikationen (positiv/negativ) zusammensetzten. Die Modelle wurden für den Subtask 1 der GermEVal 2024 trainiert, dessen Zielsetzung aus einer Binärklassifizierung (sexistischer Text: ja/nein) bestand. Das beste Modell war ein Random-Forest-Modell, das nach Hyperparametertuning für die Vorhersage, ob die Mehrheit der Annotatoren den Kommentar als sexistisch einstufte, einen Macro-F1 von 0.7441 erreichte. Ein ebenfalls gutes Ergebnis konnte mit einem Random-Forest-Modell für die Vorhersage, ob einer der Annotatoren den Kommentar als sexistisch eingestuft hat, erzielt werden. Der Macro-F1 - Score betrug dabei 0.719.
Author: | Markus Byhan |
---|---|
Advisor: | Michael Spranger, Jenny Felser |
Document Type: | Bachelor Thesis |
Language: | German |
Date of Publication (online): | 2024/09/02 |
Year of first Publication: | 2024 |
Publishing Institution: | Hochschule Mittweida |
Granting Institution: | Hochschule Mittweida |
Date of final exam: | 2024/08/23 |
Release Date: | 2024/09/02 |
GND Keyword: | Maschinelles Lernen; Random Forest |
Page Number: | 47 |
Institutes: | Angewandte Computer‐ und Biowissenschaften |
DDC classes: | 006.31 Maschinelles Lernen |
Open Access: | Frei zugänglich |