006.31 Maschinelles Lernen
Refine
Document Type
- Master's Thesis (26)
- Bachelor Thesis (24)
- Diploma Thesis (1)
Keywords
- Maschinelles Lernen (48)
- Lernendes System (4)
- Vektor (4)
- Zeitreihe (4)
- Algorithmus (3)
- Autonomes Fahrzeug (2)
- Deep learning (2)
- Hassrede (2)
- Künstliche Intelligenz (2)
- Vektorquantisierung (2)
Institute
Generierung und Validierung von kurzen Textpassagen mittels verschiedener Verfahren zur Textsynthese
(2023)
Im Rahmen dieser Arbeit wurden mögliche Verfahren zur Textsynthese erforscht, welche den Fokus auf der Erstellung realitätsnaher und lesbarer Varianten auf Grundlage bestehender Texte setzten. Als Use Case für die Data Augmentation von Texten im Umfeld des Natural Language Processing wurden die Verfahren auf einem deutschen Datensatz mit Supportanfragen ausgewählt. Neun bereits validierte und selbst entwickelte Verfahren wurden umgesetzt und auf diesen Daten getestet. Um die Qualität und Ähnlichkeit der synthetisch erzeugten Texte im Vergleich zu den Originaldaten zu bestimmen, wurden Ähnlichkeitsmetriken berechnet. Aufbauend darauf wurden die erzeugten Texte manuell auf deren Grammatik und bestehende Semantik überprüft. Etwa die Hälfte der umgesetzten Verfahren haben Texte erzeugt, die realitätsnah und lesbar waren. Zur Optimierung dieser Verfahren wurden unterschiedliche Parameter getestet und die optimierten Verfahren miteinander verglichen. Erzeugte Texte wurden außerdem im Training im Machine Learning verwendet und deren Einfluss auf das Klassifizierungsverhalten untersucht. Im Machine Learning kam es in allen Verfahren zu einer Verringerungen des Recalls, aber zur Erhöhung der Precision.
In this thesis, we analyse Machine Learning methods for crystal structure detection in microgravity experiments. Our objective is to identify crystal structures of the particles by a 2D projection. We modify an already existing algorithm for 3D structures. Through extensive testing, we validate the accuracy and efficiency of our approach in various experimental conditions. Additionally, we explore the potential for integrating these methods to enhance the overall experimental workflow. Finally, we demonstrate the advantages of our modified implementations and discuss other possible approaches.
Diese Arbeit evaluiert bestehende Ansätze zur Auswertung von telemetrischen Fahrdaten durch eine literaturgestützte Analyse und vermittelt einen Überblick über den aktuellen Stand der Forschung. Abschließend wird ein in einem Fahrsimulator aufgezeichneter Datensatz mithilfe maschineller Lernverfahren analysiert, um das Konzept des Profilings von Fahrdaten zu veranschaulichen.
Optimization of Neural Networks for Autonomous Driving Applications Using Synthetic Data Generation
(2024)
The development of Autonomous Vehicles (AVs) holds significant potential to transform society by reducing accidents, improving travel efficiency, and contributing to environmental sustainability. However, the advancement of AV technology is constrained by the challenges associated with generating large quantities of high-quality, annotated real-world data, which are costly and time-consuming to produce. This thesis addresses these challenges by exploring methods for synthesizing high-quality training data using simulation software, specifically focusing on automating the annotation process. It investigates the use of early fusion and late fusion approaches to optimize neural networks trained on synthetic data, aiming to enhance their generalization to real-world scenarios. The research leverages the Gazebo simulation tool to generate synthetic data, including RGB images and Light Detection and Ranging (LiDAR) point clouds, and employs automated labeling techniques based on transformation, rotation, and perspective projection. During the thesis, a cone detection model was built and trained n synthetic images and then tested on real images to evaluate its performance. A particular focus is placed on training the Red, Green, Blue with Depth channel (RGB-D) model using the early fusion technique, with a modified You Only Look Once v8 (YOLOv8) architecture, specifically its Nano and Small variants. Evaluations were conducted on real images from the Formula Student Objects in Context (FSOCO) dataset, and with each iteration, improvements in the model’s predictions and its ability to generalize to real images were demonstrated. The thesis specifically provides metrics for foreground and background cone classification, illustrating the effectiveness of the approach.
Die vorliegende Masterarbeit befasst sich mit der Entwicklung und Evaluation eines Machine Learning gestützten Prozesses, um in einer Konfigurator-Objektwelt 2D-Avatare aus realen Gesichtsbildern zu erzeugen. Dabei wurden 2 Ansätze zur automatisierten Avatarerstellung entwickelt und evaluiert. Ein additiver Ansatz, bei dem die Gesichtsattribute durch Landmarkenerkennung extrahiert und zu seinem Avatar zusammengesetzt werden sowie ein generativer Ansatz, der Stil-Transfer-Techniken unter Verwendung eines StyleGAN-Modells nutzt. Beide Ansätze wurden implementiert und Schnittstellen zur Einbindung in die Konfigurator-Objektwelt am Beispiel des Softwareheld:innenKonfigurators geschaffen. Die Evaluation zeigt, dass beide Methoden unzureichende Ergebnisse liefern. Sowohl die generierten Avatare des additiven als auch des generativen Ansatzes weisen Mängel, insbesondere in Bezug auf Genauigkeit der Gesichtsmerkmale auf. Die generative Methode weist außerdem Artefakte und Gesichtsdeformationen auf, was die Bildqualität negativ beeinflusst. Beide Verfahren konnten die Anforderungen an eine qualitativ hochwertige Generierung der Avatare nicht erfüllen. Diese Arbeit verdeutlicht die Herausforderungen der maschinellen, domäneübergreifenden Avatarerstellung und liefert mögliche Ansätze zur Verbesserung dieses Systems.
This thesis introduces a semi-automated process for optimizing prompt generation using Reinforcement Learning to improve text readability of content generated by Large Language Models. A novel readability metric normalization technique is employed to ensure consistent evaluation across text samples. The research utilizes a distributed system architecture to integrate multiple services, including word pool scraping, prompt generation and text evaluation, enabling scalable and efficient training of an agent. Results indicate significant improvements in text readability, demonstrating the effectiveness of the proposed approach.
Cyber threats are constantly evolving, making the automated extraction of actionable insights from unstructured cyber threat intelligence (CTI) data essential for guiding cybersecurity decisions. Leading organizations such as Microsoft, Trend Micro, and CrowdStrike are increasingly using generative artificial intelligence to facilitate CTI extraction. This master thesis addresses the challenge of automating the extraction of actionable CTI using advancements in large language models (LLMs) and knowledge graphs (KGs). The exploration involves the application of state-of-the-art open-source LLMs, including the Llama 2 series, Mistral 7B Instruct, and Zephyr, for extracting meaningful triples from CTI texts. The methodology evaluates various techniques, such as prompt engineering, the guidance framework, and fine-tuning, to optimize information extraction and structuring. The extracted data is then utilized to construct a KG, offering a structured and queryable representation of threat intelligence. Experimental results demonstrate the effectiveness of this approach in extracting relevant information, with guidance and fine-tuning showing superior performance over prompt engineering. However, while these methods prove effective in small-scale tests, applying LLMs to large-scale data for KG construction and link prediction presents ongoing challenges.
Das automatische Erkennen von Sexismus in Texten ist entscheidend für die Schaffung einer sichereren und inklusiveren Online-Umgebung. Diskriminierende Inhalte können sich schnell über öffentliche Kommunikationsplattformen verbreiten und stellen aufgrund der enormen Datenmengen erhebliche Herausforderungen für die manuelle Moderation dar. Maschinelle Lerntechniken (ML) bieten eine effiziente Lösung, indem sie die Echtzeiterkennung und -entfernung sexistischer Bemerkungen ermöglichen und somit Einzelpersonen schützen und Gemeinschaftsstandards aufrechterhalten. Die in dieser Arbeit für unterschiedliche Strategien trainierten Modelle basieren auf einer Feature-Selektion, bestehend aus einer „Frequency-Inverse Document Frequency“ (TF-IDF) und auf Basis einer Sentimentanalyse. Bei der TF-IDF wurden 22 Wörter als Features gewichtet und berücksichtigt, bei der Sentimentanalyse insgesamt zehn Wörter, die sich aus acht Emotionen sowie zwei allgemeinen Klassifikationen (positiv/negativ) zusammensetzten. Die Modelle wurden für den Subtask 1 der GermEVal 2024 trainiert, dessen Zielsetzung aus einer Binärklassifizierung (sexistischer Text: ja/nein) bestand.
Das beste Modell war ein Random-Forest-Modell, das nach Hyperparametertuning für die Vorhersage, ob die Mehrheit der Annotatoren den Kommentar als sexistisch einstufte, einen Macro-F1 von 0.7441 erreichte. Ein ebenfalls gutes Ergebnis konnte mit einem Random-Forest-Modell für die Vorhersage, ob einer der Annotatoren den Kommentar als sexistisch eingestuft hat, erzielt werden. Der Macro-F1 - Score betrug dabei 0.719.
Die stetig ansteigende Internetnutzung hat zur Folge, dass auch ein großer Teil der Kommunikation digital passiert. Durch die Möglichkeit der Anonymität ist es gerade für Strafverfolgungsbehörden interessant relevante Texte ihrem Urheber zuordnen zu können oder mithilfe von ihnen Rückschlüsse auf den Autor zu ziehen. So beschäftigt sich diese Arbeit mit der Altersbestimmung von Menschen anhand ihrer verfassten Texte mithilfe von Ansätzen des maschinellen Lernens. Nach dem Training und Test der Modelle auf Blogbeiträgen, wurden sie weiterhin auf strafrechtlich relevanten Daten getestet, mit dem Ziel Cybergrooming-Fälle durch Altersbestimmung der Chatpartner festzustellen. Dafür wurden n-Gramme, Second Order Attributes und statistische Features getestet. Die Ergebnisse zeigen, dass die Alterserkennung eine Herausforderung darstellt, ihr Einsatz aber zur Erhöhung der Sicherheit im digitalen Bereich beitragen kann und sie dadurch ein wichtiges Forschungsgebiet bildet.
Diese Arbeit beschäftigt sich mit dem Erstellen semantischer Encodings von Bilddaten. Um diese Kodierungen aus den Daten zu extrahieren, wird ein künstliches neuronales Netzwerk auf
Videobild Interpolation trainiert. Die daraus erlernten Encodings sollen anschließend auf ihre Anwendbarkeit in einer anderen Aufgabe der KI gestützten Bildverarbeitung, der Extraktion von Landmarken auf Menschen, getestet werden.