Refine
Document Type
- Bachelor Thesis (9)
- Master's Thesis (7)
Keywords
- Algorithmus (16) (remove)
Institute
- Angewandte Computer‐ und Biowissenschaften (16) (remove)
In this thesis, we focus on using machine learning to automate manual or rule-based processes for the deduplication task of the data integration process in an enterprise customer experience program. We study the underlying theoretical foundations of the most widely used machine learning algorithms, including logistic regression, random forests, extreme gradient boosting trees, support vector machines, and generalized matrix learning vector quantization. We then apply those algorithms to a real, private data set and use standard evaluation metrics for classification, such as confusion matrix, precision, and recall, area under the precision-recall curve, and area under the Receiver Operating Characteristic curve to compare their performances and results.
Durch die zunehmende Nutzung mobiler Endgeräte fallen im alltäglichen Leben zahlreiche personenbezogene Daten an. Zu diesen Daten gehören unter anderem auch GPS-Positionen, die von handelsüblichen Smartphones erhoben werden. Besonders Android-Geräte sammeln eine große Menge an Positionsdaten, die für verschiedene Wissenschafts-Domänen, wie beispielsweise Medizin oder Forensik, eine Rolle spielen. Für verschiedene Anwendungsfälle kann eine Aggregation der einzelnen GPS-Positionen zu Orten und verbindenden Strecken relevant sein.
Ziel der Arbeit ist die Entwicklung eines Algorithmus zur Aggregation von GPS-Standorten zu Orten, deren Besuchen und Verbindungen. Nach Implementierung des Algorithmus wurde dieser in eine Java-Applikation eingebettet, die unter anderem der Visualisierung der erzielten Ergebnisse dient. Für die Evaluation des Algorithmus wurden über einen Zeitraum von zwei Monaten Standortdaten mit Hilfe eines Android-Smartphones erhoben, welche unter Verwendung des implementierten Algorithmus ausgewertet wurden. Die Evaluation resultierte in einem Parameterset, welches sich für die Auswertung des vorliegenden Testdatensatzes als geeignet herausstellte. Das Ergebnis der Arbeit ist ein funktionstüchtiger Algorithmus, der vielfältige Anwendungsmöglichkeiten aufweist und dessen Erweiterung ein hohes Potenzial für Folgeprojekte bietet.
Empirischer Vergleich der Realitätsnähe verschiedener Algorithmen zur Simulation von Flüssigkeiten
(2021)
In dieser Bachelorarbeit werden die beiden FluidSimulation Solver SPH (Smoothed Particle Hydrodynamics) und PBD (Position Based Dynamics) unter dem Aspekt des Realismus miteinander verglichen. Im ersten Teil werden die theoretischen Grundlagen vermittelt, die für das Verhalten von Wasser verantwortlich sind. Dadurch wird dann eine Liste mit Kriterien erstellt, um die einzelnen Versuche zu bewerten. Schließlich werden sechs Versuche durchgeführt, welche durch jene Liste bewertet werden. Schlussendlich werden diese Ergebnisse zusammengefasst, und der Schluss gezogen, dass SPH mehr für eine realistische Wassersimulation geeignet ist.
Das Ziel der vorliegenden Arbeit war es, Algorithmen auf speicherprogrammierbaren Steuerungen (SPSen) und Linx-basierten Systemen umzusetzen und dabei einer möglichst einheitlichen Implementierungsstrategie zu folgen. Dabei wurde ein Algorithmus beispielhaft auf SPSSystemen von zwei Herstellern implementiert. Phoenix Contact unterstützt lediglich Sprachen, die durch den Standard IEC/EN 61131-3 spezifiziert sind. Beckhoff ermöglicht durch die Integration von C++ die Umsetzung auf einer gemeinsamen Codebasis mit dem Linux-System. Die gemeinsame Codebasis unterliegt allerdings Einschränkungen.
Agenten in virtuellen Welten können sich mit Hilfe verschiedener Wegfindungsalgorithmen selbständig von einem Start- zu einem Zielpunkt bewegen. Dafür existieren zahlreiche Algorithmen, um beispielsweise im Rahmen eines Videospiels an die Agenten gestellten Anforderungen und Handlungssequenzen zu erfüllen. Eine solche Anforderung stellt häufig die Navigation durch einen Spielbereich dar. Bei der Anwendung auf Videospiele müssen besondere Voraussetzungen erfüllt werden. Hierzu gehört ein besonders effizienter Umgang mit den zur Verfügung stehenden Ressourcen, um echtzeitfähige Entscheidungen zu ermöglichen und eine nahtlose Integration ins Spielgeschehen zu gewährleisten.
Zu diesem Zweck sind verschiedene klassische Wegfindungsalgorithmen zu implementieren und auf ihre Qualität und Effizienz zu prüfen. Mithilfe der Unity Engine lassen sich verschiedene Szenarien kreieren, die Herausforderungen für unterschiedliche Agenten bilden. Dabei werden die zurückgelegten Wege und Zeiten, aber auch die benötigten Ressourcen mithilfe eines Logging-Systems aufgezeichnet, miteinander verglichen und deren Gute in Abhängigkeit zur Anwendungsdomäne evaluiert.
Prototype-based classification methods like Generalized Matrix Learning Vector Quantization (GMLVQ) are simple and easy to implement. An appropriate choice of the activation function plays an important role in the performance of (deep) multilayer perceptrons (MLP) that rely on a non-linearity for classification and regression learning. In this thesis, successful candidates of non-linear activation functions are investigated which are known for MLPs for application in GMLVQ to realize a non-linear mapping. The influence of the non-linear activation functions on the performance of the model with respect to accuracy, convergence rate are analyzed and experimental results are documented.
In this work a second version for the Python implementation of an algorithm called Probabilistic Regulation of Metabolism (PROM) was created and applied to the metabolic model iSynCJ816 for the organism Synechocystis sp. PCC 6803. A crossvalidation was performed to determine the minimal amount of expression data needed to produce meaningful results with the PROM algorithm. The failed reproduction of the results of a method called Integrated and Deduced Regulation of Metabolism (IDREAM) is documented and causes for the failed reproduction are discussed.
Die Arbeit untersucht das Problem, der Named Entity Recognition in großen Textkorpora. Für klassische Modelle sind meist große gelabelte Datenmengen nötig, die häufig aber nicht zur Verfügung stehen, weil manuelle Annotation sehr zeitaufwendig ist. Deshalb wurde ein Halbüberwachtes
(Semi-Supervised) Verfahren untersucht, um ausgehend von einer kleinen Menge manuell annotierter Daten iterativ mit möglichst wenig Annotationsaufwand ein solides Modell zu trainieren. Das Verfahren nutzt gezielte manuelle Annotation, um den Lerneffekt durch Self-Training zu erhöhen. Die Untersuchungen haben jedoch gezeigt, dass durch Self-Training in diesem Fall keine Verbesserung erzielt werden konnte. Es kann aber eine erhebliche Menge
manueller Annotation durch die gezielte Auswahl von statistisch unsicheren Sätzen für die manuelle Annotation eingespart werden und dadurch effizienter eine bessere Performance erreicht werden.
This thesis investigates the efficacy of four machine learning algorithms, namely linear regression, decision tree, random forest and neural network in the task of lead scoring. Specifically, the study evaluates the performance of these algorithms using datasets without sampling and with random under-sampling and over-sampling using SMOTE. The performance of each algorithm is measure using various performance metrics, including accuracy, AUC-ROC, specificity, sensitivity, precision, recall, F1 score, and G-mean. The results indicate that models trained on the dataset without sampling achieved higher accuracy than those trained on the dataset with either random under-sampling or random over-sampling using SMOTE. However, the neural network demonstrated remarkable results on each dataset compared to the other algorithms. These findings provide valuable insights into the effectiveness of machine learning algorithms for lead scoring tasks, particularly when using different sampling techniques. The findings of this study can aid lead management practices in selecting the most suitable algorithm and sampling technique for their needs. Furthermore, the study contributes to the literature by providing a comprehensive evaluation of the performance of machine learning algorithms for lead scoring tasks. This thesis has practical implications for businesses looking to improve their lead management practices, and future research could extend the analysis to other machine learning algorithms or more extensive datasets.
Anomaly Detection is a very acute technical problem among various business enterprises. In this thesis a combination of the Growing Neural Gas and the Generalized Matrix Learning Vector Quantization is presented as a solution based on collected theoretical and practical knowledge. The whole network is described and implemented along with references and experimental results. The proposed model is carefully documented and all the further open researching questions are stated for future investigations.
Viele soziale Netzwerke gewähren oft keine Transparenz, wenn die Rede von Algorithmen ist. Es scheint nur ein sehr begrenztes Verständnis zu geben, wie die Algorithmen von sozialen Netzwerken arbeiten. Ausnahmslos wäre ein solches Verständnis für die IT-Forensik von großer Bedeutung. Demnach ist das Ziel dieser Arbeit die Entwicklung eines mathematisches Modells, welches den people you may know-Algorithmus von Facebook beschreiben könnte. Da nur wenig
Literatur zu dieser Thematik existiert, wurde der Algorithmus empirisch untersucht. Es wurde ein Botnetzwerk geschaffen, bestehend aus elf Facebook-Profilen, denen unterschiedliche Aufgaben zugeteilt wurden. Die Freundschaftsvorschläge der Bots wurden mit Hilfe eines Web Crawlers extrahiert und im Anschluss ausgewertet. Aus der Analyse der Datensätze ging hervor, dass das Erzeugen eines Freundschaftvorschlages zwischen Bots durch eine Anzahl unterschiedlicher Parametern möglich ist. Im mathematischen Modell wurde Bezug auf die Parameter genommen und für jeden dieser eine Gewichtung zugeteilt, um ihre Relevanz zum Generieren eines Freundschaftvorschlages zwischen zwei Profilen darzustellen. Welche Parameter verwendet wurden und wie die Gewichtungen dieser ausgefallen sind, wird ausführlich in dieser Arbeit erläutert.
Path decomposition of a graph has received an important amount of interest over the past decades because of its applications in algorithmic graph theory and in real life problems. For the computation of a path decomposition of small width, we use different heuritics approaches. One of the most useful method is by Bodlaender and Kloks. In this thesis, we focus on the computation, applications, transformation and approximation of a path decomposition of small width.
It is easy to convert a path decomposition in to nice path decomposition with same width, which is more convinent to use to find the graph parameters like independent sets, chromatic polynomials etc. Inspired by [28], we find an algorithm to compute the chromatic polynomial of a graph via nice path decomposition with small width.
In der vorliegenden Masterarbeit werden Daten der Kriminalstatistik Berlins in Bezug auf die Entwicklung erfasster Straftaten statistisch analysiert und hinsichtlich kausaler Zusammenhänge ausgewertet. Der Hauptaspekt der Arbeit bildet ein neuer Modellierungsansatz für den Bereich des Predictive Policing, welcher sich auf Erkenntnissen über Bayesian Belief Networks stützt. Durch die präsentierten Ansätze soll die grundsätzliche Anwendbarkeit von gerichteten Graphen für die Problemstellungen des Predictive Policing aufgezeigt werden, da diese aufgrund ihres Potenzials in der Abbildung von Informationsflüssen sowie Eigenschaften der Inferenz zukünftig neue Möglichkeiten in der Modellierung der Ausbreitung von Kriminalität bieten können.
Innerhalb dieser Bachelorarbeit werden zuerst theoretische Grundlagen für das Balancing von Spielen erarbeitet, die sich im späteren Verlauf immer weiter auf rundenbasierte Strategiespiele spezialisieren. Diese dienen nach einer Analyse bekannter und erfolgreicher Beispiele von rundenbasierten Sammelkartenspielen im praktischen Teil dazu einen Algorithmus zu formulieren, welche wichtigen Aspekte beim Balancing eines Spiels in diesem eben diesem Genre zu beachten, und, wie diese grob umzusetzen sind. Schlussendlich wird dieses Verfahren Anhand von Statistiken eines dieser näher betrachteten Beispiele auf seine Genauigkeit hin untersucht, um Schlussendlich ein Fazit über die praktische Anwendbarkeit dieses Algorithmus ziehen zu können.
In dieser Arbeit wird der Einsatz des Wave Function Collapse Algorithmus untersucht. Dazu werden Anforderungen an das Leveldesign für das Videospiel Counter Strike: Global Offensive als Vorlage genutzt. Der Algorithmus wird in der Unity Engine implementiert und evaluiert. Es werden drei Versuchsreihen durchgeführt. Jede Versuchsreihe nutzt andere Einstellungen für die Levelgenerierung und analysiert welche Anforderungen erfüllt werden können. Die Ergebnisse werden verglichen und es werden Rückschlüsse auf die Anwendbarkeit des Algorithmus für die Erstellung von Multiplayer Level mit Ähnlichkeit zu Counter Strike: Global Offensive gezogen.
Workload Optimization Techniques for Password
Guessing Algorithms on Distributed Computing Platforms
(2019)
The following thesis covers several ways to optimize distributed computing platforms for cryptanalytic purposes. After an introduction on password storage, password guessing attacks and distributed computing in general, a set of inital benchmark results for a variety of different devices will be analyzed. The shown results are mainly based on utilization of the open source password recovery tool Hashcat. The second part of this work shows an algorithmic implementation for information retrieval and workload generation. This thesis can be used for the conception of a distributed computing system, inventory analysis of available hardware devices, runtime and cost estimations for specific jobs and finally strategic workload distribution.