Refine
Document Type
- Master's Thesis (30)
- Bachelor Thesis (23)
- Conference Proceeding (4)
- Diploma Thesis (1)
- Final Report (1)
Year of publication
Keywords
- Maschinelles Lernen (59) (remove)
Institute
In dieser Arbeit werden die Verfahren GLVQ und GRLVQ mit der Sobolev-Metrik erweitert und an verschiedene Datensätze mit funktionalen Daten getestet. Außerdem wird ein Ansatz vor-gestellt, die Prototypen durch Überlagerungen von Basisfunktionen darzustellen. Dieser Ansatz wird zusätzlich noch auf den GMLVQ angewendet. Hierfür betrachtete man die Gaußfunktio-nen und Sigmoidfunktionen als Basisfunktionen. Dabei wurden mit der Sobolev-Metrik sehr gute Resultat erzielt.
Die Überwachung sozialer Online-Netzwerke spielt eine zunehmend wichtige Rolle, um die polizeilichen Aufgaben hinsichtlich Kriminalprävention und Gefahrenabwehr auch im virtuellen Raum effektiv und effizient wahrnehmen zu können. Gleichzeitig machen das enorme Volumen und die Komplexität der Daten eine manuelle Bearbeitung nahezu unmöglich. Es müssen automatisierte Verfahren entwickelt werden, welche sogenannte Gefährder in sozialen Online-Netzwerken sicher erkennen können. Für die Entwicklung, das Training und die Evaluation von Modellen für das Maschinelle Lernen werden standardisierte Referenzdaten benötigt. Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines solchen Goldstandards mit Trainings- und Testdaten für Algorithmen zur Detektion von Gefährdern in sozialen Online-Netzwerken. Es werden Kriterien für die Auswahl relevanter Profile und Attribute erarbeitet und Anforderungen für die Strukturierung und Ablage der Daten formuliert. Weiterhin werden konkrete Profile und Feature-Kandidaten sowie ein XML-Schema und Dateilayout für die Bereitstellung der Daten des Goldstandards vorgeschlagen. Abschließend werden die Ergebnisse kritisch gewürdigt und ein Ausblick für zukünftige Arbeiten gegeben.
Die vorliegende Bachelorarbeit beschäftigt sich mit maschinellem Lernen im Kontext des autonomen Fahrens. Das Ziel dieser Arbeit ist das Anlernen eines Steuerungsmechanismus eines simulierten Fahrzeugs, auf Grundlage maschineller Lernverfahren, speziell dem Deep Reinforcement Learning. Dazu werden zunächst die Grundlagen des autonomen Fahrens und des maschinellen Lernens geklärt. Mit der Unity-Engine und dem ML-Agents Toolkit wurden Szenen erstellt, in denen Agenten trainiert werden. In verschiedenen Szenen mit unterschiedlichen Komplexitäten und Aufgaben sollen die Agenten lernen ein simuliertes Fahrzeug zu steuern und die jeweilige Aufgabe zu erfüllen. Um das Fahrzeug zu steuern muss der Agent die Längs- und Querführung übernehmen. Die Aufgaben können zum Beispiel anhalten in einem Zielbereich, ausweichen vor Hindernissen oder folgen eines bestimmten Streckenverlaufs umfassen. Die Ergebnisse zeigten, dass es möglich ist ein simuliertes Fahrzeug, mit einem durch Deep Reinforcement Learning angelernten Steuerungsmechanismus, zu steuern. In den meisten Szenen zeigten die Agenten ein gutes Verhalten. Durch die Ergebnisse konnten Erkenntnisse gewonnen werden, welche Faktoren bei Lernvorgängen besonders wichtig sind. Es zeigte sich, dass unter anderem die Wahl einer guten Belohnungsfunktion ausschlaggebend war.
Many companies use machine learning techniques to support decision-making and automate business processes by learning from the data that they have. In this thesis we investigate the theory behind the most widely used in practice machine learning algorithms for solving classification and regression problems.
In particular, the following algorithms were chosen for the classification problem: Logistic Regression, Decision Trees, Random Forest, Support Vector Machine (SVM), Learning Vector Quantization (LVQ). As for the regression problem, Decision Trees, Random Forest and Gradient Boosted Tree were used. We then apply those algorithms to real company data and compare their performances and results.
Prototype-based classification methods like Generalized Matrix Learning Vector Quantization (GMLVQ) are simple and easy to implement. An appropriate choice of the activation function plays an important role in the performance of (deep) multilayer perceptrons (MLP) that rely on a non-linearity for classification and regression learning. In this thesis, successful candidates of non-linear activation functions are investigated which are known for MLPs for application in GMLVQ to realize a non-linear mapping. The influence of the non-linear activation functions on the performance of the model with respect to accuracy, convergence rate are analyzed and experimental results are documented.
A relatively new research field of neurosciences, called Connectomics, aims to achieve a full understanding and mapping of neural circuits and fine neuronal structures of the nervous system in a variety of organisms. This detailed information will provide insight in how our brain is influenced by different genetic and psychiatric diseases, how memory traces are stored and ageing influences our brain structure. It is beyond question that new methods for data acquisition will produce large amounts of neuronal image data. This data will exceed the zetabyte range and is impossible to annotate manually for visualization and analysis. Nowadays, machine learning algorithms and specially deep convolutional neuronal networks are heavily used in medical imaging and computer vision, which brings the opportunity of designing fully automated pipelines for image analysis. This work presents a new automated workflow based on three major parts including image processing using consecutive deep convolutional networks, a pixel-grouping step called connected components and 3D visualization via neuroglancer to achieve a dense three dimensional reconstruction of neurons from EM image data.
Neural networks have become one of the most powerful algorithms when it comes to learning from big data sets and it is used extensively for classification. But the deeper the network models, the lesser is the interpretability of such models. Although many methods exist to explain
the output of such networks, the lack of interpretability makes them black boxes. On the other hand, prototype-based machine learning algorithms are known to be interpretable and robust.
Therefore, the aim of this thesis is to find a way to interpret the functioning of the neural networks by introducing a prototype layer to the neural network architecture. This prototype layer will train alongside the neural network and help us interpret the model. We present architectures of neural networks consisting of autoencoders and prototypes that perform activity recognition from heart rates extracted from ECG signals. These prototypes represent the different activity groups that the heart rates belong to and thereby aid in interpretability.
Active Learning (AL) ist eine besondere Trainingsstrategie im überwachten maschinellen Lernen, mit dem Ziel die Accuracy eines Klassifikators zu verbessern, indem ein Klassifikator mit nur wenig gelabelten, aber dafür hoch informativen Datenpunkten (DP) gelernt wird. In der medizinischen Forschung liegen oftmals nur wenig gelabelte DP vor. AL kann eine sinnvolle Strategie sein, um die Kosten und den Aufwand für das Labeln ungelabelter DP zu senken. Mit Pool-Based AL wurden bisher die größten Erfolge verzeichnet. In der vorliegenden Arbeit wurden zwei biologische, binäre Klassifikationsprobleme mit Uncertainty Sampling Pool-Based AL und Query by Bagging Comitee Pool-Based AL untersucht. Der Generalized Learning Vector Quantization (GLVQ) und ein Multilayer Perzeptron (MLP) wurden als Klassifikatoren verwendet. Anhand eines linear trennbaren und eines nicht linear trennbaren Datensatzes wurden die Auswirkungen der Anzahl an gelabelten DP, mit welcher die Klassifikatoren zu Beginn trainiert wurden, auf die Accuracy untersucht. Die AL-Accuracy näherte sich für das anfängliche Training der Klassifikatoren mit 10 % gelabelten DP bereits stark an die Accuracy im klassischen maschinellen Lernen an und war teilweise sogar größer. In einem weiteren Experiment wurden daher die Klassifikatoren anfänglich mit nur 1 % gelabelten DP trainiert. Es wurde die Auswirkung der Anzahl nachgelabelter DP, mit welcher die Klassifikatoren nachtrainiert wurden, auf die Accuracy untersucht. Für den linear trennbaren Datensatz war die Anwendung von AL mit dem GLVQ und 10 nachgelabelten DP sowie mit dem MLP und 50 nachgelabelten DP erfolgreich. Bei dem nicht linear trennbaren Datensatz wurde mit dem MLP zumindest eine Tendenz, dass AL die Accuracy verbessert, festgestellt. Jedoch reichten 50 nachgelabelte DP nicht aus.
Zur automatisierten Planung und Steuerung einer Anlage wird eine über viele Jahre entwickelte und stetig fortschreitende Software der Firma UTIKAL Automation GmbH & Co eingesetzt.
Diese basiert auf „klassischen“ Regeln bzw. Heuristiken zur Steuerung und Kontrolle der Abläufe, z.B. Überprüfung Maschinenbelegung, Verhinderung Kollision zwischen Transportwagen, Abstimmung von Fahrten mehrerer Transportwagen etc. Erzielt werden gute bis sehr gute Produktivität und Durchsätze in einer Anlage, jedoch ist das Ziel dieser Arbeit mittels Einsatz von maschinellem Lernen (Deep Reinforcement Learning) dies noch zu steigern und den Grad an Automatisierung zu erhöhen. Dies betrifft sowohl Produktivität und Durchsatz als auch ein hoffentlich intelligentes Eingreifen in unerwünschten oder unerwarteten Situationen ausgelöst z.B. durch Störungen.
Tiefes verstärkenden Lernen ist eine Kombination aus tiefem Lernen und ver-stärkendem Lernen, die ihre jeweiligen Vorteile erbt, jedoch immer noch einige Probleme beim tiefen Lernen oder beim verstärkenden Lernen aufweist. In die-sem Artikel wird die Stabilität des Algorithmus analysiert und untersucht, um die relevanten Probleme zu lösen.
In dieser Arbeit wird ein Konzept für die Fahrprofilauswahl mittels machine learning vorgestellt. Hierbei wird ein Einblick in die Grundlagen und Methodiken des maschinellen Lernens sowie Fahrzeugelektronik gegeben. Des Weiteren wird das Thema künstliche neuronale Netzwerke detailliert erklärt, da es in der Arbeit Anwendung finden wird. Im späteren Verlauf wird ein LSTMNetzwerk implementiert und ausgewertet, um aus den Erfahrungen wichtige Erkenntnisse ableiten zu können. Aufbauend auf den Erkenntnissen, wird ein Konzept für die Fahrprofilauswahl definiert.
Genetic sequence variations at the level of gene promoters influence the binding of transcription factors. In plants, this often leads to differential gene expression across natural accessions and crop cultivars. Some of these differences are propagated through molecular networks and lead to macroscopic phenotypes. However, the link between promoter sequence variation and the variation of its activity is not yet well understood. In this project, we use the power of deep learning in 728 genotypes of Arabidopsis thaliana to shed light on some aspects of that link. Convolutional neural networks were successfully implemented to predict the likelihood of a gene being expressed from its promoter sequence. These networks were also capable of highlighting known and putative new sequence motifs causal for the expression of genes. We tested our algorithms in various scenarios, including single and multiple point mutations, as well as indels on synthetic and real promoter sequences and the respective performance characteristics of the algorithm have been estimated. Finally, we showed that the decision boundary to classify genes as expressed and non-expressed depends on the sensitivity of the transcriptome profiling assay and changing it has an impact on the algorithm’s performance.
Data streams change their statistical behaviour over the time. These changes can occur gradually or abruptly with unforeseen reasons, which may effect the expected outcome. Thus it is important to detect concept drift as soon as it occurs. In this thesis we chose distance based methodology to detect presence of concept drift in the data streams. We used generalized learning vector quantization(GLVQ) and generalized matrix learning vector quantization( GMLVQ) classifiers for distance calculation between prototypes and data points. Chi-square and Kolmogorov–Smirnov tests are used to compare the distance distributions of test and train data sets to indicate the drift presence.
Financial fraud for banks can be a reason for huge monetary losses. Studies have shown that, if not mitigated, financial fraud can lead to bankruptcy for big financial institutions and even insolvency for individuals. Credit card fraud is a type of financial fraud that is ever growing. In the future, these numbers are expected to increase exponentially and that’s why a lot of researchers are focusing on machine learning techniques for detecting frauds. This task, however, is not a simple task. There are mainly two reasons
• varying behaviour in committing fraud
• high level of imbalance in the dataset (the majority of normal or genuine cases largely outnumbers the number of fraudulent cases)
A predictive model usually tends to be biased towards the majority of samples, in an unbalanced dataset, when this dataset is provided as an input to a predictive model.
In this Thesis this problem is tackled by implementing a data-level approach where different resampling methods such as undersampling, oversampling, and hybrid strategies along with bagging and boosting algorithmic approaches have been applied to a highly skewed dataset with 492 idetified frauds out of 284,807 transactions.
Predictive modelling algorithms like Logistic Regression, Random Forest, and XGBoost have been implemented along with different resampling techniques to predict fraudulent transactions.
The performance of the predictive models was evaluated based on Receiver Operating CharacteristicArea under the curve (AUC-ROC), Precision Recall Area under the Curve (AUC-PR), Precision, Recall, F1 score metrics.
Drought is one of the most common and dangerous threats plants have to face, costing the global agricultural sector billions of dollars every year and leading to the loss of tons of harvest. Until people drastically reduce their consumption of animal products or cellular agriculture comes of age, more and more crops will need to be produced to sustain the ever growing human population. Even then, as more areas on earth are becoming prone to drought due to climate change, we may still have to find or breed plant varieties more suitable to grow and prosper in these changing environments.
Plants respond to drought stress with a complex interplay of hormones, transcription factors, and many other functional or regulatory proteins and mapping out this web of agents is no trivial task. In the last two to three decades or so, machine learning has become immensely popular and is increasingly used to find patterns in situations that are too complex for the human mind to overlook. Even though much of the hype is focused on the latest developments in deep learning, relatively simple methods often yield superior results, especially when data is limited and expensive to gather.
This Master Thesis, conducted at the IPK in Gatersleben, develops an approach for shedding light on the phenotypic and transcriptomic processes that occur when a plant is subjected to stress. It centers around a random forest feature selection algorithm and although it is used here to illuminate drought stress response in Arabidopsis thaliana, it can be applied to all kinds of stresses in all kinds of plants.
Die neue Generation der künstlichen Intelligenz (KI) hat sich in den letzten Jahren zu einem Hot Spot in der in- und ausländischen Forschung entwickelt. Darunter ist der typische Vertretermaschinelles Lernen (ML), das als diese Kategorie von Algorithmen bezeichnet. Es bildet Vorhersagen und Urteile, indem es große Mengen vorhandener oder generierter Daten analysiert und lernt, um die besten Entscheidungen zu treffen. Chinas neue Generation von KI befindet sich in einer kritischen Phase der rasanten Entwicklung und wurde vorläufig in Energie- und Energiesystemen eingesetzt.
We present dimensionality reduction methods like autoencoders and t-SNE for visualization of high-dimensional data into a two-dimensional map. In this thesis, we initially implement basic and deep autoencoders using breast cancer and mushroom datasets. Next, we build another dimensionality reduction method t-SNE using the same datasets. The obtained visualization results of the datasets using the dimensionality reduction methods are documented in the experiments section of the thesis. The evaluation of classification and clustering for the dimensionality reduction techniques is also performed. The visualization and evaluation results of t-SNE are significantly better than the other dimensionality reduction techniques.