Refine
Document Type
- Master's Thesis (6)
- Bachelor Thesis (5)
Year of publication
- 2020 (11) (remove)
Keywords
- Maschinelles Lernen (11) (remove)
Institute
Drought is one of the most common and dangerous threats plants have to face, costing the global agricultural sector billions of dollars every year and leading to the loss of tons of harvest. Until people drastically reduce their consumption of animal products or cellular agriculture comes of age, more and more crops will need to be produced to sustain the ever growing human population. Even then, as more areas on earth are becoming prone to drought due to climate change, we may still have to find or breed plant varieties more suitable to grow and prosper in these changing environments.
Plants respond to drought stress with a complex interplay of hormones, transcription factors, and many other functional or regulatory proteins and mapping out this web of agents is no trivial task. In the last two to three decades or so, machine learning has become immensely popular and is increasingly used to find patterns in situations that are too complex for the human mind to overlook. Even though much of the hype is focused on the latest developments in deep learning, relatively simple methods often yield superior results, especially when data is limited and expensive to gather.
This Master Thesis, conducted at the IPK in Gatersleben, develops an approach for shedding light on the phenotypic and transcriptomic processes that occur when a plant is subjected to stress. It centers around a random forest feature selection algorithm and although it is used here to illuminate drought stress response in Arabidopsis thaliana, it can be applied to all kinds of stresses in all kinds of plants.
Genetic sequence variations at the level of gene promoters influence the binding of transcription factors. In plants, this often leads to differential gene expression across natural accessions and crop cultivars. Some of these differences are propagated through molecular networks and lead to macroscopic phenotypes. However, the link between promoter sequence variation and the variation of its activity is not yet well understood. In this project, we use the power of deep learning in 728 genotypes of Arabidopsis thaliana to shed light on some aspects of that link. Convolutional neural networks were successfully implemented to predict the likelihood of a gene being expressed from its promoter sequence. These networks were also capable of highlighting known and putative new sequence motifs causal for the expression of genes. We tested our algorithms in various scenarios, including single and multiple point mutations, as well as indels on synthetic and real promoter sequences and the respective performance characteristics of the algorithm have been estimated. Finally, we showed that the decision boundary to classify genes as expressed and non-expressed depends on the sensitivity of the transcriptome profiling assay and changing it has an impact on the algorithm’s performance.
Data streams change their statistical behaviour over the time. These changes can occur gradually or abruptly with unforeseen reasons, which may effect the expected outcome. Thus it is important to detect concept drift as soon as it occurs. In this thesis we chose distance based methodology to detect presence of concept drift in the data streams. We used generalized learning vector quantization(GLVQ) and generalized matrix learning vector quantization( GMLVQ) classifiers for distance calculation between prototypes and data points. Chi-square and Kolmogorov–Smirnov tests are used to compare the distance distributions of test and train data sets to indicate the drift presence.
Financial fraud for banks can be a reason for huge monetary losses. Studies have shown that, if not mitigated, financial fraud can lead to bankruptcy for big financial institutions and even insolvency for individuals. Credit card fraud is a type of financial fraud that is ever growing. In the future, these numbers are expected to increase exponentially and that’s why a lot of researchers are focusing on machine learning techniques for detecting frauds. This task, however, is not a simple task. There are mainly two reasons
• varying behaviour in committing fraud
• high level of imbalance in the dataset (the majority of normal or genuine cases largely outnumbers the number of fraudulent cases)
A predictive model usually tends to be biased towards the majority of samples, in an unbalanced dataset, when this dataset is provided as an input to a predictive model.
In this Thesis this problem is tackled by implementing a data-level approach where different resampling methods such as undersampling, oversampling, and hybrid strategies along with bagging and boosting algorithmic approaches have been applied to a highly skewed dataset with 492 idetified frauds out of 284,807 transactions.
Predictive modelling algorithms like Logistic Regression, Random Forest, and XGBoost have been implemented along with different resampling techniques to predict fraudulent transactions.
The performance of the predictive models was evaluated based on Receiver Operating CharacteristicArea under the curve (AUC-ROC), Precision Recall Area under the Curve (AUC-PR), Precision, Recall, F1 score metrics.
In dieser Arbeit wird ein Konzept für die Fahrprofilauswahl mittels machine learning vorgestellt. Hierbei wird ein Einblick in die Grundlagen und Methodiken des maschinellen Lernens sowie Fahrzeugelektronik gegeben. Des Weiteren wird das Thema künstliche neuronale Netzwerke detailliert erklärt, da es in der Arbeit Anwendung finden wird. Im späteren Verlauf wird ein LSTMNetzwerk implementiert und ausgewertet, um aus den Erfahrungen wichtige Erkenntnisse ableiten zu können. Aufbauend auf den Erkenntnissen, wird ein Konzept für die Fahrprofilauswahl definiert.
Zur automatisierten Planung und Steuerung einer Anlage wird eine über viele Jahre entwickelte und stetig fortschreitende Software der Firma UTIKAL Automation GmbH & Co eingesetzt.
Diese basiert auf „klassischen“ Regeln bzw. Heuristiken zur Steuerung und Kontrolle der Abläufe, z.B. Überprüfung Maschinenbelegung, Verhinderung Kollision zwischen Transportwagen, Abstimmung von Fahrten mehrerer Transportwagen etc. Erzielt werden gute bis sehr gute Produktivität und Durchsätze in einer Anlage, jedoch ist das Ziel dieser Arbeit mittels Einsatz von maschinellem Lernen (Deep Reinforcement Learning) dies noch zu steigern und den Grad an Automatisierung zu erhöhen. Dies betrifft sowohl Produktivität und Durchsatz als auch ein hoffentlich intelligentes Eingreifen in unerwünschten oder unerwarteten Situationen ausgelöst z.B. durch Störungen.
Tiefes verstärkenden Lernen ist eine Kombination aus tiefem Lernen und ver-stärkendem Lernen, die ihre jeweiligen Vorteile erbt, jedoch immer noch einige Probleme beim tiefen Lernen oder beim verstärkenden Lernen aufweist. In die-sem Artikel wird die Stabilität des Algorithmus analysiert und untersucht, um die relevanten Probleme zu lösen.
We present dimensionality reduction methods like autoencoders and t-SNE for visualization of high-dimensional data into a two-dimensional map. In this thesis, we initially implement basic and deep autoencoders using breast cancer and mushroom datasets. Next, we build another dimensionality reduction method t-SNE using the same datasets. The obtained visualization results of the datasets using the dimensionality reduction methods are documented in the experiments section of the thesis. The evaluation of classification and clustering for the dimensionality reduction techniques is also performed. The visualization and evaluation results of t-SNE are significantly better than the other dimensionality reduction techniques.
Die neue Generation der künstlichen Intelligenz (KI) hat sich in den letzten Jahren zu einem Hot Spot in der in- und ausländischen Forschung entwickelt. Darunter ist der typische Vertretermaschinelles Lernen (ML), das als diese Kategorie von Algorithmen bezeichnet. Es bildet Vorhersagen und Urteile, indem es große Mengen vorhandener oder generierter Daten analysiert und lernt, um die besten Entscheidungen zu treffen. Chinas neue Generation von KI befindet sich in einer kritischen Phase der rasanten Entwicklung und wurde vorläufig in Energie- und Energiesystemen eingesetzt.
Die vorliegende Arbeit beschäftigte sich mit einer Analyse von Methoden des maschinellen Lernens, mit Hinblick auf ihre unterstützende Wirkung für den intralingualen Übersetzungsprozess von deutschen standardsprachlichen zu Leichte Sprache Texten. Für diesen Zweck wurde ein Vergleich von relevanten Methoden, in diesem Fall die der statistischen maschinellen Übersetzung und die der neuronalen maschinellen Übersetzung aus dem Bereich des maschinellen Lernens und des Natural Language Processing aufgestellt. Dabei wurde der potenzielle Funktionsumfang, die Voraussetzungen sowie die Implementierbarkeit verglichen. Das Ergebnis dieses Vergleiches war es das, dass Potenzial durchaus gegeben ist mittels dieser Methoden den Übersetzungsprozess zu unterstützen. Jedoch bedingt das Fehlen eines Textkorpus für deutsche Standard Sprache und ein dazugehöriger Textkorpus der Leichten Sprache, das diese Methoden nicht implementiert, wurden konnten. Es konnten drei Funktionen umgesetzt werden, die den Übersetzungsprozess unterstützen. Zum einen die Funktion für die Anzeige von gebräuchlicheren Synonymen von Wörtern, eine Funktion für die automatische Generierung von
Zusammenfassungen und eine Funktion für Anzeige von Umformulierungen für Zahlen aus den Bereichen hohe Zahlen, alte Jahreszahlen und Prozent Zahlen. Die Evaluation der Funktionen mittels einer zufällig generierten Wortliste und ausgewählter Nachrichten für die Zusammenfassung und Zahlenbereiche ergab. Das diese Funktionen eine unterstützende Wirkung haben, jedoch stark fehleranfällig sind.