Refine
Document Type
- Master's Thesis (30)
- Bachelor Thesis (23)
- Conference Proceeding (4)
- Diploma Thesis (1)
- Final Report (1)
Year of publication
Keywords
- Maschinelles Lernen (59) (remove)
Institute
Drought is one of the most common and dangerous threats plants have to face, costing the global agricultural sector billions of dollars every year and leading to the loss of tons of harvest. Until people drastically reduce their consumption of animal products or cellular agriculture comes of age, more and more crops will need to be produced to sustain the ever growing human population. Even then, as more areas on earth are becoming prone to drought due to climate change, we may still have to find or breed plant varieties more suitable to grow and prosper in these changing environments.
Plants respond to drought stress with a complex interplay of hormones, transcription factors, and many other functional or regulatory proteins and mapping out this web of agents is no trivial task. In the last two to three decades or so, machine learning has become immensely popular and is increasingly used to find patterns in situations that are too complex for the human mind to overlook. Even though much of the hype is focused on the latest developments in deep learning, relatively simple methods often yield superior results, especially when data is limited and expensive to gather.
This Master Thesis, conducted at the IPK in Gatersleben, develops an approach for shedding light on the phenotypic and transcriptomic processes that occur when a plant is subjected to stress. It centers around a random forest feature selection algorithm and although it is used here to illuminate drought stress response in Arabidopsis thaliana, it can be applied to all kinds of stresses in all kinds of plants.
There are multiple ways to gain information about an individual and its health status, but an increasingly popular field in medicine has become the analysis of human breath, which carries a lot of information about metabolic processes within the individuals body. The information in exhaled breath consists of volatile (organic) compounds (VOCs). These VOCs are products of metabolic processes within the individuals body, thus might be an indicator for diseases disturbing those processes. The compounds are to be detected by mass-spectrometric (MS) or ion-mobility spectrometric (IMS) techniques, making the analysis of these compounds not only bounded to exhaled breath. The resulting data is spectral data, capturing concentrations of the VOCs indirectly through intensities. However, a number of about 3000 VOCs [1] could already be determined in human exhaled breath. The number of research paper about VOC-analysis and detection had risen nearly constantly over the last decade 1. Furthermore, the technique to identify VOCs could also be used to capture biomarker from alien species within the individuals body. Extracting VOCs from an individual can be done by non- or minimal invasive techniques. However, the manual identification of VOCs and biomarkers related to a certain disease or infection is not feasible due to the complexity of the sample and often unknown metabolic products, thus automized techniques are needed. [1–4] To establish breath analysis as a diagnosis tool, machine learning methodes could be used. Machine learning has become a popular and common technique when dealing with medical data, due to the rapid analysis. Taking this advantage, breath analysis using machine learning could become the model of choice for diagnosis, keeping in mind that conventional methodes are laboratory based and thus when trying detect bacterial infection need sometimes several days to identify the organism. [5]
Active Learning (AL) ist eine besondere Trainingsstrategie im überwachten maschinellen Lernen, mit dem Ziel die Accuracy eines Klassifikators zu verbessern, indem ein Klassifikator mit nur wenig gelabelten, aber dafür hoch informativen Datenpunkten (DP) gelernt wird. In der medizinischen Forschung liegen oftmals nur wenig gelabelte DP vor. AL kann eine sinnvolle Strategie sein, um die Kosten und den Aufwand für das Labeln ungelabelter DP zu senken. Mit Pool-Based AL wurden bisher die größten Erfolge verzeichnet. In der vorliegenden Arbeit wurden zwei biologische, binäre Klassifikationsprobleme mit Uncertainty Sampling Pool-Based AL und Query by Bagging Comitee Pool-Based AL untersucht. Der Generalized Learning Vector Quantization (GLVQ) und ein Multilayer Perzeptron (MLP) wurden als Klassifikatoren verwendet. Anhand eines linear trennbaren und eines nicht linear trennbaren Datensatzes wurden die Auswirkungen der Anzahl an gelabelten DP, mit welcher die Klassifikatoren zu Beginn trainiert wurden, auf die Accuracy untersucht. Die AL-Accuracy näherte sich für das anfängliche Training der Klassifikatoren mit 10 % gelabelten DP bereits stark an die Accuracy im klassischen maschinellen Lernen an und war teilweise sogar größer. In einem weiteren Experiment wurden daher die Klassifikatoren anfänglich mit nur 1 % gelabelten DP trainiert. Es wurde die Auswirkung der Anzahl nachgelabelter DP, mit welcher die Klassifikatoren nachtrainiert wurden, auf die Accuracy untersucht. Für den linear trennbaren Datensatz war die Anwendung von AL mit dem GLVQ und 10 nachgelabelten DP sowie mit dem MLP und 50 nachgelabelten DP erfolgreich. Bei dem nicht linear trennbaren Datensatz wurde mit dem MLP zumindest eine Tendenz, dass AL die Accuracy verbessert, festgestellt. Jedoch reichten 50 nachgelabelte DP nicht aus.
This article aims to explain mathematically, why the so called double descent observed by Belkin et al., Reconciling modern machine-learning practice and the classical bias-variance trade-off, PNAS 116(32) (2019), p. 15849-15854, occurs on the way from the classical approximation regime of machine learning to the modern interpolation regime. We argue that this phenomenon may be explained by a decomposition of mean squared error plus complexity into bias, variance and an unavoidable irreducible error inherent to the problem. Further, in case of normally distributed output errors, we apply this decomposition to explain, why LASSO provides reliable predictors avoiding overfitting.
Die vorliegende Bachelorarbeit beschäftigt sich mit Objekterkennung im Kontext des maschinellen Lernens. Analysiert werden zwei Kategorie Algorithmen R-CNN und YOLO von Objekterkennung. Mit Matlab werden der offizielle Code durchführen, um darin einiges Objekt zu erkennen. Verschiedene Algorithmen haben unterschiedlichen Prinzipien und Prozesse. Nach Läufen können sie bei viele Bereiche verglichen und bewertet worden. Die Ergebnisse zeigten die Genauigkeit usw. Im Rahmen dieser Bachelorarbeit werden 3 verschiedenen Algorithmus getestet, um der Objekterkennungsfähigkeit der drei Algorithmen für denselben Datensatz unter derselben Betriebsumgebung zu vergleichen.
Die vorliegende Arbeit beschäftigte sich mit einer Analyse von Methoden des maschinellen Lernens, mit Hinblick auf ihre unterstützende Wirkung für den intralingualen Übersetzungsprozess von deutschen standardsprachlichen zu Leichte Sprache Texten. Für diesen Zweck wurde ein Vergleich von relevanten Methoden, in diesem Fall die der statistischen maschinellen Übersetzung und die der neuronalen maschinellen Übersetzung aus dem Bereich des maschinellen Lernens und des Natural Language Processing aufgestellt. Dabei wurde der potenzielle Funktionsumfang, die Voraussetzungen sowie die Implementierbarkeit verglichen. Das Ergebnis dieses Vergleiches war es das, dass Potenzial durchaus gegeben ist mittels dieser Methoden den Übersetzungsprozess zu unterstützen. Jedoch bedingt das Fehlen eines Textkorpus für deutsche Standard Sprache und ein dazugehöriger Textkorpus der Leichten Sprache, das diese Methoden nicht implementiert, wurden konnten. Es konnten drei Funktionen umgesetzt werden, die den Übersetzungsprozess unterstützen. Zum einen die Funktion für die Anzeige von gebräuchlicheren Synonymen von Wörtern, eine Funktion für die automatische Generierung von
Zusammenfassungen und eine Funktion für Anzeige von Umformulierungen für Zahlen aus den Bereichen hohe Zahlen, alte Jahreszahlen und Prozent Zahlen. Die Evaluation der Funktionen mittels einer zufällig generierten Wortliste und ausgewählter Nachrichten für die Zusammenfassung und Zahlenbereiche ergab. Das diese Funktionen eine unterstützende Wirkung haben, jedoch stark fehleranfällig sind.
Machine learning models for timeseries have always been a special topic of interest due to their unique data structure. Recently, the introduction of attention improved the capabilities of recurrent neural networks and transformers with respect to their learning tasks such as machine translation. However, these models are usually subsymbolic architectures, making their inner working hard to interpret without comprehensive tools. In contrast, interpretable models such learning vector quantization are more transparent in the ability to interpret their decision process. This thesis tries to merge attention as a machine learning function with learning vector quantization to better handle timeseries data. A design on such a model is proposed and tested with a dataset used in connection with the attention based transformers. Although the proposed model did not yield the expected results, this work outlines improvements for further research on this approach.
Analysis of Continuous Learning Strategies at the Example of Replay-Based Text Classification
(2023)
Continuous learning is a research field that has significantly boosted in recent years due to highly complex machine and deep learning models. Whereas static models need to be retrained entirely from scratch when new data get available, continuous models progressively adapt to new data saving computational resources. In this context, this work analyzes parameters impacting replay-based continuous learning approaches at the example of a data-incremental text classification task using an MLP and LSTM. Generally, it was found that replay improves the results compared to naive approaches but achieves not the performance of a static model. Mainly, the performances increased with more replayed examples, and the number of training iterations has a significant influence as it can partly control the stability-plasticity-trade-off. In contrast, the impact of balancing the buffer and the strategy to select examples to store in the replay buffer were found to have a minor impact on the results in the present case.
In this thesis, we focus on using machine learning to automate manual or rule-based processes for the deduplication task of the data integration process in an enterprise customer experience program. We study the underlying theoretical foundations of the most widely used machine learning algorithms, including logistic regression, random forests, extreme gradient boosting trees, support vector machines, and generalized matrix learning vector quantization. We then apply those algorithms to a real, private data set and use standard evaluation metrics for classification, such as confusion matrix, precision, and recall, area under the precision-recall curve, and area under the Receiver Operating Characteristic curve to compare their performances and results.
As new sensors are added to VR headsets, more data can be collected. This introduces a new potential threat to user privacy. We focused on the feasibility of extracting personal information from eye-tracking. To achieve this, we designed a preliminary user study focusing on the pupil response to audio stimuli. We used a variation of machine learning models to test the collected data to determine the feasibility of obtaining information such as the age or gender of the participant. Several of the experiments show promise for obtaining this information. We were able to extract with reasonable certainty whether caffeine was consumed and the gender of the participant. This demonstrates the unknown threat that embedded sensors pose to users. A further studies are planned to verify the results.