Refine
Document Type
- Master's Thesis (30)
- Bachelor Thesis (23)
- Conference Proceeding (4)
- Diploma Thesis (1)
- Final Report (1)
Year of publication
Keywords
- Maschinelles Lernen (59) (remove)
Institute
Die vorliegende Bachelorarbeit beschäftigt sich mit Objekterkennung im Kontext des maschinellen Lernens. Analysiert werden zwei Kategorie Algorithmen R-CNN und YOLO von Objekterkennung. Mit Matlab werden der offizielle Code durchführen, um darin einiges Objekt zu erkennen. Verschiedene Algorithmen haben unterschiedlichen Prinzipien und Prozesse. Nach Läufen können sie bei viele Bereiche verglichen und bewertet worden. Die Ergebnisse zeigten die Genauigkeit usw. Im Rahmen dieser Bachelorarbeit werden 3 verschiedenen Algorithmus getestet, um der Objekterkennungsfähigkeit der drei Algorithmen für denselben Datensatz unter derselben Betriebsumgebung zu vergleichen.
Differentiation is ubiquitous in the field of mathematics and especially in the field of Machine learning for calculations in gradient-based models. Calculating gradients might be complex and require handling multiple variables. Supervised Learning Vector Quantization models, which are used for classification tasks, also use the Stochastic Gradient Descent method for optimizing their cost functions. There are various methods to calculate these gradients or derivatives, namely Manual Differentiation, Numeric Differentiation, Symbolic Differentiation, and Automatic Differentiation. In this thesis, we evaluate each of the methods mentioned earlier for calculating derivatives and also compare the use of these methods for the variants of Generalized Learning Vector Quantization algorithms.
Die neue Generation der künstlichen Intelligenz (KI) hat sich in den letzten Jahren zu einem Hot Spot in der in- und ausländischen Forschung entwickelt. Darunter ist der typische Vertretermaschinelles Lernen (ML), das als diese Kategorie von Algorithmen bezeichnet. Es bildet Vorhersagen und Urteile, indem es große Mengen vorhandener oder generierter Daten analysiert und lernt, um die besten Entscheidungen zu treffen. Chinas neue Generation von KI befindet sich in einer kritischen Phase der rasanten Entwicklung und wurde vorläufig in Energie- und Energiesystemen eingesetzt.
Offensive Sprache im Internet ist ein stark diskutiertes Problem in sozialen Medien. Angriffe richten sich oftmals gegen Einzelpersonen, können aber auch auf Gruppen und andere Strukturen abzielen. Die Erkennung angreifender Inhalte funktioniert in vielen Ansätzen bereits sehr gut. Die Erkennung der Ziele hingegen ist bisher nur wenig erforscht. Die vorliegende Arbeit befasst sich mit der Aufarbeitung des aktuellen Forschungsstandes zu offensiver gerichteter Sprache, den Grundlagen derer Erkennung und dem Vergleich verschiedener Ansätze. Die Auswirkungen von Vorverarbeitung und Parametrisierung der Modelle werden analytisch diskutiert.
A relatively new research field of neurosciences, called Connectomics, aims to achieve a full understanding and mapping of neural circuits and fine neuronal structures of the nervous system in a variety of organisms. This detailed information will provide insight in how our brain is influenced by different genetic and psychiatric diseases, how memory traces are stored and ageing influences our brain structure. It is beyond question that new methods for data acquisition will produce large amounts of neuronal image data. This data will exceed the zetabyte range and is impossible to annotate manually for visualization and analysis. Nowadays, machine learning algorithms and specially deep convolutional neuronal networks are heavily used in medical imaging and computer vision, which brings the opportunity of designing fully automated pipelines for image analysis. This work presents a new automated workflow based on three major parts including image processing using consecutive deep convolutional networks, a pixel-grouping step called connected components and 3D visualization via neuroglancer to achieve a dense three dimensional reconstruction of neurons from EM image data.
Sequences are an important data structure in molecular biology, but unfortunately it is difficult for most machine learning algorithms to handle them, as they rely on vectorial data. Recent approaches include methods that rely on proximity data, such as median and relational Learning Vector Quantization. However, many of them are limited in the size of the data they are able to handle. A standard method to generate vectorial features for sequence data does not exist yet. Consequently, a way to make sequence data accessible to preferably interpretable machine learning algorithms needs to be found. This thesis will therefore investigate a new approach called the Sensor Response Principle, which is being adapted to protein sequences. Accordingly, sequence similarity is measured via pairwise sequence alignments with different sequence alignment algorithms and various substitution matrices. The measurements are then used as input for learning with the Generalized Learning Vector Quantization algorithm. A special focus lies on sequence length variability as it is suspected to affect the sequence alignment score and therefore the discriminative quality of the generated feature vectors. Specific datasets were generated from the Pfam protein family database to address this question. Further, the impact of the number of references and choice of substitution matrices is examined.
Das Ziel dieser Masterarbeit ist die Evaluierung des Realtime Multi-Person 2D Pose Estimation Frameworks OpenPose. Dazu wird die Forschungsfrage gestellt, bis zu welcher Pixelgröße ein Mensch allgemein von dem System mit einer Sicherheit von über 50% richtig detektiert und dargestellt wird. Um die Forschungsfrage zu beantworten ist eine Studie mit sieben Probanden durchgeführt wurden. Aus der Datenerhebung geht hervor, dass der gesuchte Confidence Value zwischen 110px und 150px Körpergröße in von Menschen digitalen Bildern erreicht wird.
Prototype-based Vector Quantization is one of the key methods in data processing like data compression or interpretable classification learning. Prototype vectors serve as references for data and data classes. The data are given as vectors representing objects by numerical features. Famous approaches are the Neural Gas Vector Quantizer (NGVQ) for data compression and Learning Vector Quantizers (LVQ) for classification tasks. Frequently, training of those models is time consuming. In the contribution we discuss modifications of these algorithms adopting ideas from quantum computing. The aim for this is a least twofold: First quantum computing provides ideas for enormous speedup making use of quantum mechanical systems and inherent parallelization.
Second, considering data and prototype vectors in terms of quantum systems, implicit data processing is performed, which frequently results in better data separation. We will highlight respective ideas and difficulties when equipping vector quantizers with quantum computing features.
Tiefes verstärkenden Lernen ist eine Kombination aus tiefem Lernen und ver-stärkendem Lernen, die ihre jeweiligen Vorteile erbt, jedoch immer noch einige Probleme beim tiefen Lernen oder beim verstärkenden Lernen aufweist. In die-sem Artikel wird die Stabilität des Algorithmus analysiert und untersucht, um die relevanten Probleme zu lösen.
We present dimensionality reduction methods like autoencoders and t-SNE for visualization of high-dimensional data into a two-dimensional map. In this thesis, we initially implement basic and deep autoencoders using breast cancer and mushroom datasets. Next, we build another dimensionality reduction method t-SNE using the same datasets. The obtained visualization results of the datasets using the dimensionality reduction methods are documented in the experiments section of the thesis. The evaluation of classification and clustering for the dimensionality reduction techniques is also performed. The visualization and evaluation results of t-SNE are significantly better than the other dimensionality reduction techniques.
Diese Arbeit behandelt die Herleitung und Verwendung eines alternativen Unähnlichkeitsmaßes im Neural - Gas - Algorithmus. Dabei werden zuerst ausgewählte Algorithmen vorgestellt und in das Feld der Vektorquantisierer eingeordnet. Anschließend wird die sogenannte Tangentenmetrik mathematisch motiviert und vermutete Vorteile gegenüber anderen Metriken anhand künstlich
erzeugten und real existierenden Beispielen experimentell untersucht. Weiterhin werden die Laufzeitkomplexität und beobachtete Limitierungen des neuen Algorithmus näher beleuchtet.
Die vorliegende Arbeit beschäftigte sich mit einer Analyse von Methoden des maschinellen Lernens, mit Hinblick auf ihre unterstützende Wirkung für den intralingualen Übersetzungsprozess von deutschen standardsprachlichen zu Leichte Sprache Texten. Für diesen Zweck wurde ein Vergleich von relevanten Methoden, in diesem Fall die der statistischen maschinellen Übersetzung und die der neuronalen maschinellen Übersetzung aus dem Bereich des maschinellen Lernens und des Natural Language Processing aufgestellt. Dabei wurde der potenzielle Funktionsumfang, die Voraussetzungen sowie die Implementierbarkeit verglichen. Das Ergebnis dieses Vergleiches war es das, dass Potenzial durchaus gegeben ist mittels dieser Methoden den Übersetzungsprozess zu unterstützen. Jedoch bedingt das Fehlen eines Textkorpus für deutsche Standard Sprache und ein dazugehöriger Textkorpus der Leichten Sprache, das diese Methoden nicht implementiert, wurden konnten. Es konnten drei Funktionen umgesetzt werden, die den Übersetzungsprozess unterstützen. Zum einen die Funktion für die Anzeige von gebräuchlicheren Synonymen von Wörtern, eine Funktion für die automatische Generierung von
Zusammenfassungen und eine Funktion für Anzeige von Umformulierungen für Zahlen aus den Bereichen hohe Zahlen, alte Jahreszahlen und Prozent Zahlen. Die Evaluation der Funktionen mittels einer zufällig generierten Wortliste und ausgewählter Nachrichten für die Zusammenfassung und Zahlenbereiche ergab. Das diese Funktionen eine unterstützende Wirkung haben, jedoch stark fehleranfällig sind.
In vielen Einsatzbereichen sind digitale Nachbildungen realer Gebäude von großer Wichtigkeit. Die Erstellung dieser Nachbildungen erfordert bei älteren bzw. historischen Gebäuden allerdings meist erheblichen Vermessungs- und Nachbearbeitungsaufwand mit großem Personal- und Zeitbedarf. Häufig wurde ein Gebäude stilistisch an die jeweilige Zeit angepasst, sodass einzelne Zustände nur mit historischem Bildmaterial reproduzierbar sind.
Am Beispiel mehrerer ausgewählter, aktuell existierender Gebäude der Stadt Mittweida sind realitätsnahe, digitale und veränderbare Modelle mittels eines möglichst automatisierten Workflows erstellt.
Die äußere Erscheinung dieser Modelle kann mit dem entwickelten System automatisiert an andere Stile anpasst werden, welche durch z.B. historisches Bildmaterials von Gebäuden vorgegeben sind. Aufgrund der vielfältigen Einsatzbereiche und weiten Verbreitung finden hierfür Verfahren der Photogrammetrie für die Erstellung und neuronale Netze für die Stilanpassung Anwendung, welche auf handelsüblicher Hardware eingesetzt werden können. Eine Evaluierung erfolgte durch bildlichen Vergleich der stilangepassten Modelle mit dem zugehörigen Bildmaterial.
There are multiple ways to gain information about an individual and its health status, but an increasingly popular field in medicine has become the analysis of human breath, which carries a lot of information about metabolic processes within the individuals body. The information in exhaled breath consists of volatile (organic) compounds (VOCs). These VOCs are products of metabolic processes within the individuals body, thus might be an indicator for diseases disturbing those processes. The compounds are to be detected by mass-spectrometric (MS) or ion-mobility spectrometric (IMS) techniques, making the analysis of these compounds not only bounded to exhaled breath. The resulting data is spectral data, capturing concentrations of the VOCs indirectly through intensities. However, a number of about 3000 VOCs [1] could already be determined in human exhaled breath. The number of research paper about VOC-analysis and detection had risen nearly constantly over the last decade 1. Furthermore, the technique to identify VOCs could also be used to capture biomarker from alien species within the individuals body. Extracting VOCs from an individual can be done by non- or minimal invasive techniques. However, the manual identification of VOCs and biomarkers related to a certain disease or infection is not feasible due to the complexity of the sample and often unknown metabolic products, thus automized techniques are needed. [1–4] To establish breath analysis as a diagnosis tool, machine learning methodes could be used. Machine learning has become a popular and common technique when dealing with medical data, due to the rapid analysis. Taking this advantage, breath analysis using machine learning could become the model of choice for diagnosis, keeping in mind that conventional methodes are laboratory based and thus when trying detect bacterial infection need sometimes several days to identify the organism. [5]
Active Learning (AL) ist eine besondere Trainingsstrategie im überwachten maschinellen Lernen, mit dem Ziel die Accuracy eines Klassifikators zu verbessern, indem ein Klassifikator mit nur wenig gelabelten, aber dafür hoch informativen Datenpunkten (DP) gelernt wird. In der medizinischen Forschung liegen oftmals nur wenig gelabelte DP vor. AL kann eine sinnvolle Strategie sein, um die Kosten und den Aufwand für das Labeln ungelabelter DP zu senken. Mit Pool-Based AL wurden bisher die größten Erfolge verzeichnet. In der vorliegenden Arbeit wurden zwei biologische, binäre Klassifikationsprobleme mit Uncertainty Sampling Pool-Based AL und Query by Bagging Comitee Pool-Based AL untersucht. Der Generalized Learning Vector Quantization (GLVQ) und ein Multilayer Perzeptron (MLP) wurden als Klassifikatoren verwendet. Anhand eines linear trennbaren und eines nicht linear trennbaren Datensatzes wurden die Auswirkungen der Anzahl an gelabelten DP, mit welcher die Klassifikatoren zu Beginn trainiert wurden, auf die Accuracy untersucht. Die AL-Accuracy näherte sich für das anfängliche Training der Klassifikatoren mit 10 % gelabelten DP bereits stark an die Accuracy im klassischen maschinellen Lernen an und war teilweise sogar größer. In einem weiteren Experiment wurden daher die Klassifikatoren anfänglich mit nur 1 % gelabelten DP trainiert. Es wurde die Auswirkung der Anzahl nachgelabelter DP, mit welcher die Klassifikatoren nachtrainiert wurden, auf die Accuracy untersucht. Für den linear trennbaren Datensatz war die Anwendung von AL mit dem GLVQ und 10 nachgelabelten DP sowie mit dem MLP und 50 nachgelabelten DP erfolgreich. Bei dem nicht linear trennbaren Datensatz wurde mit dem MLP zumindest eine Tendenz, dass AL die Accuracy verbessert, festgestellt. Jedoch reichten 50 nachgelabelte DP nicht aus.
In this paper, we conduct experiments to optimize the learning rates for the Generalized Learning Vector Quantization (GLVQ) model. Our approach leverages insights from cog- nitive science rooted in the profound intricacies of human thinking. Recognizing that human-like thinking has propelled humankind to its current state, we explore the applica- bility of cognitive science principles in enhancing machine learning. Prior research has demonstrated promising results when applying learning rate methods inspired by cognitive science to Learning Vector Quantization (LVQ) models. In this study, we extend this approach to GLVQ models. Specifically, we examine five distinct cognitive science-inspired GLVQ variants: Conditional Probability (CP), Dual Factor Heuristic (DFH), Middle Symmetry (MS), Loose Symmetry (LS), and Loose Symme- try with Rarity (LSR). Our experiments involve a comprehensive analysis of the performance of these cogni- tive science-derived learning rate techniques across various datasets, aiming to identify optimal settings and variants of cognitive science GLVQ model training. Through this research, we seek to unlock new avenues for enhancing the learning process in machine learning models by drawing inspiration from the rich complexities of human cognition. Keywords: machine learning, GLVQ, cognitive science, cognitive bias, learning rate op- timization, optimizers, human-like learning, Conditional Probability (CP), Dual Factor Heuristic (DFH), Middle Symmetry (MS), Loose Symmetry (LS), Loose Symmetry with Rarity (LSR).
In den letzten Jahren tauchten im Internet Videos auf, die Politiker bei sonderbaren Reden und Prominente in pornographischen Filmen zeigten. Dieses Videophänomen bezeichnet die Öffentlichkeit als Deepfakes. Das kommt daher, dass sie in Fakt fake sind, produziert mit Hilfe von „deep learning“ – einer Form von maschinellem Lernen. Viele Leute befürchten das durch Missbrauch dieser Videos vor allem für Fake News ernstzunehmende Folgen haben könne. Für sie ist diese Technologie ein wahr gewordener Albtraum in einer Welt in der Fake Videos Chaos verbreiten. Diese Arbeit versucht sich mit mehreren aufkommenden Software Programmen, die die Verbindung von Sprachsynthese und Filmmanipulation ermöglichen zu beschäftigen. Der Verfasser dieser Arbeit wird positive Anwendungen für die Technologien in Betrachtung ziehen genauso wie die potenziellen negativen Konsequenzen.
Drought is one of the most common and dangerous threats plants have to face, costing the global agricultural sector billions of dollars every year and leading to the loss of tons of harvest. Until people drastically reduce their consumption of animal products or cellular agriculture comes of age, more and more crops will need to be produced to sustain the ever growing human population. Even then, as more areas on earth are becoming prone to drought due to climate change, we may still have to find or breed plant varieties more suitable to grow and prosper in these changing environments.
Plants respond to drought stress with a complex interplay of hormones, transcription factors, and many other functional or regulatory proteins and mapping out this web of agents is no trivial task. In the last two to three decades or so, machine learning has become immensely popular and is increasingly used to find patterns in situations that are too complex for the human mind to overlook. Even though much of the hype is focused on the latest developments in deep learning, relatively simple methods often yield superior results, especially when data is limited and expensive to gather.
This Master Thesis, conducted at the IPK in Gatersleben, develops an approach for shedding light on the phenotypic and transcriptomic processes that occur when a plant is subjected to stress. It centers around a random forest feature selection algorithm and although it is used here to illuminate drought stress response in Arabidopsis thaliana, it can be applied to all kinds of stresses in all kinds of plants.