Refine
Document Type
- Master's Thesis (173) (remove)
Keywords
- Maschinelles Lernen (26)
- Blockchain (11)
- Vektorquantisierung (8)
- Algorithmus (7)
- Computersicherheit (7)
- Deep learning (6)
- Kryptologie (5)
- Neuronales Netz (5)
- Bioinformatik (4)
- Graphentheorie (4)
Institute
- Angewandte Computer‐ und Biowissenschaften (173) (remove)
Drought is one of the most common and dangerous threats plants have to face, costing the global agricultural sector billions of dollars every year and leading to the loss of tons of harvest. Until people drastically reduce their consumption of animal products or cellular agriculture comes of age, more and more crops will need to be produced to sustain the ever growing human population. Even then, as more areas on earth are becoming prone to drought due to climate change, we may still have to find or breed plant varieties more suitable to grow and prosper in these changing environments.
Plants respond to drought stress with a complex interplay of hormones, transcription factors, and many other functional or regulatory proteins and mapping out this web of agents is no trivial task. In the last two to three decades or so, machine learning has become immensely popular and is increasingly used to find patterns in situations that are too complex for the human mind to overlook. Even though much of the hype is focused on the latest developments in deep learning, relatively simple methods often yield superior results, especially when data is limited and expensive to gather.
This Master Thesis, conducted at the IPK in Gatersleben, develops an approach for shedding light on the phenotypic and transcriptomic processes that occur when a plant is subjected to stress. It centers around a random forest feature selection algorithm and although it is used here to illuminate drought stress response in Arabidopsis thaliana, it can be applied to all kinds of stresses in all kinds of plants.
There are multiple ways to gain information about an individual and its health status, but an increasingly popular field in medicine has become the analysis of human breath, which carries a lot of information about metabolic processes within the individuals body. The information in exhaled breath consists of volatile (organic) compounds (VOCs). These VOCs are products of metabolic processes within the individuals body, thus might be an indicator for diseases disturbing those processes. The compounds are to be detected by mass-spectrometric (MS) or ion-mobility spectrometric (IMS) techniques, making the analysis of these compounds not only bounded to exhaled breath. The resulting data is spectral data, capturing concentrations of the VOCs indirectly through intensities. However, a number of about 3000 VOCs [1] could already be determined in human exhaled breath. The number of research paper about VOC-analysis and detection had risen nearly constantly over the last decade 1. Furthermore, the technique to identify VOCs could also be used to capture biomarker from alien species within the individuals body. Extracting VOCs from an individual can be done by non- or minimal invasive techniques. However, the manual identification of VOCs and biomarkers related to a certain disease or infection is not feasible due to the complexity of the sample and often unknown metabolic products, thus automized techniques are needed. [1–4] To establish breath analysis as a diagnosis tool, machine learning methodes could be used. Machine learning has become a popular and common technique when dealing with medical data, due to the rapid analysis. Taking this advantage, breath analysis using machine learning could become the model of choice for diagnosis, keeping in mind that conventional methodes are laboratory based and thus when trying detect bacterial infection need sometimes several days to identify the organism. [5]
Due to the intractability of the Discrete Logarithm Problem (DLP), it has been widely used in the field of cryptography and the security of several cryptosystems is based on the hardness of computation of DLP. In this paper, we start with the topics on Number Theory and Abstract Algebra as it will enable one to study the nature of discrete logarithms in a comprehensive way, and then, we concentrate on the application and computation of discrete logarithms. Application of discrete logarithms such as Diffie Hellman key exchange, ElGamal signature scheme, and several attacks over the DLP such as Baby-step Giant-step method, Silver Pohlig Hellman algorithm, etc have been analyzed. We also focus on the elliptic curve along with the discrete logarithm over the elliptic curve. Attacks for the elliptic curve discrete logarithm problem, ECDLP have been discussed. Moreover, the extension of several discrete logarithms-based protocols over the elliptic curve such as the elliptic curve digital signature algorithm, ECDSA have been discussed also.
Die vorliegende Masterarbeit befasst sich mit der Entwicklung einer Android-Applikation zur Alarmierung der Bevölkerung bei vermissten Kindern in Deutschland. Dabei richtet sich der Fokus zuerst auf das aus den USA stammende AMBER-Alert-System – ein System zur Suche vermisster Kinder – und im weiteren Verlauf auf den aktuellen Stand eines solchen Systems innerhalb Deutschlands. Bisher haben sich nur wenige Arbeiten mit der Umsetzung einer solchen App auseinandergesetzt. Aus diesem Grund liegt der Schwerpunkt dieser Arbeit auf der Implementierung einer prototypischen App zur Alarmierung der Bevölkerung bei vermissten Kindern in Deutschland. Diesbezüglich werden bereits existierende Applikationen betrachtet und daraus ein konzeptioneller Entwurf entwickelt. Dieser Entwurf dient als Grundlage für die prototypische Implementierung der App.
Die vorliegende Arbeit stellt eine effektive Möglichkeit dar, um einen Großteil der Bevölkerung in Deutschland zur schnellen Suche und sicheren Bergung bei vermissten Kindern zu erreichen.
Aufgrund einer immer älter werdenden Bevölkerung ist das Thema des gesunden
Alterns ein wichtiges Forschungsfeld. Dabei haben vor allem molekulare Prozesse eine bedeutende Rolle, weshalb auch die DNA ein bedeutendes Untersuchungsobjekt darstellt. Neben Mutationen auf Sequenzebene gibt es auch Veränderungen der DNA auf einer übergeordneten Ebene, welche die Sequenzabfolge selbst nicht verändern. Ein solcher Prozess ist die DNA-Methylierung, welche in allen höher entwickelten Eukaryonten von großer Bedeutung ist. Ein Modellorganismus, der in der Alternsforschung
immer mehr Beachtung fndet, ist der manuelle Fisch N. furzeri. Da zur
DNA-Methylierung im Organismus N. furzeri noch nichts bekannt ist, erfolgte im Rahmen dieser Masterarbeit eine Untersuchung der globalen DNA-Methylierung im Alterungsprozess des N. furzeri.
Analyse dezentraler Identifikation mittels Sidetree-Protokolls, am Beispiel von Microsoft ION
(2021)
This master thesis deals with the field of decentralized identification, using the example of the Microsoft Identity Overlay Network (ION). In the introduction, basic terms such as identity and identification are described. A special emphasis is placed on the explaining of the principle of decentralized identifiers (DIDs) and the SSI concept. ION is an implementation of the Sidetree protocol and uses its core components. This is the reason why more details and special parts of Sidetree are described in the methods chapter. Afterwards the ION history and network topology is typify more in detail. An ION node will be installed and operated on top of the Bitcoin blockchain. The installation process and the problems that arise are recorded. Then the ION tools (a programming library and its values) will be explained and the example program code is shown. As a practical addition of the ION tools, a verifiable credential solution is scripted. This solution shows the creation of ION-DID and the signature options of these identifiers. In the results chapter the knowledge acquired via the decentralized identification is evaluated. A theoretical security analysis for ION is implemented. Furthermore, a list of the currently possible uses for the network is enumerated. A discussion is initiated that compares the advantages and disadvantages of ION. The thesis ends with a conclusion and an outlook for ION and decentralized identification.
Die vorliegende Arbeit beschäftigt sich mit der Analyse, Konzeption, Implementation und Evaluation eines dezentralen Feedback-Systems für die Blockchain Academy Mittweida. Es wurde nach einer Lösung gesucht, das Feedback für die angebotenen Kurse auf der Seite der Blockchain Academy Mittweida erfassen zu können. Dabei sollte die Anonymität des Nutzers stets gewahrt bleiben, jedoch für den Betreiber die Möglichkeit gegeben sein, unberechtigtes oder doppeltes Feedback erkennen und aussortieren zu können. Diese Anforderungen konnten durch die Linkable-Ring-Signature gewährleistet werden. Bei diesem Verfahren kann der Nutzer stellvertretend für seine Gruppe eine Nachricht signieren. Der Betreiber kann überprüfen, ob eine signierte Nachricht aus dieser Gruppe stammt und ob es bereits eine Nachricht von einem Nutzer eingegangen ist, ohne die Anonymität des Nutzers aufzuheben. Das System wurde möglichst dezentral gestaltet, um keine zentrale Angriffsstelle bieten zu können und sicherheitsrelevante Teile abkapseln zu können. Es wurde ein Smart Contract angelegt, welcher die zum Signieren benötigten öffentlichen Schlüssel der Gruppenmitglieder eines Kurses bereithält. Die zweite Komponente stellt eine Browsererweiterung dar. Mit dieser kann der Nutzer sich in die Feedbackgruppe zu einem Kurs eintragen und seine Schlüsselpaare für die Signatur Generierung speichern lassen. Die dritte Komponente ist ein Plugin auf dem WordPress-System der Blockchain Academy Mittweida, mit welchem das Feedback auf Verknüpfbarkeit geprüft werden kann. Mittels eines funktionalen Testverfahrens und einer Probandengruppe wurde die erarbeitete Lösung untersucht. In beiden Fällen bestand die Lösung die an diese gestellten Anforderungen und wurde positiv von der Probandengruppe aufgenommen. Es wurde sich mehrheitlich für die vorgestellte Lösung und gegen eine Lösung mit einem Kennwort, welches der Nutzer eingeben muss, bevor er eine Umfrage ausfüllen kann, entschieden. Im Wintersemester 2022/2023 an der Hochschule Mittweida könnte die Anwendung zusammen mit dem Masterstudiengang Blockchain & Distributed Ledger Technologies (DLT) in einem größeren Praxistest eingesetzt und weiter erprobt und verbessert werden.
Cancer is one of the main causes of death in developed countries, and cancer treatment heavily depends on successful early detection and diagnosis. Tumor biomarkers are helpful for early diagnose. The goal of this discovery method is to identify genetic variations as well as changes in gene expression or activity that can be linked to a typical cancer state.
First, several cancer gene signaling pathways were introduced and then combined. 27 candidate genes were selected, through the analysis of several data sets in the GEO database, a few expression difference matrices were established. Those candidate genes were tested in the matrices and found five genes PLA1A, MMP14, CCND1, BIRC5 and MYC that have the potential to be tumor biomarkers. Two of these genes have been further discussed, PLA1A is a potential biomarker for prostate cancer, and MMP14 can be considered as a biomarker for NSC lung cancer.
Finally, the significance of this study and the potential value of the two genes are discussed, and the future research in this direction is a prospect.
Machine learning models for timeseries have always been a special topic of interest due to their unique data structure. Recently, the introduction of attention improved the capabilities of recurrent neural networks and transformers with respect to their learning tasks such as machine translation. However, these models are usually subsymbolic architectures, making their inner working hard to interpret without comprehensive tools. In contrast, interpretable models such learning vector quantization are more transparent in the ability to interpret their decision process. This thesis tries to merge attention as a machine learning function with learning vector quantization to better handle timeseries data. A design on such a model is proposed and tested with a dataset used in connection with the attention based transformers. Although the proposed model did not yield the expected results, this work outlines improvements for further research on this approach.
Analysis of Continuous Learning Strategies at the Example of Replay-Based Text Classification
(2023)
Continuous learning is a research field that has significantly boosted in recent years due to highly complex machine and deep learning models. Whereas static models need to be retrained entirely from scratch when new data get available, continuous models progressively adapt to new data saving computational resources. In this context, this work analyzes parameters impacting replay-based continuous learning approaches at the example of a data-incremental text classification task using an MLP and LSTM. Generally, it was found that replay improves the results compared to naive approaches but achieves not the performance of a static model. Mainly, the performances increased with more replayed examples, and the number of training iterations has a significant influence as it can partly control the stability-plasticity-trade-off. In contrast, the impact of balancing the buffer and the strategy to select examples to store in the replay buffer were found to have a minor impact on the results in the present case.
Stability of control systems is one of the central subjects in control theory. The classical asymptotic stability theorem states that the norm of the residual between the state trajectory and the equilibrium is zero in limit. Unfortunately, it does not in general allow computing a concrete rate of convergence particularly due to algorithmic uncertainty which is related to numerical imperfections of floating-point arithmetic. This work proposes to revisit the asymptotic stability theory with the aim of computation of convergence rates using constructive analysis which is a mathematical tool that realizes equivalence between certain theorems and computation algorithms. Consequently, it also offers a framework which allows controlling numerical imperfections in a coherent and formal way. The overall goal of the current study also matches with the trend of introducing formal verification tools into the control theory. Besides existing approaches, constructive analysis, suggested within this work, can also be considered for formal verification of control systems. A computational example is provided that demonstrates extraction of a convergence certificate for example dynamical systems.
Analysis of the Forensic Preparation of Biometric Facial Features for Digital User Authentication
(2023)
Biometrics has become a popular method of securing access to data as it eliminates the need for users to remember a password. Although exploiting the vulnerabilities of biometric systems increased with their usage, these could also be helpful during criminal casework.
This thesis aims to evaluate approaches to bypass electronic devices with forged faces to access data for law enforcement. Here, obtaining the necessary data in a timely manner is critical. However, unlocking the devices with a password can take several years with a brute force attack. Consequently, biometrics could be a quicker alternative for unlocking.
Various approaches were examined to bypass current face recognition technologies. The first approaches included printing the user's face on regular paper and aimed to unlock devices performing face recognition in the visible spectrum. Further approaches consisted of printing the user's infrared image and creating three-dimensional masks to bypass devices performing face recognition in the near-infrared. Additionally, the underlying software responsible for face recognition was reverse-engineered to get information about its operation mode.
The experiments demonstrate that forged faces can partly bypass face recognition and obtain secured data. Devices performing face recognition in the visible spectrum can be unlocked with a printed image of the user's face. Regarding devices with advanced near-infrared face recognition, only one could be bypassed with a three-dimensional face mask. In addition, its underlying software provided evidence about the demands of face recognition. Other devices under attack remained locked, and their software provided no clues.
In this thesis, we focus on using machine learning to automate manual or rule-based processes for the deduplication task of the data integration process in an enterprise customer experience program. We study the underlying theoretical foundations of the most widely used machine learning algorithms, including logistic regression, random forests, extreme gradient boosting trees, support vector machines, and generalized matrix learning vector quantization. We then apply those algorithms to a real, private data set and use standard evaluation metrics for classification, such as confusion matrix, precision, and recall, area under the precision-recall curve, and area under the Receiver Operating Characteristic curve to compare their performances and results.
Ziel dieser Arbeit ist das Evaluieren der Klassifikationsfähigkeit eines MVCNN-Verfahrens am Teilproblem der Klassifikation von prozedural generierten, idealisierten Darstellungen von OCT-Scans. Zu diesem Zweck wird ein Tool für das Erstellen ¨solcher Szenen entwickelt sowie ein Algorithmus zur Volumenberechnung von sich überschneidenden Meshes, welcher für das automatische Labeling dieser Szenen verwendet wird.
Many companies use machine learning techniques to support decision-making and automate business processes by learning from the data that they have. In this thesis we investigate the theory behind the most widely used in practice machine learning algorithms for solving classification and regression problems.
In particular, the following algorithms were chosen for the classification problem: Logistic Regression, Decision Trees, Random Forest, Support Vector Machine (SVM), Learning Vector Quantization (LVQ). As for the regression problem, Decision Trees, Random Forest and Gradient Boosted Tree were used. We then apply those algorithms to real company data and compare their performances and results.
Assessment of COI and 16S for insect species identification ti determine the diet of city bats
(2023)
Despite the numerous benefits of urbanization to human living conditions, urbanization has also negatively affected humans, their environment, and other organisms that share urban habitats with humans. Undoubtedly adverse while some wild animals avoid living in urban areas, others are more tolerant or prefer life in urban habitats. There are more than 1,400 species of bats in the world.
Therefore, they have the potential to contribute significantly to the mammalian biodiversity in urban areas. Insectivorous bats species play a key role in agriculture by improving yields and reducing chemical pesticide costs. Using metabarcoding, it is possible to determine the prey consumed by these noctule mammals based on the DNA fragments in their fecal pellets. This study
aimed to evaluate COI and 16S metabarcodes for insect species identification to determine the diet of metropolitan bats. For this purpose, COI and 16S metabarcodes were extracted, amplified, and sequenced from 65 bat feces collected in the Berlin metropolitan areas. Following a taxonomic annotation, I found that 73% of all identified insects could only be detected using the COI method, while 15% could be recovered using the 16S approach. Just 12% of all detected insects were identified simultaneously by both markers. According to this result, COI is more suitable for the taxonomic identification of insects from bat feces. However, given the bias of COI primers, it is recommended to use both markers for a more precise estimation of species diversity. Additionally,based on the insect species identified, I noticed that urban bats fed mainly on Diptera, Coleoptera,and Lepidoptera. The bat species Nyctalus noctula was most abundant in the samples. His diet analysis revealed that 91% of the samples contained the insect species Chironomus plumosus. 14 pest insect species were also found in his diet.
Durch verschiedene Industriezweige gelangen viele Chemiaklien in die Umwelt und lagern sich dort an. Dabei haben viele dieser Chemikalien für die Umwelt und den Menschen schädliche Nebenwirkungen. Diese sind einerseits von der Exposition der Substanzen und andernseits von Effekten auf den biologischen Kreislauf abhängig.
Um die genauen Auswirkungen dieser Verbindungen beurteilen zu können, ist es jedoch wichtig beide Bereiche zu betrachten. Im Rahmen dieser Arbeit wurde deswegen ein Ansatz entwickelt,mit dem die Daten der Exposition und die Daten der Auswirkungen mit einander verknüpft werden können. Dazu wurden zuerst Chemikalien für die Expositionsdaten und Chemikalien für die Wirkungsdaten bereitstehen aus öffentlich zugänglichen Datenbanken gesammelt. Mit Hilfe der Wirkungsdaten wurden anschließend Neuronale Netze trainiert. Es konnte gezeigt werden, dass mittels dieser Modelle die Auswirkungen auf Umwelt und Mensch für die Expositionschemikalien vorhergesagt werden kann.
Zudem wurden in mehreren Chemical Similarity Maps gezeigt, dass sich verschiedene Chemikaliencluster bilden, welche ähnliche chemische Eigenschaften besitzen. Dadurch könnte es möglich sein anhand der chemischen Ähnlichkeite bestimmte Wirkungsdaten für chemische Stoffe vorherzusagen.
Soziale Medien ermöglichen den öffentlichen Austausch von Nachrichten im digitalen Raum. Viele Personen missbrauchen diese Plattformen jedoch für die Verbreitung von Hass. Die Bestimmung und die Prävention derartiger Kommentare stellt eine große Herausforderung dar. In dieser Arbeit werden Möglichkeiten zur Bestimmung und Prognose von Toxizität als Kennzahl
für die sentimentale Ausdrucksform des Hasses aufgezeigt. Nach der begründeten Auswahl der Perspective API als Werkzeug zur Bestimmung von Toxizität werden mit diesem Werkzeug über 600.000 deutschsprachigen Twitter-Kommentare aus dem Frühjahr 2021 annotiert. Die Annotation bildet die Grundlage für die Untersuchung der Ausbreitung toxischer deutscher Sprache.
Mit Methoden der intelligenten Datenanalyse werden im Datensatz Einflussfaktoren ermittelt, die das Absetzen eines toxischen Kommentars begünstigen. Die gefundenen Einflussfaktoren werden final dazu verwendet, um die Toxizität von Antworten, ohne ein Wissen über deren Inhalt,
mit Hilfe künstlicher Intelligenz zu prognostizieren.
Ziel dieser Arbeit ist die Entwicklung eines Modells, das über einen mehrstufigen Angriffsprozess das Passwort eines spezifischen Benutzers unabhängig von der Stärke des Passworts rekonstruiert. Der Fokus des Modells liegt auf dem benutzerspezifischen Angriff und dessen Präprozessor. Dieser soll unter Berücksichtigung der bisherigen Design- und Konstruktionsprinzipien des Benutzers sowie unter Einbeziehung seiner persönlichen Informationen die wahrscheinlichsten Passwort-Kandidaten generieren.
Das Ziel dieser Masterarbeit ist die Evaluierung des Realtime Multi-Person 2D Pose Estimation Frameworks OpenPose. Dazu wird die Forschungsfrage gestellt, bis zu welcher Pixelgröße ein Mensch allgemein von dem System mit einer Sicherheit von über 50% richtig detektiert und dargestellt wird. Um die Forschungsfrage zu beantworten ist eine Studie mit sieben Probanden durchgeführt wurden. Aus der Datenerhebung geht hervor, dass der gesuchte Confidence Value zwischen 110px und 150px Körpergröße in von Menschen digitalen Bildern erreicht wird.
As the cryptocurrency ecosystem rapidly grows, interoperability has become increasingly crucial, enabling assets and data to interact seamlessly across multiple chains. This work describes the concept and implementation of a trustless connection between the Bitcoin Lightning Network and EVM-compatible blockchains, allowing the transfer of assets between the two ecosystems. Establishing such a connection can significantly contribute to the growth of both ecosystems as they can benefit from each other’s advantages and emerge new pos- sibilities.
Die hier vorliegende Arbeit beschäftigt sich mit den methodischen Abläufen des Kriminalitätsphänomens Caller ID Spoofing, dessen technische Hintergründe, sowie der Detektion und den sich daraus ergebenden Maßnahmen der Abwehr seitens der Betroffenen. Dabei soll im theoretischen Teil sowohl auf das Phänomen des Caller ID Spoofing an sich und dessen Einordnung in den Deliktbereich Cybercrime als auch auf die technischen Hintergründe bei der Verschleierung der eigenen Telefon-Identität eingegangen werden. Des Weiteren wird der Faktor Mensch als Schwachstelle von IT-Systemen beleuchtet. Der methodische Teil der Arbeit legt den Fokus auf die Entwicklung effektiver Lösungen zur Erkennung und Abwehr von Caller ID Spoofing, sowohl aus technischer als auch aus soziologischer Sicht. Während für ersteres bereits eine Vielzahl von wissenschaftlichen Ansätzen existieren, soll sich bei zweiteren auf den Begriff der Security Awareness konzentriert werden.
In response to prevailing environmental conditions, Arabidopsis thaliana plants must increase their photosynthetic capacity to acclimate to potential harmful environmental high light stress. In order to measure these changes in acclimation capacity, different high throughput imaging-based methods can be used. In this master thesis we studied different Arabidopsis thaliana knockout mutants-and accessions in their capacity to acclimate to potential harmful environmental high light and cold temperature conditions using a high throughput phenotyping system with an integrated chlorophyll fluorescence measurement system. In order to determine the acclimation capacity, Arabidopsis thaliana knockout mutants of previously not high light assigned genes as well as accessions of two different haplotype groups with a reference and alternative allele from different countries of origin were grown under switching high light and temperature environmental conditions. Photosynthetic analysis showed that knockout mutant plants did differ in their Photosystem II operating efficiency during an increased light irradiance switch but did not significantly differ a week later under the same circumstances from the wildtype. High throughput phenotyping of haplotype accessions revealed significant better acclimation capacity in non-photochemical quenching and steady-state photosynthetic efficiency in Russian domiciled accessions with an altered SPPA gene during high light and cold stress.
We investigate the folding and thermodynamic stability of a tertiary contact of baker's yeast ribosomal ribonucleic acid (rRNA), which is supposed to be essential for the maturation process of ribosomes in eukaryotes at lower temperatures1. Ribosomes are cellular machines essential for all living organisms. RNA is at the center of these machines and responsible for translation of genetic information into proteins2,3. Only recently, the rRNA tertiary contact of interest was discovered in Zurich by the research group of Vikram Govind Panse. Gerhardy et al.1 showed in vitro that within the 60s-preribosome under defined metal ion concentrations the tertiary contact become visible between a GAAA-tetraloop and a kissing loop motif. Our aim is now to understand this RNA structure, especially the formation of the rRNA tertiary contact, in terms of thermodynamics and kinetics at various experimental conditions, such as temperature and metal ion concentration of K(I), Na(I) and Mg(II). Therein, we use optical spectroscopy like UV/VIS spectroscopy and ensemble Förster or Fluorescence Resonance Energy Transfer (FRET) folding studies. Our findings will help to further characterize this newly discovered ribosomal RNA contact and to elucidate its function within the ribosomal maturation process.
Die Strafverfolgungsbehörden verwenden zunehmend Mobilfunkdaten, um Tathergänge zu rekonstruieren und daraufhin Tatverdächtige überführen zu können. Die Mobilfunkdaten erhalten die Strafvervolgungsbehörden auf Anfrage und richterlichen Beschluss von den Telekommunikationsanbietern. Die Anfragen sind sowohl zeitlich als auch regional stark eingegrenzt. Trotzdem ist das Datenvolumen erheblich. Auf Grund des Datenvolumens und der Heterogenität der Datenformate zwischen den Mobilfunkanbietern, gestaltet sich die Auswertung der Daten sehr aufwändig. Diese Masterarbeit adressiert die genannten Aspekte mit einer auf die Mobilfunkdaten abgestimmten Datenintegrations- und -analyse-Pipeline. Die Pipeline überführt die Mobilfunkdaten in ein harmonisiertes Datenformat und reichert sie mit einer Annotation zur Bodennutzungsklassifizierung an. Letztere sind für die Datenanalyse relevant. Grundlegend greift die Pipeline auf eine Graphdatenbank zurück, in die die Daten eingefügt werden. Anhand der Anfragesprache Cypher können relevante Daten für diverse Auswertungsfragen selektiert und zur Verfügung gestellt werden. Diese Grundlage ermöglicht eine iterative Vorgehensweise bei der Datenauswertung, so dass aus Ergebnissen einer vorangegangenen Frage, neuen Auswertungszielen schnellstmöglichst begegnet werden kann. Die in der Arbeit gezeigten Auswertungen stehen beispielhaft für das große Spektrum an Auswertungsmöglichkeiten. Insbesondere wurden Personenkreise mit speziellen Bewegungsprofilen anhand der den Funkmasten zugeordneten Landnutzungsklassen ermittelt. Die in der Arbeit verwendeten Daten wurden mit diesem Ansatz um 99% reduziert. Damit können Analyst:innen sich auf die relevanten Aussagen konzentrieren. Zudem konnte eine Korrelation zwischen Mobilität und dem Nutzungsverhalten hergestellt werden. Jedoch zeigt sich auch, dass die hohe Variabilität und Individualität der Personen in einem zeitlich und regional eng begrenzten Datenraum, der Ermittlung von allgemeinen Bewegungsprofilen entgegensteht.
In today’s market, the process of dealing with textual data for internal and external processes has become increasingly important and more complex for certain companies. In this context,the thesis aims to support the process of analysis of similarities among textual documents by analyzing relationships among them. The proposed analysis process includes discovering similarities among these financial documents as well as possible patterns. The proposal is based on the exploitation and extension of already existing approaches as well as on their combination with well-known clustering analysis techniques. Moreover, a software tool has been implemented for the evaluation of the proposed approach, and experimented on the EDGAR filings, on the basis of qualitative criteria.
It is possible to obtain a common updating rule for k-means and Neural Gas algorithms by using a generalized Expectation Maximization method. This result is used to derive two variants of these methods. The use of a similarity measure, specifically the gaussian function, provides another clustering alternative to the before mentioned methods. The main benefit of using the gaussian function is that it inherently looks for a common cluster center for similar data points (depending on the value of the parameter s ). In different experiments we report similar behaviour of batch and proposed variants. Also we show some useful results for the “alternative” similarity method, specifically when there is no clue about the number of clusters in the data sets.
In this paper, we conduct experiments to optimize the learning rates for the Generalized Learning Vector Quantization (GLVQ) model. Our approach leverages insights from cog- nitive science rooted in the profound intricacies of human thinking. Recognizing that human-like thinking has propelled humankind to its current state, we explore the applica- bility of cognitive science principles in enhancing machine learning. Prior research has demonstrated promising results when applying learning rate methods inspired by cognitive science to Learning Vector Quantization (LVQ) models. In this study, we extend this approach to GLVQ models. Specifically, we examine five distinct cognitive science-inspired GLVQ variants: Conditional Probability (CP), Dual Factor Heuristic (DFH), Middle Symmetry (MS), Loose Symmetry (LS), and Loose Symme- try with Rarity (LSR). Our experiments involve a comprehensive analysis of the performance of these cogni- tive science-derived learning rate techniques across various datasets, aiming to identify optimal settings and variants of cognitive science GLVQ model training. Through this research, we seek to unlock new avenues for enhancing the learning process in machine learning models by drawing inspiration from the rich complexities of human cognition. Keywords: machine learning, GLVQ, cognitive science, cognitive bias, learning rate op- timization, optimizers, human-like learning, Conditional Probability (CP), Dual Factor Heuristic (DFH), Middle Symmetry (MS), Loose Symmetry (LS), Loose Symmetry with Rarity (LSR).
Convolutional Neural network (CNN) has been one of most powerful and popular preprocessing techniques employed for image classification problems. Here, we use other signal processing techniques like Fourier transform and wavelet transform to preprocess the images in conjunction with different classifiers like MLP, LVQ, GLVQ and GMLVQ and compare its performance with CNN.
Adversarial robustness of a nearest prototype classifier assures safe deployment in sensitive use fields. Much research has been conducted on artificial neural networks regarding their robustness against adversarial attacks, whereas nearest prototype classifiers have not chalked similar successes. This thesis presents the learning dynamics and numerical stability regarding the Crammer-normalization and the Hein-normalization for adversarial robustness of nearest prototype classifiers. Results of conducted experiments are penned down and analyzed to ascertain the bounds given by Saralajew et al. and Hein et al. for adversarial robustness of nearest prototype classifiers.
Differentiation is ubiquitous in the field of mathematics and especially in the field of Machine learning for calculations in gradient-based models. Calculating gradients might be complex and require handling multiple variables. Supervised Learning Vector Quantization models, which are used for classification tasks, also use the Stochastic Gradient Descent method for optimizing their cost functions. There are various methods to calculate these gradients or derivatives, namely Manual Differentiation, Numeric Differentiation, Symbolic Differentiation, and Automatic Differentiation. In this thesis, we evaluate each of the methods mentioned earlier for calculating derivatives and also compare the use of these methods for the variants of Generalized Learning Vector Quantization algorithms.
In the past few years Generative models have become an interesting topic in the field of Machine Learning (ML). Variational Autoencoder (VAE) is one of the popular frameworks of generative models based on the work of D.P Kingma and M. Welling [6] [7]. As an alternative to VAE the authors in [12] proposed and implemented Information Theoretic Learning (ITL) based Autoencoder. VAE and ITL Autoencoder are a combination of the neural networks and probabilistic graphical models (PGM) [7]. In modern statistics it is difficult to compute the approximation ofthe probability densities. In this paper we make use of Variational Inference (VI) technique from machine learning that approximate the distributions through optimization. The closeness between the distributions are measured by the information theoretic divergence measures such as Kullbach-Liebler, Euclidean and Cauchy Schwarz divergences. In this thesis, we study theoretical and experimental results of two different frameworks of generative models which generate images of MNIST handwritten characters [8] and Yale face database B [3]. The results obtained show that the proposed VAE and ITL Autoencoder are capable of generating the underlying structure of the example datasets
Die vorliegende Arbeit befasst sich mit dem Datenschutz allgemein und der DSGVO im Konkreten als Herausforderung für Unternehmen.
Die Einhaltung rechtlicher Vorschriften, vertraglicher Bestimmungen, externer sowie interner Regelwerke, im Begriff Compliance zusammengefasst, ist ein wichtiges Unternehmensziel. Die DSGVO, die am 25.05.2018 in
Kraft trat, bringt für Betriebe einige zu beachtende Änderungen mit sich, so beispielsweise die Rechenschaftspflicht des Verantwortlichen und die verschärften Sanktionen bei Verstößen.
Zusätzlich muss durch sie als Verordnung, aufgrund ihrer Vorrangstellung gegenüber nationalen Gesetzen, auch die Anwendbarkeit einiger bestehender Regelungen in Frage gestellt werden.
In machine learning, Learning Vector Quantization (LVQ) is well known as supervised vector quantization. LVQ has been studied to generate optimal reference vectors because of its simple and fast learning algorithm [2]. In many tasks of classification, different variants are considered while training a model and a consideration of variants of large margin in LVQ helps to get significant
results [20]. Large margin LVQ (LMLVQ) is to maximize the distance between decision hyperplane and data points. In this thesis, a comparison of different variants of Generalized Learning Vector Quantization (GLVQ) and Large margin in LVQ is proposed along with visualization, implementation and experimental results.
Diese Arbeit untersucht die Integration einer dezentralen autonomen Organisation (DAO) in eine bestehende Lernplattform. Dabei werden mögliche Schnittpunkte zwischen den beiden Konzepten gesucht und deren Potenziale und Herausforderungen analysiert. Zunächst werden die theoretischen Grundlagen von Blockchain-Technologie, DAO und Lernplattformen vorgestellt. Darauf basierend werden die Prozesse auf einer Lernplattform auf eine mögliche Integration einer DAO untersucht. Besonderer Fokus liegt dabei auf den Prozessen Bezahlung und Bewertung. Es stellt sich heraus, dass der Reviewprozess zum einen mehr Überschneidungspunkte hat und zum anderen viele weitere Prozesse auf diesen aufbauen. Im Hauptteil der Arbeit wird daher ein Konzept für die Integration einer DAO im Bewertungsprozess entwickelt und erste Grundlagen für eine Umsetzung gelegt. Dabei werden verschiedene Ansätze, die sich auch aus den Fallstudien ergeben, betrachtet und verglichen, um den Anforderungen der Lernplattform und der Blockchain gerecht zu werden. Die Arbeit zeigt die Potenziale einer DAO in einer Lernplattform auf, wie bspw. transparenten Reviewprozess für neue Inhalte. Gleichzeitig werden mögliche Herausforderungen bei der Integration identifiziert und geeignete Lösungsansätze entwickelt. Ein Ausblick auf zukünftige Entwicklungen beinhaltet den Einsatz von Künstlicher Intelligenz bei der Entwicklung von Lerninhalten und die weitere Integration der DAO in die Lernplattform.
A relatively new research field of neurosciences, called Connectomics, aims to achieve a full understanding and mapping of neural circuits and fine neuronal structures of the nervous system in a variety of organisms. This detailed information will provide insight in how our brain is influenced by different genetic and psychiatric diseases, how memory traces are stored and ageing influences our brain structure. It is beyond question that new methods for data acquisition will produce large amounts of neuronal image data. This data will exceed the zetabyte range and is impossible to annotate manually for visualization and analysis. Nowadays, machine learning algorithms and specially deep convolutional neuronal networks are heavily used in medical imaging and computer vision, which brings the opportunity of designing fully automated pipelines for image analysis. This work presents a new automated workflow based on three major parts including image processing using consecutive deep convolutional networks, a pixel-grouping step called connected components and 3D visualization via neuroglancer to achieve a dense three dimensional reconstruction of neurons from EM image data.
In this master thesis, we define a new bivariate polynomial which we call the defensive alliance polynomial and denote it by da(G; x; y). It is a generalization of the alliance polynomial and the strong alliance polynomial. We show the relation between da(G; x; y) and the alliance, the strong alliance, the induced connected subgraph polynomials as well as the cut vertex sets polynomial. We investigate information encoded about G in da(G; x; y). We discuss the defensive alliance polynomial for the path graphs, the cycle graphs, the star graphs, the double star graphs, the complete graphs, the complete bipartite graphs, the regular graphs, the wheel graphs, the open wheel graphs, the friendship graphs, the triangular book graphs and the quadrilateral book graphs. Also, we prove that the above classes of graphs are characterized by its defensive alliance polynomial. We present the defensive alliance polynomial of the graph formed of attaching a vertex to a complete graph. We show two pairs of graphs which are not characterized by the alliance polynomial but characterized by the defensive alliance polynomial.
Also, we present three notes on results in the literature. The first one is improving a bound and the other two are counterexamples.
Traditional user management on the Internet has historically required individuals to give up control over their identities. In contrast, decentralized solutions promise to empower users and foster decentralized interactions. Over the last few years, the development of decentralized accounts and tokens has significantly increased, aiming at broader user adoption and shared social economies.
This thesis delves into smart contract standards and social infrastructure for Ethereum-based blockchains to enable identity-based data exchange between abstracted blockchain accounts. In this regard, the standardization landscapes of account and social token developments were analyzed in-depth to form guidelines that allow users to retain complete control over their data and grant access selectively.
Based on the evaluations, a pioneering Solidity standard is presented, natively integrating consensual restrictive on-chain assets for abstracted blockchain accounts. Further, the architecture of a decentralized messaging service has been defined to outline how new token and account concepts can be intertwined with efficient and minimal data-sharing principles to ensure security and privacy, while merging traditional server environments with global ledgers.
Classification label security determines the extent to which predicted labels from classification results can be trusted. The uncertainty surrounding classification labels is resolved by the security to which the classification is made. Therefore, classification label security is very significant for decision-making whenever we are encountered with a classification task. This thesis investigates the determination of the classification label security by utilizing fuzzy probabilistic assignments of Fuzzy c-means. The investigation is accompanied by implementation, experimentation, visualization and documentation of the results.
In this work, a protocol for portable nanopore sequencing of DNA from pollen collected from honey bees, bumble bees, and wild bees was developed. DNA metabarcoding is applied to identify genera within the mixed DNA samples. The DNA extraction and ITS and ITS2 PCR parameters tested for this purpose were applied to the collected pollen sample and the amplicons were then decoded using the Flongle sequencer adapter from Oxford Nanopore Technologies. It is shown that the main pollinator resources at the different sites can be identified in percentage proportions. The protocol generated in this study can be used for further ecological questions.
The endogen steroid hormone 17b-estradiol is a central player in a wide range of physiologic, behavioral processes and diseases in vertebrates. As a consequence, it is a main target for molecular design and drug discovery efforts in medicine and environmental sciences, which requires in-depth knowledge of protein-ligand binding processes. This work develops a bioinformatic framework based on local and global structure similarity for the characterization of E2-protein interactions in all 35 publicly available three-dimensional structures of estradiol-protein complexes. Subsequently, it uses gained data to identify four geometrically conserved estradiol binding residue motifs, against which the Protein Data Bank is queried. As result of this database query, 15 hits present in seven protein structures are found. Five of these structures do not contain E2 as ligand and had thus not been included in this work’s initial data set. One of these newly detected structures is structurally and functionally dissimilar, as well as evolutionarily distant from all other proteins analyzed in this work. Nevertheless, the ability of this protein to actually bind estradiol must be further analyzed. Finally, geometrically conserved E2-protein interactions are identified and a new research direction using these conserved interaction ensembles for the detection of novel estradiol targets is proposed.
Data streams change their statistical behaviour over the time. These changes can occur gradually or abruptly with unforeseen reasons, which may effect the expected outcome. Thus it is important to detect concept drift as soon as it occurs. In this thesis we chose distance based methodology to detect presence of concept drift in the data streams. We used generalized learning vector quantization(GLVQ) and generalized matrix learning vector quantization( GMLVQ) classifiers for distance calculation between prototypes and data points. Chi-square and Kolmogorov–Smirnov tests are used to compare the distance distributions of test and train data sets to indicate the drift presence.
Large bone defects are a major clinical problem affecting elderly disproportionally, particularly indeveloped countries where this population is the fastest growing. Current treatments include autologous and allogenous bone grafts, bone elongation with the Ilizarov technique, bone graft substitutes, and electrical stimulation. Each of these approaches enjoys varying degrees of success, however, each also has its associated problems and complications. A new, still experimental, treatment is Tissue Engineering that combines scaffolds, osteogenic stem cells and growth factors, and is showing encouraging early results in preclinical and initial clinical studies.
Electrical stimulation has been shown to enhance bone healing by promoting mesenchymal stem cell migration, proliferation, and differentiation. In the present study we combine Tissue Engineering with Electrical Stimulation and hypothesize that this combined approach will have a synergistic effect resulting in enhanced new bone formation. In our in vitro experiments we observed that the levels of electrical stimulation we tested had no cytotoxic effect, instead increased osteogenic differentiation, as determined by enhanced expression of the osteogenic marker, Alkaline Phosphatase. These findings support our hypothesis by demonstrating that in the tissue-engineering environment electrical stimulation promotes bone formation. The bioinformatics part of this project consisted of gene network analysis, identification of the top 10 osteogenic markers and analyzis of genegene interactions. We observed that in studies of stem cells from both human and rat the genes, BMPR1A, BMP5, TGFßR1, SMAD4, SMAD2, BMP4, BMP7, RUNX3, and CDKN1A, are associated with osteogenesis and interact with each other. We observed a total of 31 interactions for human and 29 interactions for rat stem cells. While this approach needs to be proven experimentally, we believed that these in vitro and in silico analyses could compliment each other and in doing so contribute to the field of bone healing research.
Durch die zunehmende Nutzung mobiler Endgeräte fallen im alltäglichen Leben zahlreiche personenbezogene Daten an. Zu diesen Daten gehören unter anderem auch GPS-Positionen, die von handelsüblichen Smartphones erhoben werden. Besonders Android-Geräte sammeln eine große Menge an Positionsdaten, die für verschiedene Wissenschafts-Domänen, wie beispielsweise Medizin oder Forensik, eine Rolle spielen. Für verschiedene Anwendungsfälle kann eine Aggregation der einzelnen GPS-Positionen zu Orten und verbindenden Strecken relevant sein.
Ziel der Arbeit ist die Entwicklung eines Algorithmus zur Aggregation von GPS-Standorten zu Orten, deren Besuchen und Verbindungen. Nach Implementierung des Algorithmus wurde dieser in eine Java-Applikation eingebettet, die unter anderem der Visualisierung der erzielten Ergebnisse dient. Für die Evaluation des Algorithmus wurden über einen Zeitraum von zwei Monaten Standortdaten mit Hilfe eines Android-Smartphones erhoben, welche unter Verwendung des implementierten Algorithmus ausgewertet wurden. Die Evaluation resultierte in einem Parameterset, welches sich für die Auswertung des vorliegenden Testdatensatzes als geeignet herausstellte. Das Ergebnis der Arbeit ist ein funktionstüchtiger Algorithmus, der vielfältige Anwendungsmöglichkeiten aufweist und dessen Erweiterung ein hohes Potenzial für Folgeprojekte bietet.
Aufgrund der Vielzahl an angebotenen Dienste die auf unterschiedliche Systemen betrieben und miteinander verbunden sind, sowie sensible Informationen enthalten, ist die IT-Sicherheit enorm wichtig geworden. Heterogene IT-Infrastrukturen und interagierende Softwaresysteme verkomplizieren die Administration solcher Umgebungen. In diesem Zusammenhang wird „Automatisierung“ häufig als ein Lösungsansatz propagiert. In dieser Arbeit wird ein Automatisierungs-Referenzrahmen in Verbindung mit einer Konfigurationsverwaltungslösung eingeführt um eine abstrakte Sichtweise auf das Thema zu geben. Der BISS Automatisierungs-Referenzrahmen teilt einzelne Bestandteile, wie Entwicklung, Erweiterungsdienste,
Konfigurationsverwaltungslösung und IT-Infrastruktur in verschiedene Domänen ein. Die Kommunikation zwischen den Domänen ist reguliert und begrenzt um die Sicherheit der Umgebung zu gewährleisten. Eine praktische Anwendung des entworfenen Referenzrahmens und seinen Domänen wird mit Ansible als Konfigurationsverwaltungslösung in einer Software-Defined Netzwerkinfrastruktur von Cisco aufgezeigt. Mit der Einbindung von Sicherheitskomponenten, wie Check Point Firewalls und F5 Big-Ips, werden exemplarische Fallbeispiele einer Automatisierung heterogener Umgebungen demonstriert.
In dieser Arbeit wurde der Einfluss des orphanen Kernrezeptors Peroxisom-Proliferatoraktivierte Rezeptor des Subtyps Gamma (PPARγ) auf die kardiale Differenzierung in vitro untersucht. Hierfür wurde die murinen embryonale Stammzelllinie CGR8 und das Modellsystems Embryoid Body verwendet. Zur Beantwortung der Fragestellung wurden einerseits pharmakologische Inkubationsexperimente mit spezifischen Agonisten sowie Antagonisten realisiert. Andererseits wurde das Differenzierungsverhalten vergleichend in einer PPARγ-Knockdown-Zelllinie betrachtet, welche durch eine stabile Herunterregulation des Rezeptorsubtyps gekennzeichnet ist.
Embeddings for Product Data
(2022)
The E-commerce industry has grown exponentially in the last decade, with giants like Amazon, eBay, Aliexpress, and Walmart selling billions of products. Machine learning techniques can be used within the e-commerce domain to improve the overall customer journey on a platform and increase sales. Product data, in specific, can be used for various applications, such as product similarity, clustering, recommendation, and price estimation. For data from these products to be used for such applications, we have to perform feature engineering. The idea is to transform these products into feature vectors before training a machine learning model on them. In this thesis, we propose an approach to create representations for heterogeneous product data from Unite’s platform in the form of structured tabular records. These tables consist of attributes having different information ranging from product-ids to long descriptions. Our model combines popular deep learning approaches used in natural language processing to create numerical representations, which contain mostly non-zeros elements in an array or matrix called as dense representation for all products. To evaluate the quality of these feature vectors, we validate how well the similarities between products are captured by these dense representations. The evaluations are further divided into two categories. The first category directly compares the similarities between individual products. On the other hand, the second category uses these dense vectors in any of the above- mentioned applications as inputs. It then evaluates the quality of these dense representation vectors based on the accuracy or performance of the defined application. As result, we explain the impact of different steps within our model on the quality of these learned representations.
Die vorliegende Arbeit untersucht, wie eine Ontologie mobile Kommunikation für forensische Auswertungen abbilden kann und welche Chancen sich aus dieser Art von Repräsentation ergeben. Prinzipiell stellen Ontologien einen Lösungsansatz für die wachsenden Herausforderungen im Bereich der digitalen Forensik dar. Vor allem die Heterogenität und stark zunehmende Menge der auszuwertenden Daten stellt die Strafverfolgungsbehörden vor Probleme. Forensische Tools unterstützen bei der Extraktion und Analyse von Daten. Allerdings weisen sie in bestimmten Aspekten ihre individuellen Grenzen auf. Ontologien ermöglichen dabei die Interoperabilität zwischen forensischen Tools und somit die Kombination der jeweiligen Vorteile von diesen Tools. Somit können insbesondere (Teil-)Automatisierungen im Ermittlungsprozess realisiert werden, was zur Ersparnis von Zeit und Ressourcen führt. Darüber hinaus lassen sich anhand von Ontologien logische Schlussfolgerungen herleiten und weitere Methoden aus dem Bereich der künstlichen Intelligenz anwenden. Diese Arbeit verwendet die CASE-Ontologie als Grundlage zur Entwicklung einer Ontologie, welche mobile Kommunikation im Kontext forensischer Untersuchungen repräsentiert. Darüber hinaus wird im experimentellen Teil der Arbeit das Datenmodell einer forensischen Plattform zur Auswertung mobiler Kommunikation auf die entworfene Ontologie abgebildet. Zusätzlich wird ein semantischer Webserver prototypisch aufgesetzt, um einen Anwendungstest der Ontologie durchführen zu können.
Das Thema IT-Sicherheit wird durch zunehmende Vernetzung, neue Anforderungen an Systeme und Industrie 4.0 auch für industrielle Netzwerke wie SCADA und ICS immer wichtiger.
Finanzielle Schäden durch Angriffe steigen von Jahr zu Jahr. Deswegen ist es wichtig, diese Netzwerke zu schützen und Angriffe frühzeitig zu erkennen, um zeitnah auf diese reagieren zu können und größere Schäden zu vermeiden. Da klassische Methoden ICS Systeme zum Teil behindern können und um einen zusätzlichen Schutz zu den normalen Intrusion Detection Systemen und Firewalls zu bieten, ist das Ziel dieser Arbeit, die Entwicklung einer Plattform, zur
verhaltensbasierten Detektion von Angriffen in solchen Netzwerken. Dafür werden Honeypots im Netzwerk verteilt, welche dazu dienen, Angriffe, die das normale IDS oder Firewalls umgangen haben, oder gar von Internen durchgeführt werden, zu erkennen. Die Honeypots sind in der Lage, Zugriffe auf die von ihnen verwendeten Protokolle zu erkennen und senden in diesem Fall Meldungen an einen zentralen Server, welcher diese in einer Datenbank speichert und in einem Dashboard visualisiert. Das in dieser Arbeit beschriebene Konzept und seine detailliert beschriebene Umsetzung sollen den Einstieg für Unternehmen in dieses Thema erleichtern und zu weiterer Forschung auf diesem Gebiet anregen.
In dieser Arbeit wird die Entwicklung einer Client-Server-Infrastruktur für die probabilistische Privacy Preserving Record Linkage (PPRL) vorgestellt. Ziel ist die Integration der entwickelten Dienste in eine Implementierung des Personal Health Train. Die Anwendbarkeit wird anhand von Fallbeispielen demonstriert und die Toleranz des PPRL-Ansatzes gegenüber kleinen Fehlern zwischen sonst übereinstimmenden Datensätzen hervorgehoben. Das Ergebnis ist eine robuste PPRL-Infrastruktur für den Einsatz in der verteilten Datenanalyse.