OPUS


Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • search hit 2 of 6
Back to Result List

How to compare RNA/DNA sequences : a systematic approach in terms of data transformations and proximity measures

Der Vergleich von RNA/DNA-Sequenzen : ein systematischer Ansatz hinsichtlich Datentransformationen und (Un-) Ähnlichkeitsmaßen

  • he automatic comparison of RNA/DNA or rather nucleotide sequences is a complex task requiring careful design due to the computational complexity. While alignment-based models suffer from computational costs in time, alignment-free models have to deal with appropriate data preprocessing and consistently designed mathematical data comparison. This work deals with the latter strategy. In particular, a systematic categorization is proposed, which emphasizes two key concepts that have to be combined for a successful comparison analysis: 1) the data transformation comprising adequate mathematical sequence coding and feature extraction, and 2) the subsequent (dis-)similarity evaluation of the transformed data by means of problem specific but mathematically consistent proximity measures. Respective approaches of different categories of the introduced scheme are examined with regard to their suitability to distinguish natural RNA virus sequences from artificially generated ones encompassing varying degrees of biological feature preservation. The challenge in this application is the limited additional biological information available, such that the decision has to be made solely on the basis of the sequences and their inherent structural characteristics. To address this, the present work focuses on interpretable, dissimilarity based classification models of machine learning, namely variants of Learning Vector Quantizers. These methods are known to be robust and highly interpretable, and therefore, allow to evaluate the applied data transformations together with the chosen proximity measure with respect to the given discrimination task. First analysis results are provided and discussed, serving as a starting point for more in-depth analysis of this problem in the future.
  • Der automatisierte Vergleich von RNA/DNA- oder auch Nukleotidsequenzen stellt eine diffizile Aufgabe dar, die aufgrund der Berechnungskomplexität eine sorgfältige Konzeption erfordert. Während Alignment-basierte Modelle insbesondere mit hohem zeitlichen Rechenaufwand einhergehen, sind Alignment-freie Modelle mit einer angemessenen Datenvorverarbeitung und einem konsistent zu gestaltenen mathematischen Datenvergleich konfrontiert. Die vorliegende Arbeit befasst sich mit letztgenannter Strategie und stellt im Speziellen eine systematische Kategorisierung vor. Diese hebt zwei entscheidende Konzepte hervor, die für eine erfolgreiche Vergleichsanalyse zu kombinieren sind: 1) die Datentransformation bestehend aus adäquater mathematischer Sequenzcodierung und Merkmalsextraktion, und 2) die anschließende (Un-) Ähnlichkeitsbewertung der transformierten Daten mittels problemspezifischer sowie mathematisch konsistenter (Un-)Ähnlichkeitsmaße. Ansätze verschiedener Kategorien des eingeführten Schemas werden hinsichtlich ihrer Eignung untersucht, natürliche RNA-Virussequenzen von künstlich erzeugten zu unterscheiden. Bei Letzteren werden dabei biologische Merkmale im variierenden Ausmaß erhalten. Die Herausforderung des Anwendungsfalls liegt hierbei in den begrenzten zusätzlich zur Verfügung stehenden biologischen Informationen, sodass die Entscheidung einzig auf der Grundlage der Sequenzen und ihrer inhärenten strukturellen Merkmale getroffen werden muss. Dafür setzt die vorliegende Arbeit auf interpretierbare, Unähnlichkeitsbasierte Klassifikationsmodelle aus dem Bereich des maschinellen Lernens, namentlich Varianten von Learning Vector Quantisierern. Diese Methoden sind bekannt dafür, dass sie sowohl robust als auch interpretierbar sind und es daher ermöglichen, die angewandten Datentransformationen gemeinsam mit dem gewählten (Un-)Ähnlichkeitsmaß in Bezug auf das gegebene Klassifikationsproblem zu bewerten. Erste Analyseergebnisse werden präsentiert und diskutiert, die als Ausgangspunkt vertiefender Analysen zukünftiger Arbeiten dienen.

Download full text files

  • Master_Thesis_Bohnsack.pdf
    eng

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Katrin Sophie Bohnsack
Advisor:Thomas Villmann, Marika Kaden
Document Type:Master's Thesis
Language:English
Year of Completion:2020
Granting Institution:Hochschule Mittweida
Release Date:2022/01/03
GND Keyword:Bioinformatik
Note:
Printexemplar Präsenzbestand
Institutes:Angewandte Computer‐ und Bio­wissen­schaften
DDC classes:570.285 Bioinformatik
Open Access:Innerhalb der Hochschule
Licence (German):License LogoUrheberrechtlich geschützt