OPUS


Volltext-Downloads (blau) und Frontdoor-Views (grau)
The search result changed since you submitted your search request. Documents might be displayed in a different sort order.
  • search hit 97 of 14471
Back to Result List

Towards a Sequence Evolutionary Model of Influenza : a Neuraminidase based on Evolutionary Coupling Analyses and Interpretable Machine Learning Models

Entwicklung eines Sequenz-Evolutionsmodells der Influenza A : Neuraminidase auf Grundlage von evolutionary couplings Analysen und interpretierbaren Modellen des maschinellen Lernens

  • Influenza A viruses are responsible for the outbreak of epidemics as well as pandemics worldwide. The surface protein neuraminidase of this virus is responsible, among other things, for the release of virions from the cell and is thus of interest in pharmacological research. The aim of this work is to gain knowledge about evolutionary changes in sequences of influenza A neuraminidase through different methods. First, EVcouplings is used with the goal of identifying evolutionary couplings within the protein sequences, but this analysis was unsuccessful. This is probably due to the great sequence length of neuraminidase. Second, the natural vector method will be used for sequence embedding purposes, in hopes to visualize sequential progression of the virus protein over time. Last, interpretable machine learning methods will be applied to examine if the data is classifiable by the different years and to gain information if the extracted information conform to the results from the EVcouplings analysis. Additionally to using the class label year, other labels such as groups or subtypes are used in classification with varying results. For balanced classes the machine learning models performed adequately, but this was not the case for imbalanced data. Groups and subtypes can be classified with a high accuracy, which was not the case for the years, continents or hosts. To identify the minimal number of features necessary for linear separation of neuraminidase group 1 subtypes, a logistic regression was performed at last, resulting in the identification of 15 combinations of nine amino acid frequencies. Since the sequence embedding as well as the machine learning methods did not show neuraminidase evolution over time, further research is necessary, for example with focus on one subtype with balanced data.
  • Influenza A Viren sind weltweit für den Ausbruch von Epidemien und Pandemien verantwortlich. Das Oberflächenprotein Neuraminidase dieses Virus ist u.A. für die Freisetzung der Virionen aus der Zelle verantwortlich und somit Bestandteil pharmakologischer Forschungen. Ziel dieser Arbeit ist es, durch verschiedene Methoden Erkenntnisse über evolutionäre Veränderungen in Sequenzen der Influenza A Neuraminidase zu gewinnen. Zunächst wird EVcouplings mit dem Ziel eingesetzt, evolutionary couplings innerhalb der Proteinsequenzen zu identifizieren, jedoch war diese Analyse nicht erfolgreich. Dies ist wahrscheinlich auf die Sequenzlänge der Neuraminidase zurückzuführen. Zweitens wird die natural vectors Methode auf die Proteinsequenzen angewendet, in der Hoffnung, die sequenzielle Entwicklung des Virusproteins im Laufe der Zeit zu visualisieren. Schließlich werden interpretierbare Methoden des maschinellen Lernens angewandt, um zu untersuchen, ob die Daten nach den verschiedenen Jahren klassifiziert werden können und um Informationen darüber zu gewinnen, ob die extrahierten Informationen mit den Ergebnissen der EVcouplings-Analyse übereinstimmen. Neben der Verwendung der Jahre als Klassenlabel werden auch andere Labels wie Gruppen oder Subtypen bei der Klassifizierung verwendet, mit unterschiedlichen Ergebnissen. Bei balancierten Klassen erzielten die maschinellen Lernmodelle gute Ergebnisse, bei imbalancierten Daten war dies jedoch nicht der Fall. Gruppen und Subtypen können mit einer hohen Genauigkeit klassifiziert werden, was bei den Jahren, Kontinenten oder Wirten nicht zutraf. Um die minimale Anzahl von Merkmalen zu ermitteln, die für eine lineare Trennung der Subtypen der Neuraminidasegruppe 1 erforderlich sind, wurde anschließend eine logistische Regression durchgeführt, die zur Identifizierung von 15 Kombinationen aus neun Aminosäurehäufigkeiten führte. Da die Visualisierung der natural vectors als auch die Methoden des maschinellen Lernens keine Evolution der Neuraminidase im Laufe der Zeit aufzeigten, sind weitere Untersuchungen notwendig, zum Beispiel mit Fokus auf einen Subtyp mit gleichgewichtetem Datensatz.

Download full text files

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Lynn Vivian Reuss
Advisor:Thomas Villmann, Florian Heinke
Document Type:Master's Thesis
Language:English
Year of Completion:2022
Granting Institution:Hochschule Mittweida
Release Date:2022/10/18
GND Keyword:Biotechnologie; Influenza-A-Virus
Page Number:91
Institutes:Angewandte Computer‐ und Bio­wissen­schaften
DDC classes:660.6 Biotechnologie
Open Access:Frei zugänglich
Licence (German):License LogoUrheberrechtlich geschützt