Refine
Document Type
- Bachelor Thesis (4)
- Diploma Thesis (2)
- Master's Thesis (2)
Keywords
- Cluster-Analyse (8) (remove)
In this work, the task is to cluster microarray gene expression data of the cyanobacterium Nostoc PCC 7120 for detection of messenger RNA (mRNA) degradation patterns. Searched are characteristic patterns of degradation which are caused by specific enzymes (ribonucleases) allowing a further biological investigation regarding biochemical mechanisms. The mRNA degradation is part of the regulation of gene expression because it regulates the amount and longevity of mRNA, which is available for translation into proteins. A particular class of RNA degrading enzymes are exoribonucleases which degrade the molecule from its ends, whereby a degradation from the 5’ end, the 3’ end or from both ends is theoretically possible.
In this investigation, the information about exoribonucleolytic degradation is given in a microarray data set containing gene expression values of 1,251 genes. The data set provides gene expression vectors containing the expression values of up to ten short distinct sections of a gene ordered from the genes 5’ end to its 3’ end. For each gene, expression vectors are available for both nitrogen fixing and non-nitrogen fixing conditions, which have to be considered separately due to biological reasons. Accordingly, after filtering and preprocessing, two datasets for clustering are obtained consisting of 133 ten-dimensional expression vectors. The similarity of the expression vectors is judged by a newly correlation based similarity measure and compared with the results obtained by use of the Euclidean distance. A non-linear transformation of the correlations was applied to obtain a dissimilarity measure. By choice of parameters within this transformation a user specific differentiation between negative and positive correlated gene expression vectors and an adequate adjustment regarding the noise level of gene expression values is possible.
Clustering was performed using Affinity Propagation (AP). The number of clusters obtained by AP depends on the so-called self-similarity for the data vectors. This dependence was used to identify stable cluster solutions by self-similarity control. To evaluate the clustering results, Median Fuzzy c-Means (M-FCM) was used. Further, several cluster validity measures are applied and visual inspections by t-distributed Stochastic Neighbor Embedding (t-SNE) as well as cluster visualization are provided for mathematical interpretation analysis of clusters.
To validate the clustering results biologically, the found data structure is checked for biological adequacy. A deeper investigation into the mechanisms behind mRNA-degradation was achieved by use of a RNA-Seq data set. Contained 40 (base pair) bp long reads for non-nitrogen fixing and nitrogen fixing conditions were assembled using bacteria-specific ab-initio assembly of Rockhopper. Thus, mRNA (transcript)-sequences of the clustered genes are obtained. A further investigation of the untranslated regions (UTRs) is performed here due to the assumption that exoribonucleases recognize specific transcript-sequences outside of the annotated gene regions as their binding sites. These UTRs need to be analyzed regarding sequence similarity using motif-finding algorithms.
Clusteralgorithmen oder auch unüberwachte Lernverfahren sind eine wichtige Klasse von Verfahren des maschinellen Lernens mit numerischen bzw. nicht parametrischen Methoden.<br /> Die Bewertung der Ergebnisse dieser Verfahren ist meist jedoch dem Anwender überlassen und daher subjektiv. Damit sind die Vergleichbarkeit und die Optimierung solcher Verfahren recht schwierig.<br /> Im Rahmen der Diplomarbeit sollen Maße recherchiert werden, die dieses Problem beheben.<br /> Anschließend sollen Clusteralgorithmen implementiert und in Hinsicht auf diese Maßegetestet werden.<br />
Diese Diplomarbeit handelt von der IT-Benutzersegmentierung auf Basis der Marktsegmentierung. Das Ziel der Ausarbeitung ist die Ermittlung der optimalen Anzahl von Benutzersegmenten am Beispiel des Unternehmens HOERBIGER. Dabei ist es wichtig, durch die Anzahl der Segmente eine optimale Balance zwischen Wirtschaftlichkeit und Grad der Benutzeranforderungsabdeckung zu ermitteln. Diese Untersuchung beschäftigt sich sowohl mit einer theoretischen Abhandlung der Methoden und Verfahren der Marktsegmentierung, als auch mit der praxis relevanten Umsetzung mittels Interviews und statischen Methoden. Entsprechende Aussagen werden durch Recherchen, wie z.B. die Übereinstimmung mit aktuellen IT Trends, bewertet, um eine Schlussfolgerungen auf eine entsprechende Lösung zu erlangen. Die wissenschaftliche Betrachtung wird durch eine detaillierte statistische Analyse belegt und die Ergebnisse der Segmentierung werden entsprechend grafisch illustriert Abschließend gibt ein Vergleich mehrerer Analysen, mit unterschiedlich vielen Clustern, Aufschluss über die optimale Anzahl an Benutzersegmenten.
Es ist möglich, Graphen und Netzwerke durch Bewertung der Kanten mit Hilfe des Zentralitätsindizes Betweenness in Cluster zu zerlegen. Die Berechnung der Betweennesswerte für jede Kante eines betrachteten Graphen benötigt eine Zeit von O(n2m) für m >> n. In dieser Arbeit wird eine schnellere Methode mit einer Zeitkomplexität von O(nm) für die Berechnung eines Betweenness Rankings nach Newman und unabhängig nach Brandes vorgestellt und implementiert. Es wird ein Clusteralgorithmus nach Newman und Girvan auf Basis des Index Kanten-Betweenness und mit einer Laufzeit von O(nm2) vorgestellt und es werden verschiedene Graphen damit geclustert. Die Arbeit ist restringiert auf schlichte, ungerichtete Graphen.
In der vorliegenden Arbeit werden strukturelle und funktionelle Proteinmotive hinsichtlich ihrer energetischen Charakteristika untersucht und nach energetischen Abständen über hierarchische Clusterverfahren geclustert. Dabei sollen Gesetzmäßigkeiten offen gelegt werden, die sich über die Abstraktionsebenen der Sequenz, Struktur, Funktion und der Energie erstrecken.
In today’s market, the process of dealing with textual data for internal and external processes has become increasingly important and more complex for certain companies. In this context,the thesis aims to support the process of analysis of similarities among textual documents by analyzing relationships among them. The proposed analysis process includes discovering similarities among these financial documents as well as possible patterns. The proposal is based on the exploitation and extension of already existing approaches as well as on their combination with well-known clustering analysis techniques. Moreover, a software tool has been implemented for the evaluation of the proposed approach, and experimented on the EDGAR filings, on the basis of qualitative criteria.
Durch die zunehmende Nutzung mobiler Endgeräte fallen im alltäglichen Leben zahlreiche personenbezogene Daten an. Zu diesen Daten gehören unter anderem auch GPS-Positionen, die von handelsüblichen Smartphones erhoben werden. Besonders Android-Geräte sammeln eine große Menge an Positionsdaten, die für verschiedene Wissenschafts-Domänen, wie beispielsweise Medizin oder Forensik, eine Rolle spielen. Für verschiedene Anwendungsfälle kann eine Aggregation der einzelnen GPS-Positionen zu Orten und verbindenden Strecken relevant sein.
Ziel der Arbeit ist die Entwicklung eines Algorithmus zur Aggregation von GPS-Standorten zu Orten, deren Besuchen und Verbindungen. Nach Implementierung des Algorithmus wurde dieser in eine Java-Applikation eingebettet, die unter anderem der Visualisierung der erzielten Ergebnisse dient. Für die Evaluation des Algorithmus wurden über einen Zeitraum von zwei Monaten Standortdaten mit Hilfe eines Android-Smartphones erhoben, welche unter Verwendung des implementierten Algorithmus ausgewertet wurden. Die Evaluation resultierte in einem Parameterset, welches sich für die Auswertung des vorliegenden Testdatensatzes als geeignet herausstellte. Das Ergebnis der Arbeit ist ein funktionstüchtiger Algorithmus, der vielfältige Anwendungsmöglichkeiten aufweist und dessen Erweiterung ein hohes Potenzial für Folgeprojekte bietet.