519.53 Datenanalyse, Cluster-Analyse
Refine
Document Type
- Master's Thesis (4)
- Bachelor Thesis (3)
Keywords
- Cluster-Analyse (3)
- Datenanalyse (2)
- Algorithmus (1)
- Berufsfußball (1)
- Big Data (1)
- Cluster <Datenanalyse> (1)
- Denkspiel (1)
- Dokumentverarbeitung (1)
- Elektrizitätserzeugung (1)
- Gelände (1)
Institute
Im Prozess der Masterarbeit und des vorangegangenen Forschungsmoduls wurden drei verschiedenartige Anbieter*innen von Escape Spielen untersucht. Zu diesem Zweck wurden Vor-Umfragen eingeholt, um Informationen über populäre und bekannt Reihen dieser Art zu erkennen. Aufbauend auf diesen Fragebögen wurden anschließend drei Anbieter*innen gewählt, welche eine möglichst unterschiedliche Herangehensweise an die Umsetzung eines Escape-Raumes mit minimalistischen Mitteln haben. Nachdem diese ausgemacht wurden, konnten die Proband*innen-Gruppen eingeteilt werden, um, basierend auf diesen Konstellationen, verschiedene Boxen der Herausgeber einer Reihe auszuwählen. Auch bei diesen lag ein besonderer Schwerpunkt auf der Vergleichbarkeit, wodurch auf mögliche Zusammenhänge der Storylines geachtet wurde. Um die folgende Testphase planen zu können, musste jede der vierzehn Ausgaben zunächst selbst getestet und analysiert werden. Hierzu wurden alle Rätsel versucht zu lösen und zu verstehen, um den Kern der Aufgabenstellung erfassen zu können. Zudem wurde ein Zusammenhang zwischen den Karten in Form von Ablauf-Diagrammen ermittelt, wobei festgestellt werden konnte, dass mit zunehmender, ausgeschriebener Schwierigkeit diese breiter werden. Das bedeutet, dass zu Rätseln, welche als schwerer markiert waren, mehr Karten gegeben wurden. Eine der Herausforderungen lag darin, die benötigten Karten auszumachen. Da diese Methodik jedoch nicht zwingend mit der Art der Rätsel und den Hindernissen diese zu Lösen verknüpft ist, sondern als unterstützendes Element angesehen werden kann, wurde sie in der vorliegenden Arbeit nicht berücksichtigt. Nachfolgend konnten aufgrund der gewonnenen Erkenntnisse Fragebögen erstellt werden, welche sowohl allgemein auf die gesamte Box, als auch speziell auf die einzelnen Rätsel eingehen. Hierbei wurden klare Ziele gesteckt, welche Informationen erhoben werden sollten. Anhand dieser Strukturierung war es möglich eine umfassende Sammlung an sehr verschiedenartigen Fragen zu erstellen, wodurch im Verlauf der Tests eine Vielzahl an Informationen gewonnen werden konnte. Zusätzlich zu dieser Erhebung wurden Videodateien während des laufenden Tests erstellt, welche eine detailliertere und unabhängigere Betrachtung der Proband*innen ermöglichen. Nachdem diese Datenerhebungsphase abgeschlossen werden konnte, also alle Boxen verwendet wurden, begann die Vorverarbeitung der Daten. Hierzu wurden zunächst die Videodateien gesichtet und strukturiert und die Fragebögen in eine einheitliche Form gebracht. Es lagen nach dieser Phase strukturierte Videodateien vor, welche den gesamten Prozess des Lösens abbildeten, aber auch Dateien zu den einzelnen, definierten Rätseln. Diese einzelnen Rätsel wurden weitergehend kategorisiert und in ein vergleichbares Schema eingeordnet. Diese einzelnen Rätselvideos konnten zudem durch einen Algorithmus verarbeitet werden, welcher die unterschiedlichen Gesichter der Proband*innen erfassen, analysieren und in sieben Emotionen unterteilen kann. Aus diesem Verarbeitungsschritt entstanden zu jedem Rätsel drei CSV Dateien, welche diese Wahrscheinlichkeiten in Abhängigkeit des aktuellen Bildes wiedergeben. In Bezug auf die Fragebögen wurden Tabellenstrukturen erreicht, welche die unterschiedlichen Arten und Teile dieser in einer einheitlichen Struktur wiedergeben. Nach diesem Schritt war es möglich die Daten auf eine sinnvolle Weise zu kombinieren und aus diesen Rückschlüsse auf Korrelationen zu ziehen. Auch eine Analyse mit umfangreicheren Anwendungen, wie „Rapid Miner“ sind denkbar, jedoch haben die beschriebenen Methoden für die anvisierten Fragestellungen genügt. Auch andere Hypothesenuntersuchungen können aufgrund der aufgearbeiteten Daten erreicht werden, da sicherlich noch andere Zusammenhänge in dieser Masse an Informationen stecken. Jedoch wurde mit dieser Aufnahme und diesen Auswertungen die Fragestellungen beantwortet, welche am Anfang des Praxismoduls aufgekommen waren
Over the past few years, wind and solar power plants have increasingly contributed to energy production. However, due to fluctuating energy sources, the energy production data contain disruption. Such disrupted data lead to the wrong prediction performance, and they need to be estimated by other values. In this thesis, we provide a comparative study to estimate the online disrupted data based on the data of similar groups of power plants, We apply three estimation techniques, e.g., mean, interpolation, and k-nearest neighbor to estimate the disruption on training data. We then apply four clustering algorithms, e.g., k-means, neural gas, hierarchical agglomerative, and affinity propagation, with two similarity measures, e.g., euclidean and dynamic time warping to form groups of power plants and compare the results. Experimental results show that when KNN estimation is applied to data, and neural gas and agglomerative with dtw are used to cluster the data, the cluster quality scores and execution time give better results compared to others. Therefore, we conclude and choose KNN estimation to reconstruct the online disrupted data on each group of a similar power plants.
Durch die zunehmende Nutzung mobiler Endgeräte fallen im alltäglichen Leben zahlreiche personenbezogene Daten an. Zu diesen Daten gehören unter anderem auch GPS-Positionen, die von handelsüblichen Smartphones erhoben werden. Besonders Android-Geräte sammeln eine große Menge an Positionsdaten, die für verschiedene Wissenschafts-Domänen, wie beispielsweise Medizin oder Forensik, eine Rolle spielen. Für verschiedene Anwendungsfälle kann eine Aggregation der einzelnen GPS-Positionen zu Orten und verbindenden Strecken relevant sein.
Ziel der Arbeit ist die Entwicklung eines Algorithmus zur Aggregation von GPS-Standorten zu Orten, deren Besuchen und Verbindungen. Nach Implementierung des Algorithmus wurde dieser in eine Java-Applikation eingebettet, die unter anderem der Visualisierung der erzielten Ergebnisse dient. Für die Evaluation des Algorithmus wurden über einen Zeitraum von zwei Monaten Standortdaten mit Hilfe eines Android-Smartphones erhoben, welche unter Verwendung des implementierten Algorithmus ausgewertet wurden. Die Evaluation resultierte in einem Parameterset, welches sich für die Auswertung des vorliegenden Testdatensatzes als geeignet herausstellte. Das Ergebnis der Arbeit ist ein funktionstüchtiger Algorithmus, der vielfältige Anwendungsmöglichkeiten aufweist und dessen Erweiterung ein hohes Potenzial für Folgeprojekte bietet.
In today’s market, the process of dealing with textual data for internal and external processes has become increasingly important and more complex for certain companies. In this context,the thesis aims to support the process of analysis of similarities among textual documents by analyzing relationships among them. The proposed analysis process includes discovering similarities among these financial documents as well as possible patterns. The proposal is based on the exploitation and extension of already existing approaches as well as on their combination with well-known clustering analysis techniques. Moreover, a software tool has been implemented for the evaluation of the proposed approach, and experimented on the EDGAR filings, on the basis of qualitative criteria.
In this work, the task is to cluster microarray gene expression data of the cyanobacterium Nostoc PCC 7120 for detection of messenger RNA (mRNA) degradation patterns. Searched are characteristic patterns of degradation which are caused by specific enzymes (ribonucleases) allowing a further biological investigation regarding biochemical mechanisms. The mRNA degradation is part of the regulation of gene expression because it regulates the amount and longevity of mRNA, which is available for translation into proteins. A particular class of RNA degrading enzymes are exoribonucleases which degrade the molecule from its ends, whereby a degradation from the 5’ end, the 3’ end or from both ends is theoretically possible.
In this investigation, the information about exoribonucleolytic degradation is given in a microarray data set containing gene expression values of 1,251 genes. The data set provides gene expression vectors containing the expression values of up to ten short distinct sections of a gene ordered from the genes 5’ end to its 3’ end. For each gene, expression vectors are available for both nitrogen fixing and non-nitrogen fixing conditions, which have to be considered separately due to biological reasons. Accordingly, after filtering and preprocessing, two datasets for clustering are obtained consisting of 133 ten-dimensional expression vectors. The similarity of the expression vectors is judged by a newly correlation based similarity measure and compared with the results obtained by use of the Euclidean distance. A non-linear transformation of the correlations was applied to obtain a dissimilarity measure. By choice of parameters within this transformation a user specific differentiation between negative and positive correlated gene expression vectors and an adequate adjustment regarding the noise level of gene expression values is possible.
Clustering was performed using Affinity Propagation (AP). The number of clusters obtained by AP depends on the so-called self-similarity for the data vectors. This dependence was used to identify stable cluster solutions by self-similarity control. To evaluate the clustering results, Median Fuzzy c-Means (M-FCM) was used. Further, several cluster validity measures are applied and visual inspections by t-distributed Stochastic Neighbor Embedding (t-SNE) as well as cluster visualization are provided for mathematical interpretation analysis of clusters.
To validate the clustering results biologically, the found data structure is checked for biological adequacy. A deeper investigation into the mechanisms behind mRNA-degradation was achieved by use of a RNA-Seq data set. Contained 40 (base pair) bp long reads for non-nitrogen fixing and nitrogen fixing conditions were assembled using bacteria-specific ab-initio assembly of Rockhopper. Thus, mRNA (transcript)-sequences of the clustered genes are obtained. A further investigation of the untranslated regions (UTRs) is performed here due to the assumption that exoribonucleases recognize specific transcript-sequences outside of the annotated gene regions as their binding sites. These UTRs need to be analyzed regarding sequence similarity using motif-finding algorithms.
Big Data im Profifußball
(2018)
Heutzutage lässt sich im Fußball alles bis ins kleinste Detail messen und analysieren. Die Stärken und Schwächen einzelner Spieler und von ganzen Mannschaften. Welche Räume kontrolliert werden, wie aggressiv die Spieler und Mannschaften die Gegenspieler anlaufen oder wie effektiv die Spieler und Mannschaften mit ihren Aktionen agieren Ziel der vorliegenden Arbeit ist es zu erörtern, inwiefern Big Data heutzutage im Profifußball angewendet wird, worauf der Fokus bei der Datenanalyse gelegt wird und worin die Chancen und die Risiken dessen bestehen.
Im Rahmen der Arbeit wird ein Überblick über aktuelle Verfahren der Sentimentanalyse gegeben, welche sich besonders für die Analyse von Nutzerdaten in sozialen Netzwerken eignen und auch auf die deutsche Sprache ausgerichtet sind bzw. auf diese übertragen werden können. Darüber hinaus sollen forensische Anwendungsgebiete der Sentimentanalyse aufgezeigt und diskutiert werden.