Refine
Document Type
- Bachelor Thesis (3)
- Diploma Thesis (1)
- Master's Thesis (1)
Language
- German (5)
Keywords
- Textverarbeitung (5) (remove)
F. Pfennig untersucht den Nutzen einer Vorlagendatei zur Erstellung wissenschaftlicher Arbeiten im Adobe InDesign-Format in Kontrast zu den bisher bestehenden Dateien von Microsoft Word und Apache OpenOffice Writer an der Fachhochschule Mittweida, University of Applied Sciences. Er ermittelt den bestehenden Bedarf einer solchen Vorlagendatei anhand einer Umfrage unter den Mittweidaer Studenten und wertet diese unter Berücksichtigung der Vor- und Nachteile der betroffenen Programme aus. Dabei kommt er zu dem Ergebnis, dass das Zusammenspiel dieser den größten Erfolg mit sich bringen kann.
Die Auswertung von Kurznachrichten, die auf mobilen Endgeräten gespeichert sind, nimmt bei strafrechtlichen Ermittlungen immer mehr an Bedeutung zu. Häufig sind Ermittler hierbei mit umfassenden Nachrichtenmengen konfrontiert. Um einen Überblick zu erhalten, wäre eine kompakte Zusammenfassung der zahlreichen Nachrichten hilfreich. Eine Möglichkeit diese automatisiert zu erhalten, stellt die Themenmodellierung dar. Diese ist allerdings bei forensischen Kommunikationsdaten mit besonderen Herausforderungen verbunden. Zu diesen zählt die Tatsache, dass der Ermittler oft eine Erwartungshaltung an die Themen hat, wobei die für ihn interessanten Themen häufig nur zu einem geringen Anteil in den Daten vertreten sind. Um ihn bei dem Finden von Beweisen zu diesen Themen zu unterstützen, wurden zwei Methoden der halbüberwachten Themenmodellierung und Erweiterungen basierend auf Word Embeddings und paradigmatischen Relationen miteinander verglichen. Insbesondere für umgangssprachliche Kurznachrichten ist die Evaluierung der Themenmodellierung als schwierig anzusehen, da bisherige Studien gezeigt haben, dass gängige quantitative Evaluierungsmaße bei diesen nicht unbedingt die tatsächliche Interpretierbarkeit der Themen widerspiegeln. Daher bestand ein weiteres Ziel der Arbeit darin zu untersuchen, inwieweit die Ergebnisse einer regelmäßig angewendeten automatischen Evaluierungsmethode durch eine Nutzerstudie wiedergegeben werden. Insgesamt konnte festgestellt werden, dass nach der quantitativen Evaluierung die halbüberwachte Themenmodellierung unter Einbeziehung von paradigmatischen Relationen als besonders erfolgversprechend angesehen werden kann, während nach der Nutzerstudie vor allem die Word Embeddings die Ergebnisse der halbüberwachten Themenmodellierung verbessern konnten. Des Weiteren zeigte sich, dass keine Korrelation zwischen den Resultaten der automatischen Evaluierung und der Nutzerstudie vorlag.
Die Arbeit untersucht das Problem, der Named Entity Recognition in großen Textkorpora. Für klassische Modelle sind meist große gelabelte Datenmengen nötig, die häufig aber nicht zur Verfügung stehen, weil manuelle Annotation sehr zeitaufwendig ist. Deshalb wurde ein Halbüberwachtes
(Semi-Supervised) Verfahren untersucht, um ausgehend von einer kleinen Menge manuell annotierter Daten iterativ mit möglichst wenig Annotationsaufwand ein solides Modell zu trainieren. Das Verfahren nutzt gezielte manuelle Annotation, um den Lerneffekt durch Self-Training zu erhöhen. Die Untersuchungen haben jedoch gezeigt, dass durch Self-Training in diesem Fall keine Verbesserung erzielt werden konnte. Es kann aber eine erhebliche Menge
manueller Annotation durch die gezielte Auswahl von statistisch unsicheren Sätzen für die manuelle Annotation eingespart werden und dadurch effizienter eine bessere Performance erreicht werden.
Ziel dieser Diplomarbeit ist die Konzeption eines Single-Source-Publishing-Systems zur Erstellung von Hochschulschriften über ein Ur-XML-Dokument. Dabei ist das Finden einer einfachen Editierstrategie, damit das System auch angenommen wird und zukünftig nicht als zu schwierig und aufwändig von den Autoren eingeschätzt wird, von höchster Bedeutung. Für die Erstellung des Ur-XML-Dokumentes müssen erst einmal die einzelnen Ordnungen, die Modulhandbücher und andere Schriften analysiert werden. Aus dieser Analyse werden dann die Ur-XML-Dokumente erstellt und aus diesen die neuen Dokumente.