en

Willkommen Gast


  • Login
Full load

Sommersemester 2013
Masterprojekt Duplikatenerkennung (Teil 2)
Allgemeine Information
Veranstaltungs-Nr. 64-465
Veranstaltungs-Type Masterprojekt
Veranstalter Steffen Friedrich, Dr. Felix Gessert, Dr. Fabian Panse, Prof. Dr. Wolfram Wingerath
Ort F334
Zeit Fr 12-16
Periodizität unregelmäßig
Voraussetzungen Gute Grundkenntnisse in Java sind für die erfolgreiche Teilnahme am praktischen Teil dieser Veranstaltung obligatorisch! Eine aktive Teilnahme sowohl am Seminar- als auch am Projektteil des Moduls wird vorausgesetzt.
Inhalt
Verschiedene Datensätze, die den gleichen Gegenstand der realen Welt in einer Datenbasis repräsentieren werden allgemein als Duplikate bezeichnet. Das Erkennen von Duplikaten ist ein wichtiger Aspekt der Datenbereinigung und der Datenintegration und trägt somit wesentlich zur Gewährleistung einer hohen Datenqualität bei. Aufgrund einer Vielzahl an Fehlerquellen (z.B. Tippfehler oder fehlerhafte maschinelle Schrifterkennung) und der heterogenen Struktur der Daten verschiedener autonomer Quellen, ist das Erkennen von Duplikaten ein aufwendiger und komplizierter Prozess.

Dieses Projektmodul bietet einen Einstieg in das methodische und technische Vorgehen aktueller Techniken zur Duplikatenerkennung. Des Weiteren wird die Möglichkeit geboten, weiterführende aktuelle Fragestellungen nach individuellen Interessen zu bearbeiten und dabei entsprechende wissenschaftliche und praktische Lösungsansätze aktiv mitzugestalten. Durch Literaturrecherchen, Selbststudium und geleitete Projektarbeiten wird dazu ein Prozess zur Duplikatenerkennung individuell entworfen und implementiert. Die dafür zu realisierende Unterprozesse umfassen:


  • Entwurf und Implementierung eines Datenreinigungsprozesses um die Daten in ein einheitliches Format zu transformieren und einfache Fehler zu eliminieren
  • Entwurf und Implementierung einer Technik zur Suchraumreduzierung um den quadratischen Aufwand, der aus einem paarweisen Vergleich aller Datensätze  resultieren würde, zu vermeiden
  • Entwurf und Implementierung von Methoden zum Messen der Ähnlichkeit von Attributwerten
  • Entwurf und Implementierung von Methoden um aus den Attributwertähnlichkeiten zweier Datensätze eine Duplikatsentscheidung zu treffen
  • Entwurf und Implementierung von Clusteringtechniken, die aus den paarweise getroffenen Entscheidungen ein global gültiges Ergebnis ableiten
  • Entwurf und Implementierung von Methoden zur Bewertung der Güte eines Duplikatenerkennungsprozesses

Das Projektmodul bietet eine gute Grundlage für Master- oder Diplomarbeiten zu Themen der Duplikatenerkennung. Aktuelle Informationen finden sich auf der zugehörigen Homepage: http://vsis-www.informatik.uni-hamburg.de/teaching/ss13/de/
Vorgehen
Das Projektmodul besteht aus einem integrierten Seminar zu Forschungstrends im Bereich der Duplikatenerkennung (vgl. LV 64-466 im WS 2012/2013) und einem anschließenden, über zwei Semester verteilten Projekt, in dem die erlernten Methoden mittels aktueller Technologien praktisch umgesetzt und angewandt werden können. Dazu wird ein aktuelles Themengebiet der Duplikatenerkennung konzeptionell erarbeitet und anschließend unter Verwendung moderner Software-Technologien umgesetzt.
Lernziel
Die Studierenden sollen fundierte Kenntnisse zu dem Entwurf, der Ausführung und der Bewertung von Duplikatenerkennungsprozessen erwerben und dabei in das selbstständige, wissenschaftliche Arbeiten eingeführt werden. Dabei werden Schlüsselqualifikationen vermittelt, wie das Verfassen wissenschaftlicher Arbeiten, das Einarbeiten in ein neues Wissensgebiet, die Recherche nach wissenschaftlicher Literatur sowie die professionelle Abwicklung von Projekten. Die zu erwerbenden Kenntnisse werden dabei insbesondere durch praktische Erfahrungen in der Entwicklung von exemplarischen Projektapplikationen vertieft.
Literatur
Wird zu Beginn der Veranstaltung bekannt gegeben.