Frühere Semester

Sommersemester 2013
Masterprojekt Duplikatenerkennung (Teil 2)

Allgemeine Information

Veranstaltungs-Nr.	64-465
Veranstaltungs-Type	Masterprojekt
Veranstalter	Steffen Friedrich, Dr. Felix Gessert, Dr. Fabian Panse, Prof. Dr. Wolfram Wingerath
Ort	F334
Zeit	Fr 12-16
Periodizität	unregelmäßig
Voraussetzungen	Gute Grundkenntnisse in Java sind für die erfolgreiche Teilnahme am praktischen Teil dieser Veranstaltung obligatorisch! Eine aktive Teilnahme sowohl am Seminar- als auch am Projektteil des Moduls wird vorausgesetzt.

Inhalt

Verschiedene Datensätze, die den gleichen Gegenstand der realen Welt in einer Datenbasis repräsentieren werden allgemein als Duplikate bezeichnet. Das Erkennen von Duplikaten ist ein wichtiger Aspekt der Datenbereinigung und der Datenintegration und trägt somit wesentlich zur Gewährleistung einer hohen Datenqualität bei. Aufgrund einer Vielzahl an Fehlerquellen (z.B. Tippfehler oder fehlerhafte maschinelle Schrifterkennung) und der heterogenen Struktur der Daten verschiedener autonomer Quellen, ist das Erkennen von Duplikaten ein aufwendiger und komplizierter Prozess.

Dieses Projektmodul bietet einen Einstieg in das methodische und technische Vorgehen aktueller Techniken zur Duplikatenerkennung. Des Weiteren wird die Möglichkeit geboten, weiterführende aktuelle Fragestellungen nach individuellen Interessen zu bearbeiten und dabei entsprechende wissenschaftliche und praktische Lösungsansätze aktiv mitzugestalten. Durch Literaturrecherchen, Selbststudium und geleitete Projektarbeiten wird dazu ein Prozess zur Duplikatenerkennung individuell entworfen und implementiert. Die dafür zu realisierende Unterprozesse umfassen:

Entwurf und Implementierung eines Datenreinigungsprozesses um die Daten in ein einheitliches Format zu transformieren und einfache Fehler zu eliminieren
Entwurf und Implementierung einer Technik zur Suchraumreduzierung um den quadratischen Aufwand, der aus einem paarweisen Vergleich aller Datensätze resultieren würde, zu vermeiden
Entwurf und Implementierung von Methoden zum Messen der Ähnlichkeit von Attributwerten
Entwurf und Implementierung von Methoden um aus den Attributwertähnlichkeiten zweier Datensätze eine Duplikatsentscheidung zu treffen
Entwurf und Implementierung von Clusteringtechniken, die aus den paarweise getroffenen Entscheidungen ein global gültiges Ergebnis ableiten
Entwurf und Implementierung von Methoden zur Bewertung der Güte eines Duplikatenerkennungsprozesses

Das Projektmodul bietet eine gute Grundlage für Master- oder Diplomarbeiten zu Themen der Duplikatenerkennung. Aktuelle Informationen finden sich auf der zugehörigen Homepage: http://vsis-www.informatik.uni-hamburg.de/teaching/ss13/de/

Lernziel

Die Studierenden sollen fundierte Kenntnisse zu dem Entwurf, der Ausführung und der Bewertung von Duplikatenerkennungsprozessen erwerben und dabei in das selbstständige, wissenschaftliche Arbeiten eingeführt werden. Dabei werden Schlüsselqualifikationen vermittelt, wie das Verfassen wissenschaftlicher Arbeiten, das Einarbeiten in ein neues Wissensgebiet, die Recherche nach wissenschaftlicher Literatur sowie die professionelle Abwicklung von Projekten. Die zu erwerbenden Kenntnisse werden dabei insbesondere durch praktische Erfahrungen in der Entwicklung von exemplarischen Projektapplikationen vertieft.