Umgang mit fehlerhaften Datensätzen

Wie geht ihr mit fehlerhaften Datensätzen um? Ich habe ein paar Fälle identifiziert und schildere den Umgang mit der Art des Fehlers in Schleswig-Holstein. Über Vorschläge und Kommentare zum Vorgehen würde ich mich freuen.

Angaben in den Metadaten falsch

Beispiel: Es wurde angegeben, dass es sich um eine GML-Datei handelt, in Wirklichkeit ist es aber GeoJSON.

Hier korrigiere ich die Metadaten und setze dct:modified auf das aktuelle Datum.

Distribution nicht mehr erreichbar

Wie es der Titel schon sagt, der Link auf eine Distribution geht ins Leere. Nun lassen sich mehrere Fälle unterscheiden:

Distribution ist an anderem Ort

Hier korrigiere ich die dcat:downloadURL und setze dct:modified auf das aktuelle Datum.

Distribution ist verlorengegangen

Dieser Fall sollte nicht vorkommen, in der Realität verlieren Herausgeber aber manchmal Dateien oder konnten einen Dienst nicht weiter betreiben.

Es gibt weitere Distributionen

Das ist noch relativ einfach, da es noch weitere Möglichkeiten gibt, auf die Daten zuzugreifen. Ich entferne die Distribution vom Datensatz und setze dct:modified auf das aktuelle Datum.

Korrekt ist das aber nicht. Eigentlich müsste die Distribution zunächst mit Verfügbarkeit Withdrawn gekennzeichnet werden. Wenn man es ganz genau nimmt, müsste 30 Tage vorher die Verfügbarkeit auf Deprecated gesetzt werden. Aber in der Realität wird man das Problem erst bemerken, wenn die Distribution bereits weg ist.

Letzte Distribution des Datensatzes

Nun sind die Informationen des Datensatzes nicht mehr erreichbar. Was machen wir nun mit dem Datensatz? Wie im Fall zuvor könnte man den Datensatz mit der als Withdrawn gekennzeichneten Distribution als „Gedenkseite“ bestehen lassen.

Was tun? :question:

Was passiert in der Praxis: Meine Herausgeber (vor allem aus dem Bereich der Geodaten) löschen den Datensatz als hätte es ihn nie gegeben. :frowning_face:

Distribution defekt

Beispiel: Es handelt sich um eine JSON-Datei, die aber syntaktisch nicht korrekt ist - vielleicht ist der Export abgebrochen.

Man könnte es so behandeln, als wäre die Distribution verlorengegangen. Wenn sich die Distribution reparieren lässt - macht man das dann einfach stillschweigend? :question:

Man könnte auch eine neue Version des Datensatzes erzeugen. Das finde ich aber ungünstig, da man dann immer diese defekte Datei mit sich herumschleppt.

Inhaltlicher Fehler

Beispiel: In den Daten wurde ein Tippfehler entdeckt. Die Datei ist aber technisch korrekt.

Hier erzeuge ich einen neuen Datensatz und verknüpfe diesen mit dem alten Datensatz über dct:isReplacedBy. So kann man bisherige Berechnungen auf Basis der alten Daten reproduzieren.

Vermutlich haben wir den mit Versionen von DCAT 3 hier noch bessere Möglichkeiten.

Wir - d.h. umwelt.info - aggregieren ausschließlich Metadaten aus Drittquellen und können dementsprechend Metadaten gar nicht korrigieren. Wir protokollieren und melden daher Fehler im an die Quellen.

Prinzipiell denke ich, dass das auch eigentlich immer sinnvoll sein sollte, also dass die Quelle korrigiert und die korrigierten Metadaten dann automatisch ihren Weg in die Aggregatoren finden. Aber ehrlichweise wissen wir auch, dass häufig niemand verfügbar ist, um Korrekturen tatsächlich durchzuführen, weshalb wir ebenfalls eine wachsende Liste erwarter Fehler pflegen.