Wie geht ihr mit fehlerhaften Datensätzen um? Ich habe ein paar Fälle identifiziert und schildere den Umgang mit der Art des Fehlers in Schleswig-Holstein. Über Vorschläge und Kommentare zum Vorgehen würde ich mich freuen.
Angaben in den Metadaten falsch
Beispiel: Es wurde angegeben, dass es sich um eine GML-Datei handelt, in Wirklichkeit ist es aber GeoJSON.
Hier korrigiere ich die Metadaten und setze dct:modified auf das aktuelle Datum.
Distribution nicht mehr erreichbar
Wie es der Titel schon sagt, der Link auf eine Distribution geht ins Leere. Nun lassen sich mehrere Fälle unterscheiden:
Distribution ist an anderem Ort
Hier korrigiere ich die dcat:downloadURL und setze dct:modified auf das aktuelle Datum.
Distribution ist verlorengegangen
Dieser Fall sollte nicht vorkommen, in der Realität verlieren Herausgeber aber manchmal Dateien oder konnten einen Dienst nicht weiter betreiben.
Es gibt weitere Distributionen
Das ist noch relativ einfach, da es noch weitere Möglichkeiten gibt, auf die Daten zuzugreifen. Ich entferne die Distribution vom Datensatz und setze dct:modified auf das aktuelle Datum.
Korrekt ist das aber nicht. Eigentlich müsste die Distribution zunächst mit Verfügbarkeit Withdrawn gekennzeichnet werden. Wenn man es ganz genau nimmt, müsste 30 Tage vorher die Verfügbarkeit auf Deprecated gesetzt werden. Aber in der Realität wird man das Problem erst bemerken, wenn die Distribution bereits weg ist.
Letzte Distribution des Datensatzes
Nun sind die Informationen des Datensatzes nicht mehr erreichbar. Was machen wir nun mit dem Datensatz? Wie im Fall zuvor könnte man den Datensatz mit der als Withdrawn gekennzeichneten Distribution als „Gedenkseite“ bestehen lassen.
Was tun? ![]()
Was passiert in der Praxis: Meine Herausgeber (vor allem aus dem Bereich der Geodaten) löschen den Datensatz als hätte es ihn nie gegeben. ![]()
Distribution defekt
Beispiel: Es handelt sich um eine JSON-Datei, die aber syntaktisch nicht korrekt ist - vielleicht ist der Export abgebrochen.
Man könnte es so behandeln, als wäre die Distribution verlorengegangen. Wenn sich die Distribution reparieren lässt - macht man das dann einfach stillschweigend? ![]()
Man könnte auch eine neue Version des Datensatzes erzeugen. Das finde ich aber ungünstig, da man dann immer diese defekte Datei mit sich herumschleppt.
Inhaltlicher Fehler
Beispiel: In den Daten wurde ein Tippfehler entdeckt. Die Datei ist aber technisch korrekt.
Hier erzeuge ich einen neuen Datensatz und verknüpfe diesen mit dem alten Datensatz über dct:isReplacedBy. So kann man bisherige Berechnungen auf Basis der alten Daten reproduzieren.
Vermutlich haben wir den mit Versionen von DCAT 3 hier noch bessere Möglichkeiten.