Heute möchte ich ein neues Tool vorstellen, mit dem sich die Qualität der Daten in einem Datenportal verbessern lässt. Eigentlich lässt sich nur messen, wie ob die Daten erreichbar und wie versprochen sind - die Verbesserung muss dann anschließend erfolgen.
Das ganze heißt DCAT Catalog Check und ist hier zu finden: https://code.schleswig-holstein.de/opendata/dcat-catalog-check
Wie der Name schon sagt, wird ein DCAT-Katalog heruntergeladen. Es wird überprüft, ob die URLs von Distributionen aktiv sind, ob Dateien korrekt formatiert sind und ob die MIME-Typen mit den Metadaten übereinstimmen. Das Programm unterstützt zahlreiche spezielle Formatvalidierungen wie GeoJSON, XML und PDF und protokolliert die Ergebnisse in einer Logdatei. Außerdem wird die Validierung von Frictionless Data Resources unterstützt.
Beim ersten Lauf über das Open-Data-Portal Schleswig-Holstein hatte ich schlimmste Befürchtungen, aber es waren deutlich weniger nicht erreichbare oder falsch deklarierte Dateien. Immer noch zu viele, aber die werden nun in den nächsten Wochen abgearbeitet.