Für das Open-Data-Portal Schleswig-Holstein habe ich ein Programm geschrieben, das Fehler beim Harvesting auswertet und in einer Tabelle zusammenstellt. Es ist relativ speziell, aber vielleicht kann trotzdem jemand etwas damit anfangen. https://gitlab.opencode.de/sh/zit/opendata/ckan-harvest-status
Es funktioniert, wenn man CKAN als Portalsoftware verwendet und Datensätze aus einem CSW (Geoportal) harvestet. Für die fehlerhaften Datensätze wird in den ISO-Metadaten nachgesehen, wer zuständig ist. Das Ergebnis wird in eine Open-Document-Tabelle (LibreOffice) geschrieben und optional in ein WebDAV-Verzeichnis (z.B. Nextcloud) nochgeladen.
1 „Gefällt mir“
Um aus dem Nähkästchen zu erzählen: Wir nutzen zwar selbst nicht CKAN, aber wir harvesten auch jede Menge CSW-Kataloge (und auch jeden Menge CKAN-Systeme) für umwelt.info. Die Bearbeitung der Harvester-Fehler rotiert bei uns wöchentlich und läuft über die „normale“ zentrale Protokollierung der IT-Systeme, wobei wir eine relativ umfangreiche Liste bekannter und nicht (sofort) losbarer Fehler pflegen.
Die Fehler selbst erzeugen bei uns die Harvester direkt beim Harvesting über das „normale“ Logging/Tracing für Rust. Wobei wir in der Regel versuchen alles zu verarbeiten, auch wenn es nicht den relevanten Spezifikationen entspricht. Gerade bei Datumsformaten sehen wir wirklich alle denkbaren Varianten und unser Code für CSW und CKAN ist mittlerweile ziemlich kompliziert gewurden.