Hallo in die Runde! Ein Kollege hat mich gestern gefragt, ob es Standards oder sonst Vorgaben/Empfehlungen gibt für wie man offene Datensätze „richtig“ dokumentiert – also wie Datenbereitsteller sichern können, dass Datennutzenden die Struktur und Inhalte eines Datensatzes verstehen.
Ich kenne keine solche Standards oder Empfehlungen, außer für die Dokumentation von APIs (i.e. OpenAPI Specification). Soweit ich gesehen habe, sagen die üblichen Open-Data-Gesetze auch nichts zur Dokumentation.
Kennt ihr was in diesem Bereich – gibt es Empfehlungen oder Best Practices, für wie man offene Datensätze dokumentiert, insbesondere hinsichtlich Struktur oder Inhalte der Dokumentation?
Die Beschreibung sollte etwas zu den Grenzen der Daten sagen, also was ist noch enthalten, was wird man nicht finden. Sind z.B. bei Anlagen nur solche vorhanden, die man wirklich vor Ort sehen kann oder auch solche, die sich noch in Genehmigung befinden. Dann sollte etwas zur Methode der Datenerhebung/Messung gesagt werden. Schön ist es auch immer, wenn noch ein Link angegeben ist, wo man mehr zum Thema erfahren kann. Die anderen wichtigen Dinge (Ort, Zeit, Aktualisierungsintervall usw.) lassen sich über DCAT-Metadaten transportieren.
Für die Beschreibung der Struktur vonTabellen setzen wir in Schleswig-Holstein auf Table Schema. Das enthält Beschreibungen der Felder, Wertebereite und Maßeinheiten. Daraus kann man auch eine menschenlesbare Beschreibung der Attribute erzeugen.
Für Daten in JSON bietet sich JSON-Schema an. Allerdings weiß ich gar nicht, ob man da auch Beschreibungen und Maßeinheiten unterbringen kann.
Hier ist ein Datensatz, den ich gut beschrieben finde: Windkraftanlagen - Datensätze - Open-Data Schleswig-Holstein
Ebenfalls richtig gut gefällt mir die Dokumentation im KBA mit den ausführlichen Referenzhandbüchern, z.B. Kraftfahrt-Bundesamt - 2024
1 „Gefällt mir“