Studie: Hochwertige Datensätze in Deutschland
Lina Bruns, wissenschaftliche Mitarbeiterin am Fraunhofer FOKUS, über die Umsetzung der PSI-Richtlinie
Die Studie wurde von Fraunhofer FOKUS, dem Institut der deutschen Wirtschaft Köln e.V. und dem iRights.Lab durchgeführt und im Februar 2021 veröffentlicht. Hintergrund ist die Novellierung der EU-Richtlinie über offene Daten und die Weiterverwendung von Informationen des öffentlichen Sektors (PSI-RL): Über die Bestimmung von hochwertigen Datensätzen (High Value Datasets – HVD) sollen ausgewählte Datensätze unter einheitlichen Kriterien zu Gunsten einer besseren Weiterverarbeitbarkeit zugänglich gemacht werden. Ausschlaggebend ist hierbei das Potenzial, welches die Datensätze aufweisen: Datensätze, die ein hohes sozioökonomisches und ökologisches Potenzial haben und für eine große Anzahl an Nutzern, insbesondere für kleine und mittelständische Unternehmen (KMU), von Nutzen sind, sollen zukünftig als HVD kostenneutral, in maschinenlesbarem Format und per Schnittstelle bereitgestellt werden.
Welche Datensätze als HVD klassifiziert werden, ist Gegenstand von laufenden Verhandlungen zwischen der EU-Kommission und den Mitgliedsstaaten. Das Konsortium um Fraunhofer FOKUS identifiziert in der Studie potenzielle HVD-Kandidaten für Deutschland und analysiert deren technischen, rechtlichen und ökonomischen Rahmenbedingungen.
Daten aus Wettervorhersagen und Abfallbilanzen
Die PSI-Richtlinie grenzt die Auswahl der hochwertigen Datensätze zunächst auf sechs Themenbereiche ein: Georaum, Erdbeobachtung und Umwelt, Meteorologie, Unternehmen und Eigentümerschaft von Unternehmen, Statistik und Mobilität. Ziel der kürzlich veröffentlichten Studie ist die Analyse von Datensätzen aus diesen Themenbereichen, um aufzuzeigen, welche Datensätze für eine HVD-Klassifizierung geeignet wären, welche Herausforderungen mit einer solchen Klassifizierung einhergingen, wie die Daten aus technischer Sicht bereitgestellt werden und ob die PSI-RL überhaupt Anwendung findet. Insgesamt wurden nahezu 60 exemplarische Datensätze untersucht, beispielsweise Katasterdaten, Abfallbilanzen, Wettervorhersagen, Bevölkerungsstatistiken, Handelsregisterdaten und Fahrplandaten. Die Auswahl der Datensätze sowie die mit einer HVD-Klassifizierung verbundenen Potenziale und Herausforderungen wurden in sechs Workshops mit Domänenexpert*innen evaluiert.
Ergebnisse der Studie
Aus ökonomischer Sicht ergibt sich, dass die untersuchten Datensätze in zwei Gruppen fallen: (1) Für Datensätze, die bereits heutzutage technisch gut aufbereitet, kostenfrei und ohne Weiterverwendungsbeschränkungen verfügbar sind, ergeben sich aus einer HVD-Klassifizierung nur wenig bis gar keine zusätzlichen Potenziale. Allerdings würden hier auch kaum oder keine Herausforderungen aus einer solchen Klassifizierung entstehen. (2) Für Datensätze, die heute technisch nur schwer, gegen Bezahlung und unter Weiterverwendungsbeschränkungen verfügbar sind, ergeben sich aus einer HVD-Klassifizierung mittlere bis hohe Potenziale. Da HVD jedoch kostenfrei zur Verfügung gestellt werden sollen, ergibt sich bei diesen Datensätze aber insbesondere die Herausforderungen der Gebühren- und Einnahmeausfälle im Falle einer HVD-Klassifizierung.
Die Ergebnisse der rechtlichen Untersuchung zeigt, dass der Anwendungsbereich der PSI-RL nahezu bei allen untersuchten Datensätzen eröffnet ist. Ein Großteil der Daten steht bereits heutzutage frei unter Namensnennung zur Verfügung.
Aus technischer Perspektive erfüllt ein Großteil der untersuchten Datensätze bereits die Anforderungen der PSI-Richtlinie – bei einigen Datensätzen muss jedoch sowohl in Hinblick auf die Formatauswahl als auch bei der Bereitstellung per Programmierschnittstelle nachgebessert werden.
Die Detailergebnisse zu jedem der untersuchten Datensätze können der Studie entnommen werden.
Verhandlungen zwischen EU und Mitgliedsstaaten
Welche Datensätze künftig als HVD klassifiziert werden, wird Ergebnis der Verhandlungen zwischen der EU-Kommission und den EU-Mitgliedsstaaten sein. Wichtig ist, dass im Durchführungsrechtsakt klare Definitionen der Datensätze enthalten sind und technische Modalitäten für die Bereitstellung, beispielsweise hinsichtlich der Datenqualität und zu verwendenden Datenformate, festgelegt werden.