Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R

In den Umweltwissenschaften sind derzeit viele Forschungsprojekte datengetrieben und liefern Datensätze als wesentliche Ergebnisse. Das Publizieren von Daten nach den FAIR-Prinzipien, stellt damit einen zentralen Faktor in der Entwicklung von Forschungsdateninfrastrukturen dar. Provenance-Informatio...

Бүрэн тодорхойлолт

-д хадгалсан:
Номзүйн дэлгэрэнгүй
-д хэвлэсэн:Bausteine Forschungsdatenmanagement
Үндсэн зохиолчид: Rümmler, Arne, Figgemeier, Heiko, Henzen, Christin
Формат: Artikel (Zeitschrift)
Хэл сонгох:герман
Хэвлэсэн: Philipps-Universität Marburg 2022
Онлайн хандалт:Онлайн хандалт
Шошгууд: Шошго нэмэх
Шошго байхгүй, Энэхүү баримтыг шошголох эхний хүн болох!
Тодорхойлолт
Тойм:In den Umweltwissenschaften sind derzeit viele Forschungsprojekte datengetrieben und liefern Datensätze als wesentliche Ergebnisse. Das Publizieren von Daten nach den FAIR-Prinzipien, stellt damit einen zentralen Faktor in der Entwicklung von Forschungsdateninfrastrukturen dar. Provenance-Informationen als Teil der Metadaten beschreiben die Herkunft der Daten und unterstützen damit die Bewertung, Verständlichkeit und Reproduzierbarkeit von verfügbaren Forschungsdaten. Da eine händische und nachträgliche Erfassung von strukturierten Provenance-Information zeitintensiv ist, ist der Bedarf an (teil-)automatisierten Lösungen, die ein nutzerfreundliches und nahtloses Metadatenmanagement innerhalb einer Forschungsdateninfrastruktur ermöglichen, groß. Im Forschungsprojekt GeoKur, einem Projekt zur Kuration und Qualitätssicherung von Umweltdaten, erfolgt die Datenanalyse und -erzeugung überwiegend in der Skriptsprache R. Dieser Erfahrungsbericht stellt daher die Evaluierung von Tools zur (teil-)automatisierten Erfassung von Provenance-Informationen in R-Skripten zusammen und beschreibt zwei selbst entwickelte Ansätze: (1) die Erzeugung von Provenance-Files mithilfe des selbst implementierten R-Pakets r2provo und (2) die direkte Publikation von Provenance-Informationen aus dem Analyseskript in einen Metadatenkatalog mittels R-Paket ckanr.
DOI:10.17192/bfdm.2022.1.8367