English Intern
IZKF Core Unit FDM

Metadaten

Metadaten sind in der wissenschaftlichen Forschung von entscheidender Bedeutung für die Organisation, das Verständnis und die effiziente Nutzung von Daten. Im Zusammenhang mit beispielsweise Sequenzierung oder Bioimaging können Metadaten eine breite Palette von Informationen umfassen, wie z.B. Gen- und Probendetails, Links zu elektronischen Laborbüchern, experimentelle Verfahren, Namen der beteiligten Personen, das Datum, Temperaturen, Typ des Sequenziergeräts oder des Mikroskops, untersuchter Organismus und der Experimenttyp. Diese Informationen können in Metadatenblättern oder in Formaten wie BIDS, OME-TIFF, OME-ZARR, oder HDF5 gespeichert werden. Wie andere Daten können Metadaten daher in mehrdimensionalen Matrizen organisiert und in Datenbanken oder anderen maschinen-lesbaren Datenobjekten integriert werden. Mithilfe dieser Datenbanken können sogenannte knowledge graphs erstellt werden, die verschiedene Datenpunkte verbinden und so die benutzerdefinierte Datensuche, -aufbereitung und -analyse erleichtern.

Standardisierte Metadaten wie stabile Gen-IDs, Krankheits-IDs oder Experiment-IDs ermöglichen eine effektive Organisation und eine computerbasierte Analyse der Daten. Automatisierte Arbeitsabläufe können einen Überblick über analysierte Gene, untersuchte Organismen sowie verfügbare Experimente und Daten liefern und so die Forschungsplanung und -verwaltung unterstützen. Metadaten spielen auch bei der Durchführung von KI-Experimenten eine zentrale Rolle, da Computer standardisierte Datenformate bevorzugen.

Idealerweise werden Metadaten in elektronischen Laborbüchern wie z.B. Labfolder oder eLabFTW gespeichert. Hier bietet sich die Möglichkeit eines Überblicks über abgeschlossene Experimente und somit die Unterstützung bei der Forschungskoordination und -planung. Projektleiter können schnell Einblick in laufende Forschungsaktivitäten bekommen, Engpässe frühzeitig identifizieren und Ressourcen mit Rückgriff auf die Vergangenheit effizient planen (z.B. Chemikalienverbrauch und -bestellung).

Beispiel: Metadaten in der Sequenzierung

Bei der Sequenzierung kann die Verwendung von Metadaten die Datenverwaltung und -integration erheblich verbessern. Neben gen- und probenspezifischen Informationen können auch experimentelle Daten einbezogen werden. Beispielhaft können zu den Metadaten gehören:

  • Studie: die Forschungsfrage, die untersucht wird
  • Experimenttyp: Art des Experiments, z.B. Infektionsmodell oder KO-Studie
  • Experimenteller Ablauf: detaillierte Schritte des Experiments
  • Organismus: Klassifikation des biologischen Testsubjekts
  • Gewebe- und Zelltyp: detaillierte Klassifikation des biologischen Testobjekts
  • Sequenziergerät: Information über das benutzte Equipment
  • Daten: Link zu Roh- und verarbeiteten Daten
  • Computergestützte Analysen: Link zu Analyseskripten
  • Cofaktoren: Zugriffsdatum, Temperatur, und andere Cofaktoren während des Experiments
  • Forscher-ID: Identifikation des Forschers
  • eLabBook Link: direkter Verweis auf den entsprechenden Laborbucheintrag

Mithilfe der Metadaten können Sie problemlos nach ähnlichen Experimenten in verschiedenen Geweben suchen, die Daten integrieren und schnell neue und erweiterte Erkenntnisse aus vorhandenen Datensätzen gewinnen. Der Umfang Metadaten sollte jedoch ausgewogen sein, da die Eingabe sehr vieler Details für die Forschenden zeitaufwändig sein kann. Konsortien sollten daher Metadatenstandards mit Mindestanforderungen festlegen. Es gibt Richtlinien und Empfehlungen für einen Mindestsatz an Metadaten in jedem Bereich (z.B. Bioimaging, Sequenzierung), die von Organisationen wie der NFDI für verschiedene Bereiche bereitgestellt werden. Auch ohne fortgeschrittene Tools wie OMERO (FDM Bioimaging), SODAR (FDM Sequenzierung), VRE Charité, oder Aruna (fortgeschrittene FDM Clouds) können Standardformate und Schlüssel-Wert-Paare in einfachen Formaten wie Excel verwaltet werden. Diese können für SQL-Analysen oder Python-Workflows einfach konvertiert werden. Von entscheidender Bedeutung ist die Einigung eines Konsortiums über die notwendigen Schlüssle-Wert-Paare für verschiedene Datensätze oder die Mindestanforderungen an die Metadaten innerhalb ihres Forschungsgebiets.

Im Wesentlichen optimieren gut organisierte Metadaten die Datenanalyse und -integration sowie die Forschungsplanung. Sie bereiten ebenfalls die Bühne für anspruchsvolle KI-gesteuerte Experimente, was ihre entscheidende Rolle in der modernen wissenschaftlichen Forschung unterstreicht.