bwDataArchiv
Der Dienst
Der Dienst bwDataArchiv bietet eine Langzeitspeicherlösung für Forschungs- und andere öffentliche Einrichtungen des Landes Baden-Württemberg, der Helmholtz-Gemeinschaft und europäischer Dateninfrastrukturen. Die Daten werden in der technischen Infrastruktur des Scientific Computing Centers (SCC) am Karlsruher Instituts für Technologie (KIT) gespeichert und umfassen vertrauenswürdige Großdatenspeicher für einen Zeitraum von zehn Jahren und mehr. Der Dienst ermöglicht eine qualifizierte Umsetzung der Empfehlung der Deutschen Forschungsgemeinschaft (DFG) zur Sicherung und Speicherung von Forschungsdaten.
Die Technik hinter bwDataArchiv
Bandtechnologie als Massenspeicher
Die technische Realisierung des Langzeitspeichers erfolgt über einen Massenspeicher, der zum Großteil aus Magnetbändern besteht – einer bewährten Technologie mit einer im Vergleich zu Festplatten sehr viel geringeren Fehlerrate. Große Rechenzentren setzen stark auf diese verlässliche und langlebige Speichertechnologie, die darüber hinaus stetig weiterentwickelt wird. Zudem sind die Anschaffungs- und Betriebskosten von Bandtechnologien im Petabyte-Bereich bis zu einem Zehnfachen kostengünstiger als Festplatten- oder SSD-Speicherlösungen. Der Nachteil längerer Zugriffszeiten (bis zu zwei Minuten) durch die lineare Speicherung auf Magnetbändern wird durch Vorteile der Langlebigkeit und geringen Kosten für Strom und Kühlung ausgeglichen.
Am SCC kommt derzeit die TS1160 Technologie des Herstellers IBM® zum Einsatz. Eine Magnetband-Kassette dieser Technologie-Generation kann ca. 20 TB Daten speichern.
HPSS als Speicherverwaltungslösung
Zur Verwaltung des Datenspeichers in Kombination mit der Bereitstellung von Funktionen, um zum Beispiel die Integrität der gespeicherten Daten zu gewährleisten, muss ein allumfassendes System eingesetzt werden. Das SCC hat sich für die Installation und den Betrieb des High Performance Storage System (HPSS) entschieden. Das HPSS ermöglicht das Speichern von Millionen von Dateien bis in den Exabyte-Bereich. Platten und Bandspeicher werden in einem virtuellen File-System zu einem hoch performanten Storage Management-System zusammengeführt, das automatisch Daten zwischen Festplatten und Bändern migriert.
Das Projekt
Das Projekt bwDataArchiv wurde als Kollaboration des SCC am KIT und dem Höchstleistungsrechenzentrum Stuttgart (HLRS) an der Universität Stuttgart im Jahr 2014 gestartet und wurde 2016 um weitere 2 Jahre verlängert. Im Rahmen dieses vom baden-württembergischen Ministerium für Wissenschaft, Forschung und Kunst (MWK) geförderten Landesprojekts wurde der Dienst bwDataArchiv als zentrales Langzeitarchiv für Daten von Forschungseinrichtungen und Bibliotheken des Landes Baden-Württemberg und dem HLRS entwickelt.
Motivation
Daten aus wissenschaftlichen Experimenten, aus Messungen, Analysen und Simulationen, müssen langfristig gespeichert werden, um die Zugänglichkeit nach Beendigung der wissenschaftlichen Projekte zu gewährleisten. Die Speicherung dieser Daten ist nicht nur aus rechtlichen Gründen wichtig, sondern auch wegen ihres historischen Wertes und ihres möglichen wissenschaftlichen Wertes in der Zukunft. Um diese Aufgabe zu bewältigen wurde der Aufbau von Strukturen und die Entwicklung und Evaluation von Technologien für eine strukturierte, zuverlässige und sichere Langzeitspeicherung von Datenmengen bis in die Größenordnung mehrerer Exabyte notwendig.
Ziele
Der Zentrale Baustein des Projekts bwDataArchiv war der Aufbau eines Langzeitarchivdienstes aufbauend auf der bestehenden Infrastruktur des SCC am KIT. Hierzu mussten unter anderem Fragen zum Einsatz neuer Technologien sowie zur Entwicklung eigener Software und der Integration von Software aus Partnerprojekten beantwortet werden. Weiterhin wurden unter anderem diese Fragen addressiert:
- Wie kann der Prozess der Datenspeicherung und -archivierung für eine nicht IT-affine wissenschaftliche Gemeinschaft vereinfacht werden?
- Welche sicherheitsrelevanten Aspekte sind bei der Langzeitspeicherung wichtig?
- Welches Service-Modell wird für einen Dienst benötigt, der sich auf langfristige Datenspeicherung spezialisiert?
- Wie kann die Datenintegrität von Hunderten von Petabytes an Daten effizient sichergestellt werden?
Förderung und Kooperation
Das Projekt 'bwDataArchiv' wurde vom Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg gefördert und kooperiert mit dem DFG-Projekt RADAR, den mittlerweile abgeschlossenen Landesprojekten bwDataInMotion (bwDIM) und bwDataDiss, mit vielen verschiedenen wissenschaftlichen Communities, aber auch mit den internationalen Projekten EUDAT, dem Human Brain Project (HBP) und dem LHC Computing Grid (WLGC).