20090226 (Teil 1) \  Gastbeiträge \  Der digitale 100-Jahre-Archiv-Standard
Der digitale 100-Jahre-Archiv-Standard
Die Speicherbranche versucht sich an der Langzeitarchivierung
Gastbeitrag von Rainer Graefen, Chefredakteur,  Vogel IT-Medien GmbH / SearchStorage.de
 
Mit viel Enthusiasmus startete die SNIA, die Storage Networking Industrie Association 2007 die Entwicklung der Archivierungs-Schnittstelle XAM (extensible Access Method). Anwendungen sollen interoperabel mit unterschiedlichster Storage-Hardware unveränderliche Inhalte austauschen können, lautet das Ziel. Jetzt werden langsam die Differenzen deutlicher.
Ausgangspunkt für XAM war 2005 eine Gesetzesänderung an den Federal Rules of Civil Procedures (FRCP) in Amerika, die das eDiscovery, also das „Durchforsten“ großer Datenbestände regulieren sollte. Für Unternehmen entstand damit das Problem unterschiedlichste Archiv-Plattformen von der optischen Jubebox bis hin zu CAS-Systemen (Content Addressable Storage) durchsuchbar zu machen.
Schwierig wird dieses Unterfangen nicht nur wegen der immensen Datenmengen, die in den Unternehmen gesammelt werden, sondern auch durch unterschiedlichste Dokumentenformate und einen fehlenden Metadaten-Standard. Hier fühlte sich die Industrievereinigung der Speicherhersteller zum Handeln aufgefordert.
Objektspeicherung für die Langzeitarchivierung
Die SNIA hat die XAM-Spezifikationen Mitte 2008 durch das Archivierungsformat SD-SCDF (Self-Describing Self Contained Data Format) aufgewertet, das die Langzeitaufbewahrung digitaler Daten auch beim Wechsel von Hardware und Anwendungen erlauben soll. Damit sollen Archiv-Anwendungen Daten-Objekte erzeugen, die alle Informationen beinhalten, um für die nächsten 100 Jahre logisch lesbar verschiebbar zu sein. XAM selbst soll dies für die physische Migration sicherstellen.
Als eines der ersten Unternehmen bietet EMC seit der Version 1 von XAM ein Software Developer Kit (SDK) für „early adaptors“ an. Doch so interessant sich das auch alles anhört, die Akzeptanz der forsch voran getriebenen Idee, ist in weiter Ferne. Für Verfechter einer revisionssicheren oder gar rechtssicheren Archivierung dürfte schon der Begriff „logisch lesbar“ ein Reizwort sein. Und in der Praxis ist von der Aufbruchstimmung der XAM-Experten wenig zu spüren. Im SearchStorage.de-Forum schreibt Karlheinz Pischke, Produktmanager bei Gingcom: „Vor allem die DMS-Hersteller sehen keinen aktuellen Anlass, ihre bereits auf proprietären Schnittstellen aufsetzenden Übergabeprogramme für XAM neu zu schreiben.“ Viele hatten noch nie etwas von dieser Schnittstelle gehört.
Eine Idee, drei Verfahrensweisen
Diese Crux wurde XAM schon in die Wiege gelegt. Um überhaupt zur Taufe schreiten zu können, einigten sich die wesentlichen XAM-Protagonisten EMC, Hewlett-Packard, Hitachi Data Systems, NetApp und Sun auf einen Kompromiss, der gleich drei sehr unterschiedliche Implementierungsvarianten ins Spiel brachte:
 
   
 ·
ein Application Programmable Interface für die Klienten-Seite (EMC),
 ·
ein Protokoll (HDS)
 ·
und ein Dateisystem, das CIFS und NFS bedient (Netapp).
Die unabhängigen Software-Hersteller (ISV) sind mit Sicherheit nicht davon angetan noch drei weitere Baustellen bei der Datenarchivierung betreuen zu sollen. Angesichts von Verfahrensweisen, die für 50 und mehr Jahre Bestand haben soll, ist übereifriges Handeln wenig sinnvoll. Unterdessen werden schon erste Stimmen laut, die die Nützlichkeit eines Content Addressed Storage (CAS) mit herstellerspezifischen Schnittstellen anzweifeln und die stattdessen eine Begriffsmigration hin zu Content Aware Storage vorantreiben.
Zu wenig Fingerspitzengefühl
Angriffspunkt auf die ab und zu als Black-box bezeichneten CAS-Systeme sind zum Einen die Hash-Algorithmen, der Fingerabdruck einer Datei, die EMC bei der Einführung des CAS-Systems Centera mit 128 Bit festgelegt hat. Die Forderungen von Teilen der Branche nach einem 512-Bit-Schlüssel müssten insofern erst einmal von der SNIA in den XAM-Standard aufgenommen werden. Und zum anderen die Transfergeschwindigkeiten zwischen heterogenen Archiv-Speichern bei einer notwendigen Migration, die mit wachsenden Terabyte-Datenbeständen schon heute in Monaten gemessen werden müssen.
Bei Hewlett-Packard ist indes die Idee der „objektorientierten“ Speicherung hängen geblieben. Die Zusammenfassung von Zehntausenden kleinen Records in File-Containern praktizieren ECM-Hersteller eigentlich schon seit vielen Jahren, da die Datensicherung sonst nicht mehr möglich wäre. Die File-Container ähneln komprimierten ZIP-Files und können Block- und File-Daten enthalten. Die Portabilität wäre im Hintergrund per Xcopy-Befehl von einem Speicherarray auf ein anderes ohne große Eingriffe möglich. Nur der Zeitstempel des File-Containers wäre am Ziel durchzuführen.
Gut erzogene Anwender
So lange sich die Großen der Branche in ihrer Uneinigkeit einig sind, üben sich fast alle ISVs  in vornehmer Zurückhaltung und setzen erstmal weiterhin auf die bewährten Netzwerk-Protokolle CIFS und NFS, auch wenn ein API Geschwindigkeitsvorteile hätte. Eine Filesystem-Schnittstelle gilt auch vielen Anwendern als langfristig offener Weg, um selbst zwischen unterschiedlichen Systemen Daten austauschen zu können.
Mit dieser Einstellung wähnen sich Anwender auf der richtigen Seite. Andererseits zeigt das auch, wie gut die Speicherbranche ihre archivierenden Kunden erzogen hat. Die mussten sich in langen Jahren daran gewöhnen, dass die Bandlaufwerke nur zwei Generationen rückwärts lesen können. Das heißt, die Laufwerke sind nach ca. sechs Jahren zu ersetzen und damit müssen auch alle Medien umkopiert werden.
Und bei den Anwendungen und Dokumentenformaten inklusive den benötigten Betriebssystemen läuft es ähnlich, auch wenn sich durch PDF/A und offene Formate wie Docx die Lage ein wenig entspannt hat. Einige Experten prognostizieren, dass durch die ISO-Standardisierung das PDF/A-Format sehr schnell an Bedeutung gewinnt und das TIFF-Format allein schon aufgrund der Volltextrecherchemöglichkeit kurzfristig ablösen könnte. Nichtsdestotrotz wäre immer noch Microsoft rechts zu überholen.
Nicht zu vergessen sind selbstverständlich auch Firmenübernahmen und Technologiewechsel, die manch schöne Kalkulation bezüglich sicherer Archivierung zu Schande werden lassen. Man denke nur an optische Jukeboxen, die nicht nur wegen empfindlicher Robotik ins Gerede gekommen sind, sondern auch durch den Abschied von Hewlett-Packard aus dem wenig lukrativen Marktsegment. Und was aus Plasmon und anderen wird, bleibt auch abzuwarten.
 
Weitere Kapitel
© PROJECT CONSULT Unternehmensberatung GmbH 1999 - 2016 persistente URL: http://newsletter.pc.qumram-demo.ch/Content.aspx?DOC_UNID=6f65043ed71a4a3f002575a00039c7da