Inhalt

Metadata
Newsletter	20040121
Sprache	deutsch
Version	1.0
Veröffentlicht von	NEWSLETTER\administrator
Veröffentlichungsdatum	05.10.2006 17:39:20

Archivierung ohne Referenzdatenbank

Gastbeiträge

Gastbeitrag von Wolfgang Wagner ( Wolfgang.Wagner@Sun.com ), Business-Manager Data Management Solutions, Sun Microsystems GmbH ( http://www.sun.de )

Der wichtigste Ansatz für die elektronische Archivierung und das Dokumentenmanagement basierte bisher auf einem Referenz-Datenbank-Modell. Hierbei wurden die gespeicherten Objekte indiziert und die Indizes in einer Datenbank verwaltet. Aus dieser Datenbank heraus wurde mit Pointern auf die separat gespeicherten Objekte verwiesen. Dies war besonders bei großen Daten- und Dokumentenmengen wichtig, um die operativen Systeme schlank zu halten. Dieser Architekturansatz wurde von Ulrich Kampffmeyer in der nfd, Nachrichten für Dokumentation, 47, 2/1996, ausführlich beschrieben. Zahlreiche elek-tronische Archivsysteme in Deutschland basieren immer noch auf diesem Ansatz.

Aus dem Umfeld der Speichertechnologie wurden andere Ansätze entwickelt. HSM Hierarchisches Speicher-Management sorgte mit Verdrängungs- und Migrationsstrategien für eine effiziente, kostengünstige Speicherung auf Dateisystem-Ebene. Hierbei wurden die Informationen entsprechend ihrer Nutzung und den Kosten des Speichers jeweils auf dem günstigsten Medium gehalten – aktuelle Daten auf Festplatten, historische Daten auf ausgelagerten Medien, die nicht mehr im Online-Zugriff waren.

Inzwischen haben sich die Zeiten geändert. Die Informationsmengen sind ins Unermessliche gewachsen, Rechner und Speicher immer schneller geworden und auch die Kapazitäten der Speichersysteme halten – zwar mühsam – mit der Flut der Information mit.

Mit ILM Information Lifecycle Management kam ein neuer Trend auf, der die Technologien von HSM und herkömmlicher elektronischer Archivierung zusammenführt. Hierdurch entstanden neue Architekturen für Speichersysteme und neue Lösungsansätze. Z.B. kann man Backup-, Archivierungs- und HSM-Aufgaben ohne Größenbeschränkung inzwischen auch ohne separate Index-Datenbank durchführen.

Basis ist ein „Shared File System“ unter SUN Solaris, das als SAN Storage Area Network Concurrent Read- und Write-Zugriffe auch auf große Datenmengen in verteilten Umgebungen erlaubt. Die Softwarelösung wird als SAM-FS von SUN angeboten.

Der SAM-FS-Server kann in heterogene Unternehmensnetzwerke integriert werden. Die Software stellt sich nach außen als ein Standard File System (UFS oder NFS) und damit völlig transparent dar. Applikationen die ihre Daten in Files ablegen, können damit ohne Änderung die Daten sofort archivieren. Neu erzeugte oder geänderte Files werden schnell und automatisch von Platten-Systemen auf externe Band oder WORM- Medien kopiert. Die „Volume Serial Number”, eine systeminterne Identifikationsnummer dieser Medien, wird dabei in den Metadaten, den sogenannten I-Nodes, des Files gespeichert. Damit ist sichergestellt, dass das System jederzeit weiß, wo sich die Files auf den Medien befinden. Dieser Vorgang wird „Archive” genannt. Dabei kommt ein wichtiges Kriterium zum Tragen: Auch die Metadaten (Inodes) werden in regelmäßigen, frei wählbaren Abständen gesichert.

Dieses Sichern der Master-Inode-Files führt zu einem großen Vorteil beim Desaster-Recovery: Durch das Zurückholen der kleinen Inodes im Falle eines Plattenausfalles ist das Filesystem schon nach Minuten, spätestens Stunden, wieder vollständig und online und man benötigt nicht, wie im Falle eines Standard Recoverys aus einem Backup, unter Umständen Tage.

Zur Unterstützung des gesamten Lebenszyklus von Information benötigen diese Systeme eine Reihe von Funktionen, die in herkömmlichen Archivsystemen in dieser Form nicht ausgeprägt sind.

Eine wichtige Funktion ist „Release“, die benutzt wird, um Platz für neue Dateien zur Speicherung zu schaffen. Die Speicherplatten können nach verschiedenen Kriterien geleert werden. Dabei stehen unterschiedliche Parameter aber auch transaktionsgesteuerte Regeln zur Verfügung, die z.B. eine Information erst dann löschen, wenn sie auf einem sicheren Medium archiviert wurde.

Eine andere Funktion, “Stage”, wird benutzt, um ausgelagerte Daten, die auf “Nearline”- oder “Offline“-Medien gespeichert sind wieder online auf dem System verfügbar zu machen. Dies geschieht automatisch, wenn eine Anfrage eingeht, kann aber auch vom Administrator rechtzeitig eingeleitet werden, wenn man bestimmte Daten z. B. am nächsten Arbeitstag definitiv online benötigt. Zur Umgehung von Wartezeiten bei Daten, die besonders schnell wieder in der Applikation gebraucht werden, stehen sogenannte “Bypass”-Funktionen zur Verfügung. Sie laden die Daten direkt vom Medium in die Applikation ohne ein zusätzliches, zeitraubendes Caching.

“Recycle”-Funktionen dienen dazu, automatisiert und systemintern den Füllgrad von Medien zu prüfen und zu optimieren. Hierbei werden die Dichte, die Datenorganisation, das Alter der Daten und viele andere Kriterien benutzt, um eine möglichst optimale Speicherausnutzung zu erreichen. Dies bedeutet, dass regelmäßig geprüft wird, ob Lücken oder zu viele passive Daten auf den Medien zu finden sind. Ist dies der Fall, werden die Medien sinnvoll zusammengeführt und frei werdende Medien wieder neu zur Verfügung gestellt. Diese Funktion dient auch dazu, eine hohe Performance im System sicherzustellen.

Das Lifecycle-Management wird durch Regelwerke im System abgebildet. Solche Regeln werden Policies genannt. Sie bestimmen Speicherort, Speicherdauer, Schutz und Löschung von Informationen. Die Software steuert selbständig alle angeschlossenen Bandspeichersysteme (Tape-Libraries und -Roboter), Jukeboxen (z.B. MO-Changer) oder Plattensysteme (z.B. RAID). Es ist keine zusätzliche Steuersoftware aus einem Backup-Tool oder einem herkömmlichen Archivsystem notwendig.

An den Dateien, die in die Software geschrieben werden, wird nichts geändert. Somit gibt es auch kein proprietäres Format und keine aufwendige Konvertierung. Große Dateien (Video-Files, CAD-Projekte o. ä.) können parallel über mehrere Medien geschrieben werden, in dem man sie segmentiert. Dabei entstehen gleich große Stücke, die man auch wieder sehr schnell zurückholen kann. Blockorientiertes Arbeiten holt zunächst die ersten Blöcke zurück. Sind diese da, beginnt man sofort zu arbeiten und im Hintergrund wird der Rest des Files zurückgeholt, ohne dass man es merkt. Segmentierung und Blockorientierung führen auch dazu, dass beim erneuten Schreiben einer Datei nur die Blöcke/Segmente neu geschrieben werden, die auch verändert wurden. Ein weiterer Vorteil, der sich in einer besseren Performance niederschlägt.

Für die echte Langzeitarchivierung ist es wichtig, dass man auch automatische Migrationsverfahren zur Verfügung stellt. Bei Bedarf wird die Policy geändert und im laufenden Betrieb werden dann die entsprechenden Daten im Hintergrund automatisch auf neue Speichermedien (Bänder, WORM-Technologie oder Medien, die wir in Zukunft zur Verfügung haben werden) kopiert, ohne Belastung von Nutzern bzw. Administratoren.

Eine wichtige Funktion im ILM Information Lifecycle Management ist die selbständige Überprüfung auf Qualität der Medien und Lesbarkeit der gespeicherten Informationen. Wenn die Gefahr eines möglichen Datenverlustes erkannt wird, wird das Medium vorsorglich auf ein neues kopiert und das defekte als defekt gekennzeichnet, um aus dem Speichersystem entfernt werden zu können. Dies betrifft vor allem MO-, CD-, Tape und andere Wechselmedien.

Der hier beschriebene, mit SAM-FS umgesetzte Ansatz ist nicht neu. Die Softwarearchitektur wurde zwischen 1993 und 1995 entwickelt. Zahlreiche Anwender setzen diese Systeme bereits ein, ohne dass die Bedeutung als Alternative für die herkömmliche Archivierung bereits erkannt worden ist. Zudem darf man auch nicht vergessen, dass solche betriebssystemnahen Speicherverwaltungslösungen natürlich auch mit herkömmlichen Archivsystemen perfekt zusammenarbeiten. Der Endanwender hat so alle Freiheit, sich eine optimale, seinen Anforderungen entsprechende Speicher- und Archivierungslösung zu gestalten.

Anmerkung der Redaktion: Gastbeiträge stellen die Meinung des jeweiligen Verfassers dar.