Metadata Standards – ein Weg zur Repository übergreifenden Suche?
von Christoph Jeggle, Seniorberater, CDIA+
Christoph.Jeggle@PROJECT-CONSULT.com
http://www.PROJECT-CONSULT.com
Christoph Jeggle ist seit 2003 Mitglied im PROJECT CONSULT Beraterteam. Metadaten sind wörtlich „Daten über Daten“. Ohne diese beschreibenden Daten wären Informationsobjekte nicht zu ordnen und wiederzufinden. Diese beschreibenden Daten müssen sorgfältig gestaltet werden, damit sie Informationsobjekte richtig und ausreichend beschreiben. Dabei spielt es zunächst überhaupt keine Rolle, ob die Informationsobjekte in physischer oder digitaler Form vorliegen und welche Systeme für die Metadaten verwendet werden. Auch ein sortiertes Karteikartensystem stellt ein Metadaten System dar.
Was aber nützen ausgefeilteste Metadaten-Strukturen, die innerhalb eines einzigen Repository ausreichende Such- und Ordnungskriterien bieten, aber nutzlos werden, sobald auf Informationsobjekte aus mehr als einem Repository zugegriffen werden muss. Diese Situation ist im Bereich von Bibliotheken inzwischen üblich, wird aber zunehmend relevanter auch für Repositories in anderen Bereichen. Unternehmen, die sich zusammenschließen, bringen fast immer ihre jeweils eigene Metadaten-Methodik mit, die dazu noch in verschiedenen Systemen implementiert ist. Systemwechsel führen häufig auch zu einer veränderten Metadatenstruktur. Und nicht zuletzt verändern sich Metadatenstrukturen im Laufe der Zeit und werden an neue Anforderungen angepasst. In all diesen Fällen ist es erforderlich, Metadaten unterschiedlicher Struktur gemeinsam nutzen zu können.
Dabei sind unterschiedliche Strategien möglich. In diesem Artikel werden die unterschiedlichen Arten skizziert, mit dieser Herausforderung umzugehen. Dabei zeigt die Erfahrung der Bibliotheken, dass es keinen Königsweg gibt, sondern der Weg gewählt werden muss, der der jeweiligen Herausforderung am besten entspricht.
Drei Herausforderungen für Metadatensysteme
Bevor aber die möglichen Lösungswege aufgezeichnet werden, sollte zunächst noch einmal der Blick auf die Herausforderungen gerichtet werden. Die erste Herausforderung besteht in der unterschiedlichen Strukturierung von Metadaten. Während ein Metadatensystem beispielsweise ein Informationsobjekt über den Autor, das Thema und das Erstellungsdatum erfasst, unterscheidet ein anderes Metadatensystem zwischen ursprünglichem Autor und dem verantwortlichen Bearbeiter, verwendet als Datum nicht das Erstelldatum, sondern das Datum der letzten Bearbeitung, erfasst nicht nur das Thema, sondern zusätzlich eine Liste von wichtigen Schlüsselwörtern und vergibt pro Dokument eine Nummer. Dieses einfache Beispiel zeigt bereits exemplarisch die Herausforderungen, denen die Zusammenführung unterschiedlicher Metadatenstrukturen ausgesetzt ist.
Die erste Herausforderung besteht einfach darin, dass die zweite Metadatenstruktur umfangreicher ist. Daten aus der ersten Struktur können die zweite nicht vollständig füllen. Umgekehrt müssen die Daten aus der zweiten Struktur innerhalb der ersten Struktur in einem Feld zusammengefasst werden oder verloren gehen.
Die zweite Herausforderung besteht darin, dass die Metadatenelemente, die scheinbar zueinander passen, tatsächlich eine andere Bedeutung haben. So kann das Datumelement aus der einen Struktur nicht in die andere Struktur übernommen werden, da es eine andere Bedeutung hat.
Eine weitere Herausforderung lässt sich am Metadatenelement Thema verdeutlichen. Um das Thema und den Inhalt eines Informationsobjekts sinnvoll zu beschreiben, ist es sinnvoll, einen festgelegten Wortschatz (Thesaurus) zu verwenden, damit Informationsobjekte gleichen Themas auch mit gleichen Begriffen beschrieben werden. Ist dieser Thesaurus zwischen den Metadatensystemen nicht gleich, müssen Metadaten bei der Übertragung von einem System zum nächsten „übersetzt“ werden.
Jede Lösung, die Interoperabilität zwischen den Metadatenstrukturen herstellen will, steht demnach von der Herausforderung, diese Interoperabilität auf unterschiedlichen Ebenen herstellen zu müssen. Die strukturale Interoperabilität bringt die beiden unterschiedlichen Strukturen zusammen, die semantische Interoperabilität kümmert sich darüber hinaus auch um eine Angleichung der Inhalte von Metadatenelementen (Stichwort Thesaurus). Außerdem muss sich die syntaktische Interoperabilität darum kümmern, dass die Metadatensysteme sich untereinander auf technischer Ebene verstehen. Dazu müssen technische Standards vereinbart werden. Diese beruhen häufig auf XML bzw. SGML.
Wie können nun Lösungen aussehen, die diese Interoperabilität gewährleisten?
Drei Ansätze für Interoperabilität
Grundsätzlich gibt es drei unterschiedliche Ansätze.
1. Meta-Metadatenstruktur
Der erste Ansatz geht davon aus, die unterschiedlichen Metadatenstrukturen bestehen zu lassen und eine gemeinsame dritte Metadatenstruktur aufzubauen, die für die Repository übergreifende Suche verwendet werden kann. Dieses dritte Repository ist verlinkt jeweils mit den beiden anderen Repositories. Ein solcher Katalog kann einmal erstellt und zu bestimmten festgelegten Zeitpunkten aktualisiert werden. Falls ein solcher Katalog sich aber dynamisch an die Änderungen in den zugrunde liegenden Repositories anpassen soll, ist eine „Sprache“ notwendig, mit der standardisiert die zugrunde liegenden Repositories ihre Metadaten an das übergeordnete Repository melden. Einen solchen Standard gibt es mit OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Dabei bezeichnet Harvesting das Sammeln der Metadaten in einem gemeinsamen Katalog. Dabei kann der Standard nur die syntaktische Interoperabilität sicherstellen. Die strukturale und semantische Interoperabilität bleibt trotz des Standardprotokolls eine Herausforderung.
2. Gemeinsamer Metadaten-Katalog
Der zweite Ansatz bildet keinen gemeinsamen Katalog, sondern sucht über mehrere Repositories. Auch hier gibt es, allerdings vornehmlich in der Bibliothekswelt verwendet, einen Standard, Z39.50, der eine solche übergreifende Suche ermöglicht. Dieser wird Standard wird weiterentwickelt zu ZING (Z39.50 International: Next Generation) und verwendet dann moderne Techniken wie Web Services, die über SOAP (Simple Object Access Protocol) angesprochen werden. Auch hier gilt wieder, dass die syntaktische Interoperabilität durch diesen Standard sichergestellt werden kann, aber die strukturale und semantische Interoperabilität eine Herausforderung bleibt.
3. Zusammenführung mit einheitlicher Struktur
Der dritte Ansatz besteht im Zusammenführen aller Repositories in ein einziges, das die bisherigen Repositories ersetzt. Aber auch dieser Ansatz steht vor der Herausforderung, eine struktural und semantisch korrekte Datenkonvertierung durchzuführen.
Fazit
Bleibt also nur der Weg, einen Metadaten-Standard zu entwickeln und einzusetzen? Diese Frage kann mit Nein beantwortet werden. Erstens gibt es bereits eine Menge von Metadaten-Standards wie Dublin Core, MARC, MODS, MAB, um nur einige zu nennen. Aber selbst im Bereich der Bibliotheken, in der die Verwendung dieser Standards inzwischen üblich ist, ist die Herausforderung nicht gelöst, zwischen diesen Standards eine strukturale und semantische Interoperabilität herzustellen. Selbst bei der Verwendung desselben Standards für zwei oder mehr Repositories ist damit eine semantische Interoperabilität nicht gewährleistet.
Somit bleibt nur das Fazit zu ziehen, dass die Interoperabilität von Metadatensystemen oft eine größere Herausforderung darstellt als die gemeinsame Nutzung der Informationsobjekte selbst, da durch die Verwendung von Standardformaten wie z.B. PDF zumindest die Anzeige der Objekte gewährleistet werden kann. Dieser Weg der Standardisierung bei den Metadaten erleichtert zwar manches, löst aber nicht grundsätzlich die Schwierigkeiten, die sich durch die Repository übergreifende Verwendung von Metadaten ergeben. (CJ)