20050624 \  Artikel \  Open Source Software in der Archivierung (Teil 2)
Open Source Software in der Archivierung (Teil 2)
von Christoph Jeggle, PMP, E-Mail: Christoph.Jeggle@PROJECT-CONSULT.com. Christoph Jeggle ist Seniorberater bei PROJECT CONSULT. Teil 1 des Artikels erschien im Newsletter 20050531Newsletter 20050531.
In der letzten Ausgabe des PROJECT CONSULT Newsletter wurden bereits zwei Open Source Produkte aus dem Bereich der Archivierung behandelt: Fedora und DSpace. In dieser Ausgabe werden wir uns nun mit zwei weiteren Produkten, CDSware und EPrints, näher beschäftigen.
Wie die zuvor behandelten Produkte sind beide ebenfalls OAI PMH kompatibel. Zur Erinnerung: Bei OAI PMH handelt es sich um das Open Archive Initiative Protocol for Metadata Harvesting, das es ermöglicht, die Metadaten unterschiedlicher Archive in ein gemeinsames Verzeichnis holen zu können. Es ist keine Abfragesprache, sondern ein Protokoll zur Bildung archivübergreifender Verzeichnisse.
CDSware
CDSware (http://cdsware.cern.ch) bedeutet CERN Document Server Software und ist tatsächlich eine Entwicklung der Europäischen Organisation für nukleare Forschung. Gegründet worden ist die Organisation allerdings als "Conseil Européen pour la Recherche Nucléaire", daher die Abkürzung CERN. Genauer beschrieben wird die Tätigkeit des CERN  durch die Bezeichnung als Europäischen Laboratorium für Teilchenphysik.
Bekannt geworden ist das CERN auch dadurch, dass Tim Berners-Lee und ein kleines Team am CERN das World Wide Web entwickelt haben.
CDSware ist am CERN für den eigenen Bedarf entwickelt worden und unter der GNU General Public Licence (GPL) als freie Software veröffentlicht worden. Es steht damit auch anderen zur Installation und Benutzung einschließlich Sourcecode zur Verfügung. Am CERN wird CDSware als Online-Katalog von Veröffentlichungen unterschiedlicher Art verwendet und umfasst über 650.000 Einträge mit 320.000 Volltext Dokumenten. Der CERN Document Server ist öffentlich und kann unter der Adresse http://cds.cern.ch erreicht werden.
Dort sind dann auch die wesentlichen Features dieses Dokumenten Servers zu erkennen. Er stellt zunächst einmal eine portalähnliche Benutzerschnittstelle im Webbrowser zur Verfügung, Die Ähnlichkeit zu einem Portal ergibt sich auch durch die Möglichkeit der Personalisierung und der Abspeicherung von ausgewählten Dokumenteinträgen in benutzerspezifischen „Dokumentkörben“. Dieses Portal dient auch als Eingabeplattform für eine leistungsstarke Suchmaschine, die den Katalog der verwalteten Dokumente durchsucht. Die Suchsyntax ist der von Google ähnlich. Sowohl die Suche nach einzelnen Feldern als auch die Volltextsuche ist möglich.
Über die Benutzerschnittstelle ist es ebenfalls möglich, mit der entsprechenden Authentifizierung und Autorisierung Dokumente und ihre Metadaten in das System einzustellen.
Technisch gesehen basiert CDSware auf einem UNIX oder Linux System mit einem Apache Webserver und einer MySQL Datenbank. PHP und Python Unterstützung für den Apache Webserver muss mitinstalliert werden. Insgesamt ist die Installation nicht ganz einfach, da sie nicht durch ein Installationsprogramm unterstützt wird, sondern manuell Schritt für Schritt durchgeführt werden muss. Dabei sind die Schritte aber ausreichend dokumentiert. Einige Komponenten müssen eine bestimmte Version haben (z.B. das Python Modul für MySQL), was nicht unbedingt die neueste Version bedeutet. Das kann bei neueren Linux Distributionen zu allerdings lösbaren Komplikationen durch die Installation von älteren Komponenten führen.
Einen Blick sollten wir im Zusammenhang mit CDSware noch auf das Format der Metadaten werfen. CDSware verwendet MARC 21. MARC steht dabei für Machine-Readable Cataloging. MARC 21 ist 1999 aus unterschiedlichen MARC Standards hervorgegangen und beschreibt ein maschinenlesbares Austauschformat. Das Format gliedert den Datensatz in den Leader, der bei der Verwendung von MARC 21 im bibliografischen Bereich allgemeine Angaben zur Art des erfassten Dokumentes oder der erfassten Daten macht, das Directory, das einen Index der verwendeten Felder einschließlich Feldkennung, Feldlänge und Position im Datensatz, und die eigentlichen Felder. Alle Elemente sind durch im Standard festgelegte Codes gekennzeichnet. Diese Codes können auch bei der Suche in CDSware eingesetzt werden, um die Suche näher einzugrenzen.
CDSware stellt ein vollständiges System für die Verwaltung bibliografischer Informationen einschließlich der dazugehörigen Dokumente dar. Es kann durch Module erweitert werden, wie es beim CERN Dokumenten Server zu sehen ist. Dort ist ein Konvertierungsmodul eingebunden, um Datenformate ändern zu können.
EPrints
EPrints (http://www.eprints.org) ist eine Entwicklung eines kleinen Teams an der Universität von Southampton. Die Codierung selbst wird im Wesentlichen von einem Entwickler geleistet. Das Projekt ist Teil des Open Citation Project, einem DLI2 International Digital Libraries Project unterstützt vom  Joint Information Systems Committee (JISC) in Großbritannien. Zurzeit wird die Software in 161 Archiven eingesetzt.
Die Idee hinter diesem Projekt ist es, Forschern die Veröffentlichung ihrer Dokumente so einfach wie möglich zu machen. Dieses Konzept wird Self-Archiving genannt und meint im Grunde die Möglichkeit, über ein Web-Interface Dokumente selbst in das Archiv einstellen zu können.
Entsprechende Features werden bereitgestellt.
   
 ·
 Es ist möglich, unterschiedliche Dokumentenformate im System zu speichern. Ein Dokument kann gleichzeitig in unterschiedlichen Formaten abgelegt werden.
 ·
Die Metadatenstruktur ist sehr flexibel. Es wird ein Pool von Metadatenattributen definiert, die dann einem oder mehreren Dokumententypen zugewiesen werden. Gleichzeitig ist es möglich eine Hierarchie von Themen (subjects) aufzubauen, unter denen Dokumente gefunden werden können. Für jedes Attribut kann entschieden werden, ob es verpflichtend ist und ob es für den OAI PMH Zugriff sichtbar ist.
 ·
Das Einstellen von Dokumenten geschieht über das Webinterface. Es ist auch möglich, Dokumente als ZIP-Archiv im Bündel zu übergeben. Eine weitere Option ist die Übergabe von Dokumenten als Link. Über diesen Link holt EPrints dann das Dokument in das Archiv.
 ·
Routinen, die die Datenintegrität sicherstellen, sind als Vorgabe bereits vorhanden, können aber angepasst und erweitert werden.
 ·
Das Einstellen von Dokumenten kann durch einen Freigabeprozess erweitert werden
 ·
Benachrichtigungen über neue Dokumente aus zuvor definierten Bereichen können per E-Mail zugestellt werden (subscription).
Ein Demonstrationsarchiv unter http://demoprints.eprints.org bietet die Möglichkeit, sich das System anzuschauen
Technisch basiert EPrints auf UNIX/Linux Systemen mit Apache als Webserver und MySQL als Datenbank. Die Programmierung erfolgt in Perl. Die Installation ist relativ komfortabel, da sie umfassend durch Skripte unterstützt wird.
EPrints wird veröffentlicht als freie Software und ist Teil des GNU Projektes (http://www.gnu.org).
Wie bereits CDSware und DSpace stellt auch EPrints ein System dar, das nach der Installation und Konfiguration sofort verwendet werden kann. Der Schwerpunkt liegt hier in der möglichst komfortablen Möglichkeit, Dokumente in das System einzustellen.
Zusammenfassung
Alle vier Produkte, die unter dem Begriff Archiv als Open Source Software veröffentlicht werden, kommen aus dem Bereich der Forschung und Lehre. Ihr Ziel ist es, eine Plattform zu bieten, um Dokumente beliebiger Art ablegen und sie dabei sinnvoll mit Metadaten versehen zu können. Die Flexibilität der Metadatenstruktur ist unterschiedlich. Während DSpace weitgehend nur auf dem Dublin Core beruht, können EPrints und CDSware erweitert werden. Besondere Stärken hinsichtlich der Metadaten zeigt Fedora, das zwar in seinem Grundindex auch auf dem Dublin Core beruht, aber über die RDF konforme Kowari Datenbank gerade im Bereich der Verknüpfung von Objekten sehr flexibel ist.
Fedora hat eine Sonderstellung in der Reihe der vorgestellten Archive, da die Software eine Webservice Schnittstelle zur Konvertierung und Bearbeitung der Inhalte beim Aufruf bietet. Allerdings ist Fedora auch das einzige Produkt in dieser Reihe, das eigentlich nur eine Infrastruktur und keine gebrauchsfertige Applikation bietet.
Allen Produkten ist gemeinsam, dass der Begriff Archiv hier nicht im Sinne von revisionssicherer Archivierung verwendet wird. Die Speicherung der Daten geschieht standardmäßig in Verzeichnissen auf lokalen oder im Netz verfügbaren Laufwerken. Eine Unterstützung von optischen Medien oder gar Jukeboxen ist standardmäßig nicht vorgesehen. Technisch wird es aber bei allen Produkten Möglichkeiten geben, das durch proprietäre Produkte aus dem Storagebereich zu ergänzen.
Alle vier Produkte stellen brauchbare Open Source Alternativen bei Aufgabenstellungen aus dem Bereich der Dokumentenablage und –veröffentlichung dar. Bei allen Produkten, auch denen, die relativ gebrauchsfertig installiert werden, darf der Aufwand zur Anpassung und Anbindung an bestehende Systeme nicht unterschätzt werden. Bei den Anpassungsarbeiten ist sehr sorgfältig vorzugehen, damit mit dem nächsten Update diese Arbeiten nicht hinfällig geworden sind.
Weitere Kapitel
© PROJECT CONSULT Unternehmensberatung GmbH 1999 - 2016 persistente URL: http://newsletter.pc.qumram-demo.ch/Content.aspx?DOC_UNID=de6ec7479a7c4cc9002571e9005096f0