Artikel von Thomas Zellmann, Gesellschafter der LuraTech Europe GmbH und Vorstandsvorsitzender des PDF/A Comptence Center. E-Mail: t.zellmann@luratech.com Mit viel Interesse habe ich in Ihrem PROJECT CONSULT Newsletter (z.B. Ausgaben 20070917, Seite 11; 20070131, Seite 9; 20030306, Seite 9) die Kommentare verfolgt, in denen Sie grundsätzlich hinterfragen, ob man denn so viel „Wind“ um den PDF/A Standard und das PDF/A Competence Center machen sollte. Schließlich sei PDF/A ja nur ein minimaler Teil eines ECM-Systems. Mir fällt dabei immer eine circa 200-seitige Ausschreibung einer nicht ganz kleinen deutschen Behörde ein, in der das Thema Archivformate nur eine halbe Seite beanspruchte. Ich vergleiche ein ECM-System ganz gerne mit einem Haus, und da bilden Dokumentformate das Fundament, auf dem das gesamte ECM-Haus stehen muss. Deshalb ist es auch so wichtig, hier eine fundierte Entscheidung zu treffen. Und aus Sicht des PDF/A Competence Center kann eine solche nur positiv für PDF/A ausfallen, weshalb auch entsprechender „Wind“ gemacht werden muss.
Denn mit PDF/A als ISO-Standard für die Langzeitarchivierung haben Unternehmen und Verwaltungen die Sicherheit, dass ihre Dokumente langfristig lesbar erhalten bleiben. Sie entsprechen somit gesetzlichen Anforderungen und haben gleichzeitig die Sicherheit, dass digital abgelegte Informationen über Jahrzehnte hinweg verfügbar bleiben. Nehmen wir mal die Banken und Versicherungen, die als Vorreiter bei der Nutzung von elektronischen Dokumentensystemen gelten. Sie verwalten und archivieren ihre gescannten Briefe, ausgefüllte Formulare, Bilder von Schäden und Verträge digital. Dementsprechend besteht eine digitale Kundenakte aus zahlreichen Dateien mit unterschiedlichen Formaten. Man kann quasi von einem Format-Zoo sprechen. Die Konsequenz: Sachbearbeiter, die eine Kundenakte mit Fotos, E-Mails, Formularen und Anschreiben durchsehen wollen, müssen umständlich zwischen verschiedenen Viewern hin- und herschalten. Zusätzlich stellt sich hier die Frage, wie lange beispielsweise ein Word-Dokument oder eine Excel-Kalkulation noch lesbar ist. Wenn man bedenkt, dass die Aufbewahrungspflicht für eine Kredit- oder Versicherungsakte mindestens fünfzig oder mehr Jahre beträgt, wobei das Papier in der Regel vernichtet wird und somit nur noch eine digitale Kopie existiert, dann muss die zukünftige Lesbarkeit sichergestellt sein.
Woher kommt PDF/A und was sind seine speziellen Eigenschaften?
Beschäftigen wir uns zunächst mit der Frage, woher PDF/A eigentlich kommt. PDF ist in der Geschäftswelt ein äußerst beliebtes Datenformat. Um zu verhindern, dass Unternehmen für die Langzeitarchivierung eigene Unterdialekte von PDF erzeugen, war ein Standard notwendig. Dieser sollte sicherstellen, dass PDF-Dokumente langfristig lesbar erhalten bleiben. Mit anderen Worten: Es bestand Bedarf nach einem „guten PDF-Format”:
Die Initiative für ein solches “gutes PDF-Format” kam von dem internationalen Anwenderverband AIIM (Enterprise Content Management Association) und der NPES (National Printing Equipment Association, die sich inzwischen als Association for Suppliers of Printing, Publishing, and Converting Technologies beschreibt). Sie haben bereits im Oktober 2002 eine Arbeitsgruppe ins Leben gerufen. Diese Arbeitsgruppe setzte sich aus Vertretern der Forschung, der öffentlichen Hand und der Wirtschaft zusammen. Dazu zählen Adobe, Appligent, EMC, Global Graphics, die Harvard Universität, IBM, das nationale Staatsarchiv der USA NARA, die Library of Congress, Merck & Co., das Patent- und Markenamt der USA, PDF Sages und US-Gerichte. Einige der Spezialisten waren bereits bei der ersten PDF-Standardisierung, dem PDF/X-Format beteiligt. Dieses dient zum Austausch von Druck- und Anzeigendaten in der Verlagsindustrie. Aus dieser Arbeitsgruppe entstand sehr bald das PDF/A-Normungskomitee in der ISO (ISO TC 171). Hierdurch kamen Vertreter nationaler Normungsinstitute in der Folge zum PDF/A-Normungsgremium dazu.
Die Standardisierung erfolgte auf Basis fundamentaler Ansprüche an ein Dateiformat für die Langzeitarchivierung. Daraus resultierten die speziellen Eigenschaften, über die das Format heute verfügt.
Dazu zählen:
| | |
| · | Geräte-, Software- und Versionsunabhängigkeit, so dass die Inhalte immer gleich dargestellt werden. |
| · | „Self Contained“, beinhaltet alle Komponenten, die zur Darstellung nötig sind, in der Datei. |
| · | „Self Documented“, die Dateien beschreiben sich inhaltlich und dokumentieren sich selbst über wiederum standardisierte Metadaten. |
| | |
| · | Transparenz, eine PDF/A-kompatible Datei ist mit einfachen Mitteln analysierbar. |
Im Herbst 2005 verabschiedete die International Organization of Standardization (ISO) PDF/A (A steht sinnigerweise für Archive) als Standard „ISO 19005-1“ für die Langzeitarchivierung. Dieser ist auf 36 Seiten mit sehr viel Technik beschrieben und kann über www.iso.org gekauft werden. Der PDF/A-Standard basiert übrigens auf der PDF Version 1.4, die Adobe im Zuge des Prozesses auch offengelegt hat. Er verbietet u.a. die Verwendung von externen Inhalten, Skripts oder Verschlüsselungen. Durch die formale Anerkennung der ISO wurde PDF vom De-facto-Standard, also aufgrund seiner häufigen Verwendung und Akzeptanz zu einem De-jure-Standard erhoben. Der PDF/A ISO Standard ist in die Level PDF/A-1a und 1b unterteilt. PDF/A-1b (Level B Conformance) beschreibt die Mindestanforderungen zur Übereinstimmung mit PDF/A. Es bildet die Basis, die von den meisten PDF/A-Produkten unterstützt wird.
PDF/A-1b stellt sicher, dass der Text (wie auch der übrige Seiteninhalt) korrekt angezeigt werden kann, garantiert aber nicht, dass der enthaltene Text auch lesbar und verständlich ist. Damit ist die Übereinstimmung mit dem Abschnitt 508 des „US Rehabilitation Act“ nicht gewährleistet.
PDF/A-1a ergänzt im Wesentlichen zwei Funktionen, nämlich die Unicode-Unterstützung und sogenanntes Tagged PDF. Tagged PDF unterstützt insbesondere die Barrierefreiheit. Es beschreibt die semantische oder logische Struktur eines PDF und stellt damit sicher, dass die natürliche Leseordnung des enthaltenen Texts erhalten bleibt.
Die Textextraktion ist vor allem dann wichtig, wenn die Dokumente beispielsweise auf mobilen Geräten (wie beispielsweise einem PDA) oder auf Geräten gemäß dem oben genannten Abschnitt 508 dargestellt werden sollen. In solchen Fällen muss der Text auf dem eingeschränkten Bildschirm neu angeordnet werden können (re-flow).
Die Praxis hat gezeigt, dass 1b für die meisten Anwendungen ausreichend ist. Im Scan- oder im Output-Bereich ist 1a nur mit sehr hohem manuellem Aufwand zu erreichen.
Die PDF-Standards
Für das PDF-Format gibt es bereits einige ISO Standards: Der älteste ist PDF/X, der für den Bereich der Druckvorstufe entwickelt wurde. PDF/E steht für Engineering und adressiert im Wesentlichen das Thema 3D. PDF/H ist kein wirklicher Standard, sondern mehr ein Best-Practice Guide für den Health Care-Bereich.
Alle PDF-Standards sind so konzipiert, dass sie miteinander kombinierbar sind. Dazu ein praktisches Beispiel: Um ein Prospekt zu entwerfen und dieses insbesondere mit Farben richtig drucken zu können, nutzt man zunächst in der Regel PDF/X. Wenn das Prospekt dann gedruckt ist und noch langzeitarchiviert werden soll, ist die Speicherung als PDF/A sinnvoll. Die vorherige PDF/X-Datei kann so entworfen werden, dass sie gleichzeitig PDF/A ist oder sehr einfach konver-tiert werden kann.
Inzwischen steht der PDF/A Standard bereits vor einer neuen Ausgabe in Form von PDF/A-2. Ein ganz wichtiger Schritt dazu erfolgte Anfang 2007, wo Adobe mit der Offenlegung von PDF 1.7 selbst die Basis für den neuen Standard als ISO 32000 einbrachte. Dieser Standardisierungs-prozess ist inzwischen erfolgreich abgeschlossen. Es fehlen lediglich die letzten formalen Schritte der ISO, so dass die endgültige Freigabe von ISO 32000 im 2. Quartal 2008 erwartet wird. ISO 32000 wird dann auch die Basis für PDF/A-2 sein, der den PDF/A-Standard noch „runder“ macht. Funktionen, die in PDF/A-2 enthalten sein werden, sind z.B. Ebenen, Transparenz und JPEG2000-Unterstützung. Hierbei handelt sich um eine normale Evolution und keine Revolution. Insbesondere ist von der ISO klar definiert, dass PDF/A-1 als Standard für die Langzeitarchivierung niemals ungültig sein wird. Unternehmen, die bereits PDF/A nutzen, sind also auf der sicheren Seite.
Wie kann der Standard genutzt werden?
Ein entscheidender Vorteil von PDF/A ist die universelle Einsatzfähigkeit. Sowohl für gescannte Dokumente als auch für vektorisierte Dateien oder Office-Dokumente und CAD-Zeichnungen lässt sich einheitlich PDF/A nutzen. Der Anwender kann sämtliche Dokumente gleich welchen Ursprungs direkt ins PDF/A-Format konvertieren und hat sie immer noch vektorisiert und trotzdem revisionssicher abgelegt. Die Ablage vektorisierter Daten erspart gegenüber in Bilddaten umgewandelten Dateien Aufwände für Schrifterkennung (OCR) und erlaubt ein originalgetreues Weiterverarbeiten von Textteilen dieser Dateien. Aufgrund dieser universellen Einsatzfähigkeit des PDF/A-Formates sowohl für Raster- als auch Vektordateien hat PDF/A ein gutes Potenzial, sich als einheitliches Archivformat für alle Materialien durchzusetzen.
Gibt es denn Alternativen zu PDF/A?
Die Welt der Dokumente lässt sich grob in zwei Hälften unterteilen:
In der ersten befinden sich all jene Dokumente, die von Papier- in digitale Dokumenten verwandelt wurden. Hier sind die – mittlerweile uralten Formate – TIFF für schwarz/weiße und JPEG für farbige Dokumente weit verbreitet. Die Vorteile von PDF/A sind jedoch so offensichtlich und überzeugend, dass inzwischen bei neuen Digitalisierungs-Projekten der Einsatz von PDF/A selbstverständlich sein sollte bzw. in den meisten Projekten heute schon ist.
In die zweite Hälfte gehören alle sogenannten „digital born“ Dokumente. Hier gehört PDF/A schon weitestgehend zu den gängigen Archivierungsformaten. So unterstützen Office-Pakete wie MS Office 2007 und jetzt auch OpenOffice bereits die Ausgabe als PDF/A-Datei.
Seit 2007 wird insbesondere bei Microsoft-Anwendern diskutiert, ob XPS eine Alternative zu PDF/A ist. XPS wurde von Microsoft mit dem Betriebssystem Vista als Output-Format eingeführt und deckt auch funktional erst mal nur diesen Bereich ab. Zunächst sei deutlich zu betonen: XPS ist kein Standard und auf die Microsoft-Plattformen beschränkt! Vista als neues Betriebssystem wird nach Aussage von Gartner erst in einigen Jahren für den produktiven Einsatz in den Unternehmen geeignet sein. Es bleibt also abzuwarten, wie XPS von den Anwendern angenommen wird und ob es sich überhaupt durchsetzt?
Beispiele aus der Praxis
Viele Kunden setzen PDF/A schon erfolgreich z.B. im Posteingang oder bei der Digitalisierung von Kredit-, Schadens- oder Personalakten ein.
Beispielsweise hat die DAK, Deutschlands zweitgrößte Krankenkasse, ihr internes Informationsarchiv auf PDF/A migriert. Zuvor bestand dies aus digitalisierten Mikrofilmen, die im TIFF-Format vorlagen. Das hatte nicht nur den Nachteil, viel Speicherplatz zu verbrauchen, sondern vor allem waren die Dateien nicht volltextfähig. Jetzt, nach der Konvertierung und Kompression von rund 300.000 Textseiten, haben die Nutzer des DAK-INFO-Dienstes direkten Zugriff auf alle gespeicherten Informationen.
Auch öffentliche Verwaltungen, wie die Stadt Erlangen, zeigen sich innovativ. Hier verwendet man PDF/A für die Langzeitarchivierung und Datenkompression von Bauakten.
Empfehlungen und Vorgaben
Mittlerweile haben zahlreiche Institutionen– auch in anderen Ländern – PDF/A anerkannt:
Österreich: Die Bundeskammer der Architekten und Ingenieurkonsulenten in Österreich verlangt für öffentliche, elektronische Urkunden die Einhaltung des Standards PDF/A-1b. Zudem wird die Echtheit aller elektronischen Dokumente, die in die Urkundensammlung des Grundbuches übernommen werden, durch eine qualifizierte digitale Signatur gewährleistet.
Norwegen: Die Norwegische Regierung hat festgelegt, dass alle Informationen, die über staatlich betriebene Websites verbreitet werden, zukünftig in offengelegten Dokumentformaten abgelegt werden sollen. Das sind etwa HTML, PDF bzw. PDF/A und ODF. PDF/A wird für Dokumente empfohlen, deren Layout verbindlich ist. Diese Vorgabe soll zum 1. Januar 2009 in Kraft treten.
Schweiz: Der Schweizerische Bundesrat setzt in einem Entwurf zur “Verordnung über die elektronische Übermittlung im Rahmen eines Verwaltungsverfahrens” auf PDF/A. In der elektro-nischen Kom-munikation zwischen Verwaltung und Bürgern soll in Zukunft – wenn es um Verfügungen geht – wegen der Vorzüge der Archivierbarkeit das Dateiformat PDF/A eingesetzt werden. Die Verordnung tritt am 1. 1. 2008 in Kraft, der Zeitrahmen für die konkrete Umsetzung liegt bei 10 Jahren.
In Deutschland strebt z.B. die Universität Potsdam an, dass künftig alle Dokumente, die auf dem eigenen Publikationsserver vorgehalten werden, in PDF/A vorliegen sollen. Dies geht aus einer Mitteilung auf der Webseite der Hochschule hervor. Hier erhalten die Anwender auch Tipps für die Erstellung von PDF/A etwa aus Word oder für die Konvertierung von LaTeX nach PDF/A. Die Deutsche Nationalbibliothek zieht PDF/A allen anderen Dateiformaten vor, wenn es um die Anlieferung von Inhalten in digitaler Form geht. Dies ist der aktuellen Präferenzregelung der Institution zu entnehmen. Auf Rang zwei steht “herkömmliches” PDF, gefolgt von HTML.
Europa: Weiterhin wird PDF/A auch in der von der Europäischen Kommission geförderten MoReq2-Richtlinie als Format für die Archivierung empfohlen.
Fazit:
Dr. Kampffmeyer hat PDF/A als „Selbstverständlichkeit“ bezeichnet und dem möchte ich mich wie folgt anschließen: Eine gute PDF/A-Unterstützung sollte heute ein Checklisten-Kriterium bei der Auswahl einer neuen ECM-Lösung sein.