20021119 \  In der Diskussion \  Flaschenhals
Flaschenhals
Der Flaschenhals aller DRT-Lösungen, die sich mit unstrukturierten oder schwach strukturierten Informationen, landläufig Dokumente genannt, auseinandersetzen, ist immer noch die inhaltliche Erschließung. Das manuelle Indizieren von gescannten oder mittels Fax erhaltenem Schriftgut stellt ist immer noch einer der wichtigsten Engpässe dar. Aber auch für digital bereits vorliegende Information werden intelligente Methoden der Auswertung benötigt. Ziel ist es, Information zu indizieren, zu klassifizieren und zu ordnen. Jede dieser drei Formen der Attributierung dient unterschiedlichen Zwecken. Die Indizierung wird benutzt, um einzelne Objekte wiederauffindbar zu machen, die Klassifizierung um sie inhaltlich zu bewerten und zu erschließen, die Ordnung um Informationen im Sachzusammenhang zu visualisieren. Alle drei Ziele werden unter dem Übergriff Indizieren oder Attributieren zusammengefasst. Dabei geht es darum, einer Information Meta-Daten für ihre Verwaltung und Wiederauffindbarkeit mitzugeben. Jede Die manuelle Attributierung ist aufwendig und fehlerträchtig. Dies zeigt sich besonders beim Scannen. Im Prinzip muss das Dokument mit seinen formalen, inhaltlichen und zuordnenden Merkmalen beschrieben werden. Je mehr Information erfasst werden muss, um so aufwendiger ist das Verfahren. Beim Design einer Lösung muss man daher einen „goldenen Mittelweg“ finden, um ausreichend, aber nicht zu viel und nicht zu wenig Information zu gewinnen. Dies ist nicht nur eine Frage des Speicherplatzes und der Performance, sondern besonders eine Frage der vorgesehenen Nutzung der Information. Beim Scannen kann man heute mittels OCR/ICR-Technologien das Dokument in einen auswertbaren Datensatz wandeln, diesen gegen vorhandene Daten prüfen und selbstlernend oder nach Regeln klassifizieren. Hieraus lassen sich die Meta-Daten und die Einträge für die Verwaltungsdatenbank generieren. Jedoch muss festgehalten werden, dass die erste Generation der Werkzeuge zur automatischen Klassifikation den Anforderungen eines realen Betriebes kaum gerecht wurden. Regelbasierte Systeme, die gegen gesicherte Daten prüfen konnten, waren hier deutlich im Vorteil. Inzwischen sind die zweite Generation von Klassifikationstools und deutlich verbesserte OCR-Programme verfügbar. Nicht nur für strukturiertes Schriftgut für Vordrucke sondern auch für individuelle Dokumente lassen sich inzwischen performante, hochqualitative Lösungen finden. Klassifikationsverfahren lassen sich auch zur Auswertung vorhandener Daten und Dateien einsetzen, so z.B. auch zur Generierung von Abstracts und zum Vorschlag von Indexmerkmalen bei der manuellen Indizierung von Office-Dokumenten. Für den Anwender ist es letztlich immer eine Frage des Abwägens, ob er den Algorithmen vertraut und auf eine vollständig automatisierte Indizierung setzt oder die Automatismen nur zur Unter-stützung manueller Attributierungsprozesse nutzen will. Aber auch die Automatisierung der Erfassung enthebt den Anwender nicht der Schaffung von Ordnungskriterien und Meta-Daten. Allein auf die automatische Klassifikation und intelligente Suchmaschinen zu vertrauen kann sich sehr schnell zum Irrweg entwickeln. Spätestens wenn es um den Dokumenten- oder Aktenaustausch geht, müssen einheitliche Meta-Daten und Strukturen definiert werden. Die Zukunft wird sicher in der Kombination der Ansätze der automatischen Klassifikation, Abgleich  mit vorhanden Daten und Nutzung von strukturierten Ablagesystematiken liegen. Neue Herausforderungen kommen besonders in Europa durch die Anforderung an eine multilinguale Erschließung hinzu. Angesichts der inzwischen zahlreich verfügbaren Ansätze zur verbesserten Erfassung und Indizierung von Daten und Dokumenten bleibt jedoch häufig eine große Frage unbeantwortet – wozu benötigt man all die Informationen. Eine Aufgabe der Indizierung ist es, den Zugriff auf genau die benötigte Information sicherzustellen, die Spreu vom Weizen zu trennen. Bevor man sich also über Indizierung und inhaltliche Erschließung Gedanken macht, sollte man zunächst sich generell mit der Frage beschäftigen, was ist überhaupt archivierungspflichtig oder archivierungswürdig. Wir betreiben schließlich die elektronische Archivierung nicht um des Archivierens willen, sondern um die Information zu nutzen. Viele Probleme der Massenerfassung von Informationen lassen sich bereits dadurch reduzieren, in dem man im Vorwege aussondert, den Umfang der zu speichernden Dokumente reduziert, Unwichtiges und Irrelevantes weglässt. Es ist zwar häufig schwer, diese Entscheidung im Vorwege zu treffen, es ist aber sinnvoller dies zu tun, als sich die Archive „vollzumüllen“. Geht man unter diesen Gesichtspunkten an ein wie immer geartetes Content-, Archiv-, Dokumenten- oder Records-Management-Projekt heran, wird deutlich, dass auch bei immer besserer Technik die organisatorische Herausforderung bleibt – Struktur und Ordnung in die Informationsbasen zu bringen. (Kff)
© PROJECT CONSULT Unternehmensberatung GmbH 1999 - 2016 persistente URL: http://newsletter.pc.qumram-demo.ch/Content.aspx?DOC_UNID=4957838e5c8246af002571e9003dff96