Archiv


Die digitale Puzzle-Lösung

Das Stasi-Erbe der DDR ist keinesfalls historisch ad acta gelegt. Neben den vollständig erhaltenen Akten, die in der Wendezeit von Bürgerrechtsbewegungen aus dem Amt Erich Mielkes gerettet wurden, existiert auch noch ein eindrucksvoller Berg an zerrissenen Akten – schätzungsweise vierzig Millionen -, schön ordentlich in Säcke verpackt. Gerade mal die Rekonstruktion des Inhalts von 250 Säcken wurde bisher erfolgreich abgeschlossen. Weitere 16000 Säcke harren ihrer weiteren Bearbeitung. Jetzt wollen sich das Fraunhofer-Institut für Produktionsanlagen und Konstruktionstechnik sowie eine Tochterfirma der Lufthansa daran machen, dieses fragmentierte Erbe mit digitalen Mitteln zu bewältigen. Doch die letzte Entscheidung hierzu steht noch aus.

Wolfgang Neuhaus |
    Es ist eine paradoxe Geschichte. Da werden in den Wirren der Wende 1990 Millionen von Akten von Hand zerrissen, da die verfügbaren Schredder-Maschinen aus der DDR der Belastung nicht gewachsen sind. Zum Glück, könnte man sagen, denn der Umstand, dass die Papierseiten nicht vollständig beseitigt wurden, macht es heute denkbar, in einem aufwändigen technischen Projekt die vielen Millionen Papierschnipsel maschinell zu erfassen und wieder als Seite einer Akte sichtbar zu machen. Schätzungsweise vierzigtausend Einzelschnipsel pro Sack müssen zugeordnet werden. Bislang wurde einzig eine Machbarkeitsstudie abgeschlossen. Der Prozess dieser maschinellen Rekonstruktion wird über mehrere Stationen laufen. Zuerst werden die Schnipsel mit einer patentierten Folier-Maschine in Folie eingeschweißt – um sie als Vorlage zu glätten -, und in einem zweiten Schritt mit einem Hochleistungsscanner, der 10000 Seiten pro Stunde schafft, von beiden Seiten digitalisiert. Diese Aufgaben übernimmt die Gesellschaft für beleglose Dokumentenbearbeitung als Projektpartner, eine Tochterfirma der Lufthansa. Der entscheidende Schritt vor der abschließenden Archivierung der digital zusammengesetzten Seiten ist ihre Rekonstruktion im Computer.

    Am Fraunhofer-Institut für Produktionsanlagen und Konstruktionstechnik (IPK) in Berlin wird an dem Prototyp einer Erkennungssoftware gearbeitet, die diese Funktion erfüllen soll. Das Programm erfasst die Umrisse der Schnipsel vor neutralem Bildschirmhintergrund und berechnet eine Reihe von Merkmalen, die sie als Papierstücke beschreiben. Zuallererst Formen und Konturen, was jeder Puzzle-Spieler aus seiner Beschäftigung kennt. Aber die große Zahl der gescannten Einzelobjekte verlangt eine größere Zahl von Merkmalen zu ihrer Beschreibung: da wären die Papierfarbe, die Oberflächenbeschaffenheit des Papiers, die Linierung, das Schriftbild. Diese Merkmale werden zu einem Parametersatz in einer Datei zusammengefasst. Das Programm sucht dann nach Beziehungen zwischen diesen Daten, bringt sie zur Übereinstimmung und setzt das Dokument automatisch zusammen. Um diesen Vorgang zu optimieren, wird schrittweise nach verschiedenen Merkmalen gesucht, um den Suchraum zu reduzieren. Dieser Prozess soll zudem je nach Bedarf auf ein Netz von Rechnern verteilt werden. Die beteiligten Forscher gehen hierbei von hundert handelsüblichen PCs aus, die zum Einsatz kommen werden, sodass eine regelrechte Puzzle-Fabrik entstehen wird. Die Forscher hoffen, mit dieser den Schnipselberg aus vierzig Millionen Akten in fünf Jahren zum größten Teil abarbeiten zu können. Zu diesen formalen Kriterien kommen inhaltliche hinzu, die den Gebrauch von Zeichen auf einem Papierstück erfassen. Dazu Bertram Nickolay, Leiter der Abteilung Sicherheitstechnische Erkennungssysteme des IPK:

    Wir haben hier in dieser Abteilung auch Programme entwickelt, die in der Lage sind, beliebige alphanumerische Zeichen, Logos zu interpretieren, auch hin zur Interpretation von Stempelabdrücken. Solche Merkmale werden in einem abschließenden Schritt dazugenommen, um wirklich eine klare Zuordnung zu erzielen.

    Das IPK verfügt über langjährige Erfahrung der visuellen Prüfung der Oberflächenbeschaffenheit von Materialien und favorisiert deshalb das Merkmal Papier bei der Suche. So kann seine Oberflächenstruktur zum Beispiel über die Verteilung der Grauwerte beschrieben werden. Forscher aus dem Osten Deutschlands, die heute am IPK arbeiten, haben zu Testzwecken Papier aus verschiedenen Jahrzehnten der DDR zur Verfügung stellen können. Solche Verfahren der automatischen Bildauswertung stehen vor einigen Problemen. Beispielsweise entstehen beim Zerreisen von Papier Schereffekte, das heißt, es kommt zu einem Ausfransen der Ränder, das jeweils anders aussieht, aber vom Programm doch als ein solcher Effekt erkannt werden muss. Selbstlernende Systeme sollen hier Abhilfe schaffen.

    Überall, wo man komplexe Merkmalssätze, Parametersätze hat, braucht man so genannte Klassifikatoren, das heißt, Programme, die diese Merkmale bewerten, vergleichen, wie denn Merkmale zusammengehören. Und diese Klassifikatoren haben ein lernfähiges Verhalten – sie basieren auf so genannten neuronalen Netzen. Wir haben auch bereits in unserem Konzept berücksichtigt, dass das gesamte System natürlich, je mehr Schnipsel verarbeitet werden, auch weitere Besonderheiten lernt, die auch in den Verfahrensablauf mit integriert werden.

    Nicolay sieht das Projekt als weltweit einmalige technische Entwicklung mit weitreichender Bedeutung. Durch die Hintertür taucht der schon etwas angestaubte Begriff der Büroautomation wieder auf. Techniken der Dokumentenverarbeitung und -interpretation werden hier entwickelt, die dazu beitragen könnten, eines Tages auch den herkömmlichen Aktenberg aus Amtsstuben und Büros in ein digitales Archiv zu überführen.