Am Fraunhofer-Institut für Produktionsanlagen und Konstruktionstechnik (IPK) in Berlin wird an dem Prototyp einer Erkennungssoftware gearbeitet, die diese Funktion erfüllen soll. Das Programm erfasst die Umrisse der Schnipsel vor neutralem Bildschirmhintergrund und berechnet eine Reihe von Merkmalen, die sie als Papierstücke beschreiben. Zuallererst Formen und Konturen, was jeder Puzzle-Spieler aus seiner Beschäftigung kennt. Aber die große Zahl der gescannten Einzelobjekte verlangt eine größere Zahl von Merkmalen zu ihrer Beschreibung: da wären die Papierfarbe, die Oberflächenbeschaffenheit des Papiers, die Linierung, das Schriftbild. Diese Merkmale werden zu einem Parametersatz in einer Datei zusammengefasst. Das Programm sucht dann nach Beziehungen zwischen diesen Daten, bringt sie zur Übereinstimmung und setzt das Dokument automatisch zusammen. Um diesen Vorgang zu optimieren, wird schrittweise nach verschiedenen Merkmalen gesucht, um den Suchraum zu reduzieren. Dieser Prozess soll zudem je nach Bedarf auf ein Netz von Rechnern verteilt werden. Die beteiligten Forscher gehen hierbei von hundert handelsüblichen PCs aus, die zum Einsatz kommen werden, sodass eine regelrechte Puzzle-Fabrik entstehen wird. Die Forscher hoffen, mit dieser den Schnipselberg aus vierzig Millionen Akten in fünf Jahren zum größten Teil abarbeiten zu können. Zu diesen formalen Kriterien kommen inhaltliche hinzu, die den Gebrauch von Zeichen auf einem Papierstück erfassen. Dazu Bertram Nickolay, Leiter der Abteilung Sicherheitstechnische Erkennungssysteme des IPK:
Wir haben hier in dieser Abteilung auch Programme entwickelt, die in der Lage sind, beliebige alphanumerische Zeichen, Logos zu interpretieren, auch hin zur Interpretation von Stempelabdrücken. Solche Merkmale werden in einem abschließenden Schritt dazugenommen, um wirklich eine klare Zuordnung zu erzielen.
Das IPK verfügt über langjährige Erfahrung der visuellen Prüfung der Oberflächenbeschaffenheit von Materialien und favorisiert deshalb das Merkmal Papier bei der Suche. So kann seine Oberflächenstruktur zum Beispiel über die Verteilung der Grauwerte beschrieben werden. Forscher aus dem Osten Deutschlands, die heute am IPK arbeiten, haben zu Testzwecken Papier aus verschiedenen Jahrzehnten der DDR zur Verfügung stellen können. Solche Verfahren der automatischen Bildauswertung stehen vor einigen Problemen. Beispielsweise entstehen beim Zerreisen von Papier Schereffekte, das heißt, es kommt zu einem Ausfransen der Ränder, das jeweils anders aussieht, aber vom Programm doch als ein solcher Effekt erkannt werden muss. Selbstlernende Systeme sollen hier Abhilfe schaffen.
Überall, wo man komplexe Merkmalssätze, Parametersätze hat, braucht man so genannte Klassifikatoren, das heißt, Programme, die diese Merkmale bewerten, vergleichen, wie denn Merkmale zusammengehören. Und diese Klassifikatoren haben ein lernfähiges Verhalten – sie basieren auf so genannten neuronalen Netzen. Wir haben auch bereits in unserem Konzept berücksichtigt, dass das gesamte System natürlich, je mehr Schnipsel verarbeitet werden, auch weitere Besonderheiten lernt, die auch in den Verfahrensablauf mit integriert werden.
Nicolay sieht das Projekt als weltweit einmalige technische Entwicklung mit weitreichender Bedeutung. Durch die Hintertür taucht der schon etwas angestaubte Begriff der Büroautomation wieder auf. Techniken der Dokumentenverarbeitung und -interpretation werden hier entwickelt, die dazu beitragen könnten, eines Tages auch den herkömmlichen Aktenberg aus Amtsstuben und Büros in ein digitales Archiv zu überführen.