Freitag, 19. April 2024

Archiv


Punktlandung im Datendschungel

Mit "ConWeaver" präsentieren Forscher des jetzt eine Suchmaschine nach dem Konzept des Semantic Web. Mit Hilfe des Systems lassen sich Fachinformationen zielgerichtet suchen und auffinden.

Von Andrea Vogel | 08.04.2006
    ConWeaver, die semantische Suchmaschine des Darmstädter Fraunhofer IPSI, soll nicht alles suchen, was aussieht wie das, was man geschrieben hat, sondern genau das, was man wirklich meint. Dr. Thomas Kamps ist als Projektleiter zuständig für ConWeaver:

    "Es ist nicht eine klassische Suche, wie man es jetzt kennt vom Web, Google oder ähnliches, sondern es ist eine Suchmaschine, die vornehmlich in kontrollierten Umgebungen eingesetzt wird, insbesondere zum Beispiel für Firmenintranetze."

    Testanwendung ist ein Bauportal. Wer hier nach Beton sucht, kann also sowieso ziemlich sicher sein, dass er nur den Werkstoff findet: Homonyme, also Wörter mit mehreren Bedeutungen, sind hier ziemlich selten. Synonyme, also unterschiedliche Worte für die gleiche Sache, kommen hingegen recht häufig vor - Beispiel: Experten können gelegentlich auch mal Fachleute sein. Oder vielleicht als Projektleiter in Erscheinung treten. Und noch mehr sollte eine semantische Suchmaschine wie der ConWeaver wissen: Etwa, dass Hochleistungsbeton eine besondere Art Stahlbeton ist. Und Projekte in Asien gelegentlich auch in China oder Taiwan oder Japan stattfinden. Wie erkennt die Suchmaschine solche Zusammenhänge?

    "Wir gehen davon aus, dass wir so etwas wie ein Wissensmodell bauen. Dass heißt also für eine gewisse Anwendung, die jetzt in einem Intranet beispielsweise stattfindet, lassen Sie uns mal bei der Baudomäne bleiben, braucht man bestimmte Informationsobjekte. Also es geht um Projekte, es geht um Experten, es geht um irgendwelche Artefakte wie Brücken und so weiter, es geht um Lieferanten, es geht um Terminologie – also es geht um unterschiedliche Aspekte, die dieses Wissen dann am Ende ausmachen."

    Und genau das halten die Entwickler vorab in einem Modell fest: Welche Dinge sind hier relevant, und wie hängen sie zusammen. Die semantische Suchmaschine liest dann im Prinzip erst einmal alle Dateien durch, die sie öffnen kann. Gleichgültig, ob Webseiten, Tabellen, Glossare oder Briefe, egal ob verlinkt oder nicht, ob strukturiert oder nicht. Und beim Lesen versucht sie, alle interessanten Stichworte zu erkennen. Dazu gibt es eine ganze Palette statistischer und linguistischer Verfahren. Eines weiß zum Beispiel, dass hinter Worten wie Herr, Frau, Dr. oder Prof. in der Regel Eigennamen stehen und identifiziert so Personen. Andere Verfahren identifizieren Synonyme: Wie etwa "Hochleistungsbeton" und "hochfester Beton". Ein besonders schwieriger Fall, weiß Thomas Kamps:

    "Interessanterweise ist das einfach so, dass der "hochfeste Beton" früher als der Begriff benutzt wurde, der die Sache beschreibt, und später kam dann der Hochleistungsbeton. Das heißt, die kommen im Text niemals zusammen vor. Wie kriegt man raus, dass die wirklich miteinander was zu tun haben? Zum Beispiel "latent semantic indexing" macht das indirekt. Dass heißt ich gucke mir an: in welchen Situationen kommt das Wort Hochleistungsbeton vor, ich gucke mir alle Worte an, die mit "Hochleistungsbeton" vorkommen, ich gucke mir alle Worte an, die mit "hochfestem Beton" vorkommen, und bilde dann Schnittmengen."

    Sind die Schnittmengen groß, kommen die Wörter also quasi immer im selben Zusammenhang vor, dann bedeuten sie wahrscheinlich das gleiche. So sammelt das Programm Wissen, legt es im Modell ab und verfeinert es gleichzeitig dabei. Es identifiziert Gruppen und Untergruppen, lokale Zusammenhänge und Querverbindungen. Mit der Qualität dieses Modells steht und fällt ConWeaver. Denn gesucht wird am Ende nur hier. Und wenn das Modell gut ist, dann liefert das Programm strukturierte und vorsortierte Suchergebnisse. Auf die Frage nach Stahlbeton etwa eine Liste mit Verweisen auf Experten, eine zweite Liste mit Projekten, und eine dritte Liste mit Verweisen auf Glossare und Erklärungen oder Typen- und Preislisten. Für die gewöhnliche Suche im Internet taugt diese Methode nicht, das ist auch Kamps und seinen Kollegen klar. Doch zum Beispiel auf elektronischen Marktplätzen könnte sie sich bewähren.