Donnerstag, 02. Mai 2024

Archiv


Die Nadel im Texthaufen

Daten aus Forschungsarbeiten haben längst viele Experimente im Labor ersetzt. Zu allen denkbaren chemischen Verbindungen etwa gibt es Informationen über deren molekulares Verhalten in öffentlichen Datenbanken. Das Wissen wächst aber so rasch, dass es sich kaum noch gezielt auffinden lässt. Immer mehr professionelle User, allen voran Wissenschaftler, verlangen daher ausgefeilte Suchmethoden. Eine Technik ist das Text Mining. Seit diesem Sommer können Biowissenschaftler über ein Portal des Europäischen Labors für Molekularbiologie in Heidelberg schneller und gezielter nach Informationen suchen.

05.07.2003
    Von Detlev Karg

    Aus dem täglichen Leben sind diverse Suchtechniken nicht mehr wegzudenken: Suchmaschinen, die das Internet nach Suchbegriffen durchforsten, große Datenbanken in denen sich mit gezielten Abragen nach Wissen schürfen lässt. Viele nutzen diese Programme täglich und sie nehmen dem Anwender viel Arbeit ab. Dennoch gibt es Grenzen. Grund dafür ist die Stichwortsuche. Hier setzt das Text Mining an. Der Softwarehersteller SAS Institute entwickelt die Anwendung für das Europäische Labor für Molekularbiologie (EMBL) in Heidelberg. Unstrukturierte Textdokumente, also wissenschaftliche Arbeiten, lassen sich damit effizient auswerten. Forscher suchen hier weltweit nach Funktionen und Verhalten von Proteinen, wichtig für die Entwicklung neuer Medikamente. Hinter dem neuen Portal liegen Millionen von Dokumenten, etwa die aus der Medline-Datenbank, die über zwölf Millionen Dokumente enthält. Ein Beispiel: Sie werden zunächst in einer riesigen Tabelle festgehalten. Das heißt: In jeder Zeile steht ein Wort, in jeder Spalte ein Dokument. Am Ende ist klar, wie viele Worte wie häufig in einem Dokument erscheinen. Wie es dann weitergeht, erklärt Ulrich Reincke, Produktmanager Data Mining bei SAS Deutschland:

    Wenn Sie diese große Tabelle der Worte und Dokumente haben, in jeder Zeile ein Wort in jeder Spalte ein Dokument, und in diesen Zellen steht dann nur noch wie häufig tritt das Wort x im Dokument y auf. Dann kann man ja davon ausgehen, dass es in einer wissenschaftlichen Sprache sehr viele Worte gibt, bis zu 100.000 und wie gesagt in der MedLine-Datenbank gibt's zwölf Millionen Dokumente.

    Der Text Miner reduziert dann die Beziehungen der Worte und ihre Häufigkeit auf mathematische Werte, auf Konzepte von Texten.

    Das ist also ein Riesenkomplex, diese Tabelle, und man versucht jetzt, durch die Dimensionsreduktion an diese Konzepte heranzukommen. Und diese Dimensionsreduktion ist der Versuch, anstatt mit einzelnen Worten zu arbeiten, mit Wortkombinationen zu arbeiten. Und das wird mathematisch durch eine Singulärwertzerlegung dieser Tabelle erzeugt, und das sind dann letztlich Kombinationen von Worten, beziehungsweise Konzepte.

    Erst durch diese Abstraktion gelingt eine wesentlich bessere Suche und Auswertung von Texten, als sie heute der Fall ist. Inhaltliche Verwandtschaften nämlich lassen sich so viel leichter aufdecken als mit der Schlagwortsuche. Jeder kennt das aus dem Internet: Mal ist die Suche erfolgreich, mal findet man viel Unbrauchbares. Warum die Stichwortsuche gegenüber dem Text Mining das Nachsehen hat und warum auch leistungsfähige Suchmaschinen im Internet oft nicht der Weisheit letzter Schluss sind, erläutert UIlrich Reincke:

    Die Schlagwortsuchmaschinen basieren immer auf dem Indizieren aller Worte in den Texten. Das Problem ist bloß, dass es viele Texte gibt, die sehr ähnlich sind und die sich nur in sehr einzelnen wichtigen Worten unterscheiden, weil zum Beispiel das Synonym genutzt wurde. Und das Text Mining mit dieser Singulärwerttechnologie ist eben in der Lage, diese Schlagwortbarriere zu überspringen.

    Darum auch müssen die Dokumente in Heidelberg gar nicht selbst vorgehalten werden. Die riesigen Tabellen und die aus ihnen gewonnenen Schlüsselwerte reichen aus, um alle Datenbanken, die über das Internet angeschlossen sind, zu erschließen. Schon interessiert sich auch die Industrie für das Text Mining, in Zeiten des Wissensmanagements ein legitimer Nachfolger der seit langem bekannten Data-Mining-Technologie. Denn immer mehr User in Unternehmen sind im harten Wettbewerb auf rasch verfügbares Wissen angewiesen. Zunächst werden indes die Biowissenschaftler von der einfachen Suche profitieren. Der Text Miner macht es Ihnen so einfach wie möglich.

    Im Bereich EMBL ist es so, dass diese Dokumente in einer Internet-Datenbank, Medline und PubMed, liegen. Das ist ein Portal und ein jedes Dokument hat eine Identifikationsnummer. Und das Eingeben dieser Texte ist eben nicht so, dass man cut-and-paste machen muss, sondern er braucht eben nur diese Dokumentennummer, den Link einzugeben.

    Und dann erhält der Forscher alle Arbeiten, die mit dem gewünschten Thema zusammenhängen.