Von Armin Amler
Meist sind es plötzlich extrem häufig vorkommende Worte, die wichtige Zeiträume definieren. Das, so Dr. Kleinberg von der Cornell-Universität in Ithaca, ist die wesentliche Erkenntnis, die er im Laufe seiner Studien gewann. Sie spielt, so sagt er in Referaten in aller Welt, beim "Modellieren des Internets und des Worldwide Web" eine wichtige Rolle. Ein offensichtliches Beispiel:
Wenn ich frage - was sind die hauptsächlichen Stories - sagen wir mal in den letzten drei Monaten, im Vergleich mit der Zeit vor einem Jahr, dann bemerkt man einen starken Anstieg der Diskussion über den Irak. Fragt man, was sind die Diskussionen der letzten drei Tage im Verhältnis zu jenen vor drei Wochen, dann stellt der Irak eine gewisse Konstante dar. Sie würden also kein tatsächliches Ansteigen mehr bemerken.
Solche Beobachtungen lassen sich mit Hilfe des Computers automatisieren, sagt Dr. Kleinberg - sie sind also ein wertvolles Werkzeug, wenn man die Gesetzmäßigkeit kennt. Die Idee, eine Themenforschung zu betreiben und damit Internet-Suchmaschinen zu perfektionieren, kam ihm übrigens beim Lesen seiner eigenen Flut von E-Mails. Jedes Mal, wenn in einer Diskussion ein wichtiges Thema aufkam, stieg das Vorkommen bestimmter Schlüsselworte rapide an. Die Suche nach diesen Worten gab ihm die Möglichkeit, die Mitteilungen in bestimmte Kategorien einzuteilen. Er entwickelte dazu eine Such-Methode, die nicht nur die Häufigkeit der vorkommenden Worte ermittelte, sondern auch den Grad ihrer Zunahme über einen bestimmten Zeitraum hinweg. Programme, die auf der Grundlage dieses Algorithmus beruhen, können Texte durchsuchen und die speziellen Worte finden. Die Methode beruht auf Modellen der mathematischen Wahrscheinlichkeitsrechnung. Sie analysiert das Verhalten von Kommunikationsnetzen. Das plötzliche Vorkommen der wichtigen Schlüsselworte, von Dr. Kleinberg mit dem englischen Wort "Burstiness" charakterisiert, kommt im Verkehr der Daten auch durch Staus und so genannte "Hot Spots" vor, sagt er jetzt. Doch wie kann der Betreiber einer Suchmaschine von der Entdeckung profitieren? Indem er den zeitlichen Zusammenhang etwa von Nachrichten-Stories berücksichtigt. Das Wort "Heckenschütze" zum Beispiel würde man hier in den USA gegenwärtig mit dem Irak-Krieg in Verbindung bringen. Vor 40 Jahren dagegen drängte sich stattdessen ein Zusammenhang mit der Ermordung John F. Kennedys auf. Bei eigenen Recherchen möchte natürlich jeder möglichst viele Suchmöglichkeiten zu geringen oder überhaupt keinen Kosten nutzen. Das funktioniert nur, wenn Betreiber der Suchmaschinen sie auch kommerziell einzusetzen vermögen. Und auch hier sieht Dr. Kleinberg eine Chance:
Es liegt sehr viel kommerzieller Wert darin, besser zu verstehen, woran die Kunden interessiert sind. Darin liegen einige der potenziellen Anwendungen.
Einer der Tipps, die Dr. Kleinberg Journalisten, Forschern und Verbrauchern gibt, besteht darin, nach Websites zu suchen, die besondern intensiv miteinander verlinkt sind. Je mehr Links sie haben, desto mehr Autorität besitzen sie wahrscheinlich im Bezug auf das Thema, sagt er - eine Variation dieser Methode benutzt heute google.com - auch teoma.com richtet sich weitgehend nach seinen Empfehlungen. Das World Wide Web ist wirklich nach wie vor eine chaotische Einrichtung, stellt er fest. Aber trotzdem ist es bemerkenswert, dass man fast jede der Milliarden unterschiedlicher Seiten von nahezu jeder anderen Seite mit nur wenigen Schritten erreicht. In der Zukunft kommt es nun darauf an, Computer auf wesentlich komplexere Strategien vorzubereiten, also von individuellen Worten weg zu kommen. Dr. Kleinberg:
Individuelle Worte sind zuweilen recht suggestiv für die Dinge, die gerade geschehen. Aber sie reichen nicht aus, um hochwertige Inhalte zu definieren, hinter denen wir her sind. Wir versuchen also, Strukturen zu verfolgen, die sich auf einer höheren Ebene befinden als individuelle Worte. Da gibt es ein Muster von Einflüssen. Zum Beispiel Nachrichten oder Medien-Berichte - sie erzeugen die Aufmerksamkeit anderer Menschen. Und so erhalten wir ein besseres Bild von der Dynamik des Informationsflusses durch das Internet - und der Art und Weise, wie Menschen zu Informationen kommen. Und das stellt eine sehr interessante Thematik dar.
In dem Bemühen, Worldwide Web und Suchmaschinen noch viel perfekter zu machen, gibt es also für die Zukunft noch sehr viel zu tun.
Meist sind es plötzlich extrem häufig vorkommende Worte, die wichtige Zeiträume definieren. Das, so Dr. Kleinberg von der Cornell-Universität in Ithaca, ist die wesentliche Erkenntnis, die er im Laufe seiner Studien gewann. Sie spielt, so sagt er in Referaten in aller Welt, beim "Modellieren des Internets und des Worldwide Web" eine wichtige Rolle. Ein offensichtliches Beispiel:
Wenn ich frage - was sind die hauptsächlichen Stories - sagen wir mal in den letzten drei Monaten, im Vergleich mit der Zeit vor einem Jahr, dann bemerkt man einen starken Anstieg der Diskussion über den Irak. Fragt man, was sind die Diskussionen der letzten drei Tage im Verhältnis zu jenen vor drei Wochen, dann stellt der Irak eine gewisse Konstante dar. Sie würden also kein tatsächliches Ansteigen mehr bemerken.
Solche Beobachtungen lassen sich mit Hilfe des Computers automatisieren, sagt Dr. Kleinberg - sie sind also ein wertvolles Werkzeug, wenn man die Gesetzmäßigkeit kennt. Die Idee, eine Themenforschung zu betreiben und damit Internet-Suchmaschinen zu perfektionieren, kam ihm übrigens beim Lesen seiner eigenen Flut von E-Mails. Jedes Mal, wenn in einer Diskussion ein wichtiges Thema aufkam, stieg das Vorkommen bestimmter Schlüsselworte rapide an. Die Suche nach diesen Worten gab ihm die Möglichkeit, die Mitteilungen in bestimmte Kategorien einzuteilen. Er entwickelte dazu eine Such-Methode, die nicht nur die Häufigkeit der vorkommenden Worte ermittelte, sondern auch den Grad ihrer Zunahme über einen bestimmten Zeitraum hinweg. Programme, die auf der Grundlage dieses Algorithmus beruhen, können Texte durchsuchen und die speziellen Worte finden. Die Methode beruht auf Modellen der mathematischen Wahrscheinlichkeitsrechnung. Sie analysiert das Verhalten von Kommunikationsnetzen. Das plötzliche Vorkommen der wichtigen Schlüsselworte, von Dr. Kleinberg mit dem englischen Wort "Burstiness" charakterisiert, kommt im Verkehr der Daten auch durch Staus und so genannte "Hot Spots" vor, sagt er jetzt. Doch wie kann der Betreiber einer Suchmaschine von der Entdeckung profitieren? Indem er den zeitlichen Zusammenhang etwa von Nachrichten-Stories berücksichtigt. Das Wort "Heckenschütze" zum Beispiel würde man hier in den USA gegenwärtig mit dem Irak-Krieg in Verbindung bringen. Vor 40 Jahren dagegen drängte sich stattdessen ein Zusammenhang mit der Ermordung John F. Kennedys auf. Bei eigenen Recherchen möchte natürlich jeder möglichst viele Suchmöglichkeiten zu geringen oder überhaupt keinen Kosten nutzen. Das funktioniert nur, wenn Betreiber der Suchmaschinen sie auch kommerziell einzusetzen vermögen. Und auch hier sieht Dr. Kleinberg eine Chance:
Es liegt sehr viel kommerzieller Wert darin, besser zu verstehen, woran die Kunden interessiert sind. Darin liegen einige der potenziellen Anwendungen.
Einer der Tipps, die Dr. Kleinberg Journalisten, Forschern und Verbrauchern gibt, besteht darin, nach Websites zu suchen, die besondern intensiv miteinander verlinkt sind. Je mehr Links sie haben, desto mehr Autorität besitzen sie wahrscheinlich im Bezug auf das Thema, sagt er - eine Variation dieser Methode benutzt heute google.com - auch teoma.com richtet sich weitgehend nach seinen Empfehlungen. Das World Wide Web ist wirklich nach wie vor eine chaotische Einrichtung, stellt er fest. Aber trotzdem ist es bemerkenswert, dass man fast jede der Milliarden unterschiedlicher Seiten von nahezu jeder anderen Seite mit nur wenigen Schritten erreicht. In der Zukunft kommt es nun darauf an, Computer auf wesentlich komplexere Strategien vorzubereiten, also von individuellen Worten weg zu kommen. Dr. Kleinberg:
Individuelle Worte sind zuweilen recht suggestiv für die Dinge, die gerade geschehen. Aber sie reichen nicht aus, um hochwertige Inhalte zu definieren, hinter denen wir her sind. Wir versuchen also, Strukturen zu verfolgen, die sich auf einer höheren Ebene befinden als individuelle Worte. Da gibt es ein Muster von Einflüssen. Zum Beispiel Nachrichten oder Medien-Berichte - sie erzeugen die Aufmerksamkeit anderer Menschen. Und so erhalten wir ein besseres Bild von der Dynamik des Informationsflusses durch das Internet - und der Art und Weise, wie Menschen zu Informationen kommen. Und das stellt eine sehr interessante Thematik dar.
In dem Bemühen, Worldwide Web und Suchmaschinen noch viel perfekter zu machen, gibt es also für die Zukunft noch sehr viel zu tun.