Dienstag, 16. April 2024

Archiv


Im Meer der Webseiten

Vor allem für kleinere Firmen aus der Industrie war es in der Vergangenheit nicht einfach, gezielt auf Fach-Datensammlungen zugreifen zu können. Die TU Berlin entwickelt deshalb eine Online-Lösung, mit der selbst Kleinstunternehmen gängige Analysewerkzeuge nutzen können. Dr. Alexander Löser, Leiter des MIA-Projekts, erläutert im Interview die Details.

12.05.2012
    Manfred Kloiber: Das Buch ist selbstverständlich immer noch eine der wichtigsten Quellen, wenn es um fundierte Ausbildung geht. Doch im Alltagsgeschäft der Wissensarbeiter spielen Fachdatenbanken und aktuelle statistische Massendaten eine eminente Rolle. Im industriellen Bereich werden Business-Intelligence-Prozesse, also die gezielte Auswertung großer Datensammlungen zur Unternehmenssteuerung immer wichtiger. Eine Methode, die bislang aber auch immer mit großem Aufwand verbunden war. Die TU Berlin entwickelt deshalb zurzeit mit Industriepartnern an einem Onlinemarktplatz, der ab Ende des Jahres Daten und Analysewerkzeuge auch für kleinste Unternehmen vorhalten soll. Projektleiter Dr. Alexander Löser von der TU Berlin hat mir das Projekt MIA auf der Informare erklärt.

    Alexander Löser: MIA steht für einen Marktplatz, der Informationen und Analysen vertreibt und wo fünf kommerzielle Partner und die TU Berlin sich darauf geeinigt haben, den Datenbestand des deutschsprachigen Webs – momentan sind das also mehrer Milliarden Seiten – für Business-User zur Verfügung zu stellen, dass die also dort die Daten nutzen können, aber auch eigene Anwendungen schreiben können, auf diesen Daten.

    Kloiber: Auf diese sechs Milliarden Seiten kann doch jeder zugreifen. Also warum soll man sie jetzt bei MIA abrufen und vielleicht sogar dafür bezahlen?

    Löser: Erstmal überhaupt an diese Daten heranzukommen – entweder durch kaufen: ich kann sie entweder in sehr kleinen Häppchen für einen sehr großen Preis von Google oder Bing kaufen, oder von gezielten Anbieter oder aber durch eine Technik, die heißt Crawling. Das ist nicht einfach. Denn auch das Crawling kostet Sie im Netzwerk Bandbreite, Administratoren und viele Webseiten lassen sich auch gar nicht crawlen. Da muss man also dann dort jemanden anrufen und sagen, ich möchte die Webseite von dir bekommen und der Crawl muss frisch sein. Sie haben also eine hohe Datenqualität hier, viele Informationen veralten hier sehr schnell. Und frische Seiten zu erhalten, ist nicht ganz einfach. Es ist also richtig eine Geldfrage, erstmal überhaupt an die Rohdaten heranzukommen.

    Kloiber: Was machen Sie denn mit diesen Rohdaten? Werden die von Ihnen bearbeitet oder lagern jetzt die Webseiten, ständig aktualisiert, einfach nur auf Ihren Servern?

    Löser: Rohdaten sind einerseits schon mal ein Produkt. Es gibt also Firmen, die GfK zum Beispiel, die ist sehr daran interessiert – oder auch andere große Anbieter –, dass ihnen die Rohdaten zugeliefert werden können. Vielleicht nur für 100.000 Websites oder Domains, vielleicht auch ein größerer Teil vom Web. Und die machen dann selber etwas damit. Also die würden erstmal Rohdaten einkaufen. Und Rohdaten sind natürlich schlecht verwertbar für einen Entscheider. Das heißt, man muss diese Rohdaten also in einem größeren Prozess aggregieren, zusammenfassen, dass also der Mensch weniger lesen muss, verdichten, anreichern. Das ist dieser typische Prozess. Man fängt also an, Sprachverarbeitungsprogramm drauf laufen zu lassen. Die erkennen also beispielsweise Sätze oder Paragrafen. Oder wenn es eine spezielle Seite ist, dann erkennen sie vielleicht doch: oh, das ist Wikipedia, das ist eine Infobox. Da kann man sich also speziell die Sachen da rausziehen. Der nächste Schritt ist die sogenannte syntaktische Analyse. Da werden also grammatikalische Strukturen der Sprache entdeckt. Und dann kann man auf diesen Daten wiederum die Analyse machen, ist denn da eine fakutelle Information oder nicht oder ist da eventuell etwas, was eine Stimmung sein könnte? Das ist also relativ teuer. Und die Firmen kaufen also jetzt diese veredelten Daten ein, die aber noch domain-unabhänig veredelt sind. Das ist das zweiten Produkt. Das ist für viele Firmen schon sehr relevant. Und das dritte Produkt ist halt, dass die Firmen hier eigenständige kleine Programme uns geben. Die bringen jetzt dort semantische Bedeutung rein. Das sind meistens Nischenprogramme. Also da sucht man Beziehungen zwischen Krankheiten und pharmazeutischen Produkten oder zwischen Motorrädern und Stimmungen, Menschen, die diese Motorräder praktisch, toll und schnell finden. Das sind alles Nischenprodukte und wir nehmen den Kunden also diese Produktion dieser Daten ab und erlauben ihnen selber, Produkte bei uns anderen Kunden anzubieten, die also diese semantische Anreicherung machen.

    Kloiber: Und was bekomme ich als Produkt?

    Löser: Stellen Sie sich bitte nochmals den Stack vor. Ich bin jetzt also ein kleiner Unternehmer und möchte also jetzt regelmäßig checken: Gibt es hier möglicherweise neue Kunden für mein Sanitärprodukt? Und typischerweise würde ich hier eigentlich normalerweise eine Menge von Google-Queries absenden und das regelmäßig machen. Und durch Zufall treffe ich noch jemanden, der gibt mir noch ein paar weitere Seiten. Und das ist ein Prozess. Das ist ein Suchprozess, der läuft bei ihnen im Kopf. Und für diesen Suchprozess braucht man diesen Datenbestand. Und was natürlich jetzt ein clevere App-Programmierer machen kann, ist: der kann also diesen Suchprozess implementieren. Dafür braucht er vielleicht ein, zwei Wochen, und stellt ihn formalisiert, sein Wissen über diese Suchprozesse auf unserem Datenbestand als App bereit, so dass Sie selber gar nicht mehr dieses Wissen haben müssen. Und die App gibt Ihnen dann regelmäßig neue Kunden oder weißt Sie darauf hin, dass eventuell ihr Mitbewerber neue Produkte anbietet. Das heißt also, die höchste Stufe hier ist es, Prozesswissen zu implementieren oder zu integrieren, zum Beispiel in Form einer App. Und die App benutzt als Programmierschnittstelle das Web. In diesem Fall also das deutschsprachige Web und einen sehr repräsentativen Datenbestand.


    Äußerungen unserer Gesprächspartner geben deren eigene Auffassungen wieder. Deutschlandradio macht sich Äußerungen seiner Gesprächspartner in Interviews und Diskussionen nicht zu eigen.