Mittwoch, 22.11.2017
StartseiteWissenschaft im BrennpunktDas Petabyte-Zeitalter09.10.2011

Das Petabyte-Zeitalter

Suchen und Finden bei 10 hoch 15

Noch vor wenigen Jahren waren PCs mit einer Festplattenkapazität von einem Terabyte kaum denkbar. In der Wissenschaft werden heute vielfach größere Datenmengen hin und her geschoben. Die Petabyte-Grenze ist längst überschritten. Doch wie lange ist diese stetig wachsende Datenflut noch zu bewältigen?

Von Maximilian Schönherr

Eine Festplatte. Die weltweite Datenflut wird immer größer.  (AP)
Eine Festplatte. Die weltweite Datenflut wird immer größer. (AP)

Es ist wahnsinnig langweilig, über große Zahlen zu reden. Ob der Kölner Dom 100 oder 200 Meter hoch ist.

Irgendwo dazwischen.

Wie viel Mal schwerer die Sonne ist, als die Erde?

Viel schwerer.

Wie viele Filme auf eine 500 Gigabyte-Festplatte passen?

Viele.

Und weil es so öde ist, über große Zahlen zu reden, reden wir heute über sehr, sehr große Zahlen. Über Billiarden von Computerdaten, über Petabytes.

Das Petabyte-Zeitalter
Suchen & Finden bei 10 hoch 15
von Maximilian Schönherr


Das Interessante an dieser Datenmenge ist nicht, dass sie so groß ist, sondern welche Türen sie öffnet und welche Probleme sie dabei bereitet. Mit Gigabyte und Terabyte, der Kapazität moderner Festplatten, kann der normale PC-Anwender einigermaßen umgehen – Filme von einem Format in ein anderes umrechnen, Dateien finden, untersuchen, ordnen. Aber bei Petabyte versagen die Plattenspeicher ...

"Es fallen so viele Daten an, man kann sie nicht mehr alle abspeichern und muss viele wegwerfen."

Es versagen die Rechner mit ihren seit Jahren nicht mehr gestiegenen Taktfrequenzen von plusminus drei Gigahertz.

Bei Petabytes fehlt es an Verfahren der Auswertung um interessante Zusammenhänge zwischen den Daten zu finden und die Zusammenhänge sichtbar zu machen.

Gibt doch Grafikkarten!

Ja, Grafikarten: Lieblingsthema von Thomas Ertl, Leiter des Instituts für Visualisierung an der Universität Stuttgart.

"Wir sind heute in der Lage, einen standard-medizinischen Volumendatensatz auf eine Grafikkarte zu laden."

Aber die Echtzeitdaten von einem Herzscan passen nicht mehr auf die Grafikkarte. Und die Nachrichten von Facebook, Xing, Twitter, Youtube, Flickr erst recht nicht.

Riesige Mengen an Informationen, die minütlich über das Web 2.0 preisgegeben werden.

Das so genannte Web 2.0, die großen Tratsch- und Verabredungs- und Kennenlern-Plattformen, auch Werkzeuge politischen Kampfs. Allein die 500 Millionen Mitglieder von Facebook werfen täglich Petabytes an Daten in die Welt des Internets hinaus. Uninteressant für die Welt? Uninteressant für die Wissenschaft?

"Die Daten in sozialen Netzwerken sind hochinteressant, weil sie einen Bereich unserer Gegenwart, unserer Wirklichkeit beleuchten, der bis jetzt wenig beleuchtet war."

Stefan Wrobel, Professor für praktische Informatik in Bonn und Leiter des Fraunhoferinstituts für Intelligente Analyse und Informationssysteme IAIS in Sankt Augustin.

Wrobel:

"Wir haben schon lange in der Wissenschaft Messgrößen aufgenommen und festgehalten. Wir haben schon lange im Bereich des Geschäfts Zahlenprozesse abgebildet: Einnahmen, Ausgaben, Kaufprozesse. Aber hatten lange Zeit kein in irgendeiner Weise präzises Abbild der Sozialstruktur unserer Gesellschaft, dessen, was Menschen zusammenhält, was sie miteinander verbindet."

Wenn Sie da zurückblicken auf soziologische oder auch psychologische Studien – vor 10 oder 20 Jahren konnte man froh sein, wenn man diese Studien über einige Dutzende oder einige Hundert Leute durchführen konnte.

Heute bilden soziale Netzwerke auch diesen Aspekt unserer Realität zumindest ansatzweise ab, sodass das natürlich hochinteressante Informationen sind, aus jedem Blickwinkel.

Für die empirische Forschung sind das unschätzbare Werte, die da entstehen, weil wir viel mehr über den Zusammenhalt der Gesellschaft lernen können. Sie bieten auch enorme Möglichkeiten für Dienstleistungen, für Produkte, für Computer, die uns besser unterstützen können, bei dem, was wir im Alltag tun wollen. Denn je mehr der Computer grundsätzlich darüber weiß, was ich tun möchte, desto besser kann natürlich auch die Unterstützung sein.

Philipp Heim, wissenschaftlicher Mitarbeiter an der Universität Stuttgart, versucht, die riesigen und komplett öffentlichen Datenmengen, die Menschen in aller Welt über YouTube und Twitter minütlich ins Internet hinauspusten, für Polizei und Feuerwehr aufzubereiten. In seiner Doktorarbeit beschäftigt sich Heim mit lokalen Katastrophen.

"Zum Beispiel der Amoklauf in Winnenden: In diesem konkreten Fall war es so, dass sich der Täter innerhalb eines Gebäudes befand. Das heißt, die Polizei konnte nicht einsehen, was in dem Gebäude vor sich ging, sie hatte keine 'Sensoren', die ihnen die Informationen lieferten, die sie gebraucht hätten. Ich kann auch nicht einfach in das Gebäude hineingehen, weil ich Leute dadurch gefährde, dadurch, dass ich nicht weiß, was ich damit auslöse. In welcher Situation befinden sich jetzt gerade die Schüler?

Auf der anderen Seite war es wirklich der Fall, dass die Schüler, wie sie sich in den Klassenräumen verschanzt hatten, über Web 2.0 Informationen zur Tatzeit abgaben, über die Lage vor Ort. Das heißt ganz konkret: 'Auf dem Flur vor unserem Klassenraum wird geschossen.' Oder: 'Der Täter bewegt sich weg.' Oder: 'Wir sind hier im Klassenraum XY und haben uns eingeschlossen.'"

Solche Informationen sind im konkreten Fall unheimlich wichtig, um auf Seiten der Polizei zum Beispiel die richtigen Entscheidungen zu treffen. Gerade Bilder und Videos, YouTube und Flickr bieten hier einen enormen Mehrwert, gerade auch für Feuerwehrmänner, die nicht auf die Beschreibung eines Laiens angewiesen sind, der jetzt 'einen Rauch' sieht und ihn beschreibt mit 'hier brennt's, hier brennt's!' Jetzt richtig einzuklassifizieren, um welche Brandstufe es sich hier handelt?

"Wenn ich jetzt aber ein Bild von der aktuellen Situation vor Ort habe, dann kann ich als Experte eine Einschätzung treffen. Und das ist ein Riesenvorteil gegenüber einem textuell abgesetzten Notruf."

Es ist in gewisser Weise eine Erweiterung der Sensorik, die wir bekommen. Wir haben einen riesigen Raum um uns, die Welt, unsere Gesellschaft, die Städte, die Infrastruktur, die bevölkert ist mit Menschen. Und diese Menschen informieren uns jetzt quasi über das Web 2.0, wenn sie denn mobile Endgeräte haben und gewillt sind, Informationen über ihre Umwelt preiszugeben, laufend über das, was um sie herum passiert.

Was bei einer Wetterstation die Fühler für Luftdruck, Luftfeuchte, Temperatur sind, sind bei den neuen Forschungsansätzen die Menschen, wie sie Facebook und twittern, die Fühler für gesellschaftliche Prozesse. Der Unterschied zu den Wettersensoren ist der, dass sich die gesellschaftlichen Daten im Petabereich bewegen, also so üppig sind, dass man sie sich nicht mehr einzeln ansehen kann. Früher hieß der Lösungsansatz "Data Mining". Die Informatik versprach noch in den 1990er-Jahren, mit diesem statistischen Herumwühlen in unstrukturierten Datenhaufen, alles finden zu können. Heute wirkt der Begriff wie aus einer vergangenen Zeit der Mega- und Gigabytes.

"Der Begriff Data Mining hat tatsächlich eine schillernde Geschichte und steht in manchen Marktsegmenten heute für eher einfache Produkte des Durchforstens von Daten und hat deswegen in der Wissenschaft vielleicht etwas an Reiz verloren."

Stefan Wrobel. Typisches Beispiel für Data Mining: Ich bin Bierbrauer, merke, ich verkaufe weniger Bier als vor einem halben Jahr, sehe der ausgedruckten Umsatzliste zwar an, dass es mit der Kneipe 'Blauer Enzian' zu tun haben könnte, aber nichts Genaues. Also gebe ich dem Rechner die Buchführungsdaten und frage, wie viel Bier in welchen Kneipen verkauft wurde, und der Computer wirft mir eine Grafik auf den Bildschirm, wo der Balken vom Blauen Enzian tatsächlich seit genau fünfeinhalb Monaten sehr niedrig aussieht.

Ich klicke auf den Balken, das Data Mining-Programm zoomt in die Statistik des Blauen Enzians hinein, und siehe da: Dort fließt das Bier prima, nur zwischen 19.30 Uhr und 21 Uhr knickt die Kurve steil ein. Also rufe ich, der Bierbrauer, im Blauen Enzian an und frage, was macht ihr eigentlich zwischen halb acht und neun?

Was sollen wir denn da machen?

Genau: "Was sollen wir da zwischen halb acht und neun immer machen?" ist die Standardantwort. Das unschuldige Schulterzucken vergeht, wenn der Brauer die Data-Mining-Kurve mit dem Knick an den Kneipenwirt faxt. Der sagt dann sowas von der Art:

Ah, stimmt. Aber das war doch nur ...

Aber: es war eben nicht "nur" zwei-, dreimal, dass der Wirt nach hinten verschwand, weil er Lustigeres zu tun hatte, als am Tresen Bier zu zapfen. Die Sache mit der Zenzi (oder wie sie heißt) im Heuschober (oder wie er heißt) läuft schon seit gut fünf Monaten.

Aber nicht am Donnerstag!

Genau, Data Mining sagt: nicht am Donnerstag. Da ist nämlich die Zenzi bei ihrem Volkshochschulkurs über Goethe.

Um Strukturen in den vielfach größeren Datenmengen der sozialen Netze zu erkennen, muss man das rein statistische Verfahren des Data Mining vergessen. Man braucht neue Methoden. Philipp Heim von der Universität Stuttgart.

"Wie kann ich es als Einsatzleiter schaffen, in diesen riesigen Web 2.0-Datenmengen genau die Informationen herauszubekommen, um die Situation vor Ort so einzuschätzen, dass ich die richtigen Aktionen treffe und Schaden vermeide?"

Da kommt jetzt das 'Semantic Web' ins Spiel. Das ist der Versuch, das Wissen, das die Menschen quasi angesammelt haben, in einer Weise abzulegen, in der eine eindeutige Bedeutung zu den Informationseinheiten mitgeliefert wird.

Ein Beispiel: Das semantische Netz lässt die beiden Worte "Essen" und "Essen" nicht einfach so stehen, sondern sagt: Das eine ist die Stadt Essen, das andere ist das, was wir essen. Es stellt dann Beziehungen zwischen Begriffen her, etwa die Stadt Essen mit der Nachbarstadt Bochum oder Tofugerichte mit der chinesischen Küche in dieser Stadt, diese wieder mit der chinesischen Stadt Shanghai, wo es auch solche Gerichte gibt.

An diesen semantischen, also inhaltlichen Beziehungen bauen Informatiker schon seit zehn, 20 Jahren herum; jetzt aber entsteht erstmals ein fast dringender Bedarf nach einem solchen 'Giant Global Graph', riesigen, alles umspannenden Vernetzungsbaum. Stefan Wrobel bringt ein Beispiel, wie ein Smartphone, also ein internetfähiges Handy, sich in eine alltägliche Entscheidung einmischen kann, weil im Hintergrund so ein Giant Graph aktiv ist und mit semantischen Methoden individuell gefiltert wird:

"Stellen Sie sich vor, Sie stehen in einem Supermarkt vor einem Leberwurstregal. Mein Smartphone weiß jetzt, wo ich bin, in einem Rewe-Supermarkt, vielleicht erkennt die Kamera, wo genau ich gerade stehe. Möchte ich dann nach Leberwurst-Konkurrenzangeboten googeln?"

Nein, ich will, dass mein Handy automatisch weiß, dass jetzt interessante Angebote von Lidl aus dem Markt um die Ecke eventuell relevant wären, die vielleicht dasselbe Produkt günstiger anbieten. Oder dass ich die Ernährungsinformation oder Informationen über den Hersteller der Leberwurst sehen möchte usw. Ich freue mich, wenn die semantischen Verbindungen automatisiert die richtigen Informationen zutage fördern.

Das ist, wie Sie vielleicht gemerkt haben, keine Sendung über Datenschutz, Privatsphäre und informationelle Selbstbestimmung – obwohl gerade die Ausweidung von Daten des Petabyte-Zeitalters genau dem gefährlich wird. Mein Leberwurst-beratendes Handy ist ja gar nicht so unschuldig; es funkt meine Daten geradezu gierig zu anderen Leberwurstherstellern. Und mein YouTube-Live-Video von einer brennenden Scheune, welches einen Feuerwehreinsatz auslöst, kann mir zum Verhängnis werden. Vielleicht wollte ich ja nur Spaß machen und habe zwei Clips aus einem Actionfilm hintereinander gesetzt. Semantische Auswertungen im Petabyte-Zeitalter werfen massive Datenschutzprobleme auf.

Schon der Besuch des Bierbrauers beim Blauen Enzian war datenschutzmäßig grenzwertig.

Ja?

Ja.

Wo waren wir?

Bei den Petabytes.

Thomas Ertl:

"Wir sind im Petabyte-Zeitalter. Es gibt aktuelle Studien, dass im letzten Jahr, 2010, der Zuwachs an digitalen Daten in der gesamten Welt ein Zetabyte beträgt. Mit Petabyte sind wir ja bei 10 hoch 15, Exa 10 hoch 18, Zeta ist eine Vorsilbe, die uns noch nicht so ganz geläufig ist, da müssen wir uns noch dran gewöhnen, eben 10 hoch 21 Bytes."

Es ist nur eine Frage des Zählens, wie viele Petabytes in den verschiedenen Internetplattformen enthalten sind – sicher ein Mehrfaches dieser Datenmengen. Es ist auch absehbar, dass man in einigen Jahren auch Petabytes lokal abspeichern werden kann.

Wenn wir jetzt über Petabyte reden, dann sind das Datenmengen, die zum Beispiel im Bereich der Simulation in Höchstleistungsrechenzentren anfallen. Da ist jetzt Standard, dass Maschinen, die in den Höchstleistungsrechenzentren gekauft werden, in Deutschland und weltweit etwa einen Petaflop, also Fließkommaoperationen pro Sekunde, haben. Und man kann sich leicht vorstellen, wie viele Daten die dann letztendlich pro Sekunde erzeugen.

Es ist im Bereich des Höchstleistungsrechnens gerade auch so, dass in den USA die nächsten drei Größenordnungen angesprochen werden; dort spricht man von 'Exascale-Computing', also, das Ziel, Rechner zu bauen, die in Zukunft für große Anwendungsprobleme ein Exaflop, also Rechenleistung, die auch für reale Weltprobleme aufrecht erhalten wird, generieren.

Die Spezialität von Thomas Ertl ist die Visualisierung, also wie man große Datenmengen betrachtet, um sie zu verstehen. Jeder Forschungsbereich wird umso Datengieriger, je größer die Speicher und je schneller die Rechner sind.

Beispiel: Schichtbilder in der Medizin. Das einzelne CT-Bild ist heute viel schärfer als früher, viel höher aufgelöst. Man fährt damit viel feiner durch den Körper – durch das 'Volumen' –, erzeugt also ein Vielfaches einzelner Schichtbilder. Und die wollen Radiologen nun auch noch am PC, an der medizinischen Workstation mit einer normalen Computerspielegrafikkarte in Bewegung sehen!

Thomas Ertl:

"Der Zeitraum, den Sie brauchen, um so ein medizinisches Volumen zu scannen, fällt jetzt unter den Minutenbereich. Dadurch ist man in der Lage, Volumina zeitabhängig zu analysieren."

Das heißt, man hat zum Beispiel eine Chirurgie an der Lunge...

"Besser ist das Herz: Man möchte einen Herzschlagzyklus zeitlich hoch aufgelöst sehen, also wie das Herz sich vergrößert und wieder verkleinert, wie das pumpt. Und dazu muss ich im Prinzip vom Volumen dieses Herzens zwanzig, dreißig Volumina pro Minute aufnehmen. Und damit haben wir sofort eine Dimension mehr. Wir haben dreidimensionale Daten, die sich in der Zeit ändern."

Das heißt, die Visualisierung von vierdimensionalen Datensätzen, typischer Weise 3D plus Zeit, stellt uns vor neue Anforderungen. Denn die Bandbreitenprobleme in unseren heterogenen Rechnersystemen bleiben bestehen. Wir sind vielleicht nicht in der Lage, diese Daten schnell genug zur Grafikkarte zu bringen. Lokal können wir sie nicht abspeichern.

Das heißt, da ist Datenanalyse gefragt, um zu kompakten Datenrepräsentationen zu kommen, die sich vielleicht wieder auf der Grafikkarte darstellen und verarbeiten lassen, ohne dass da alle Rohdaten von dieser zeitabhängigen Volumensequenz hinterlegt werden müssen.

Heikle Themen, die erst das Petabyte-Zeitalter aufwarf, spricht Thomas Ertl hier an.

Irgendwie haben uns diese riesigen Datenmengen kalt erwischt. Die in den letzten Jahren oft unterforderten Personal Computer scheitern nun auf ganzer Linie. Das erste heikle Thema ist der Speicherplatz: Wir haben nicht mehr den Luxus, die Datenmengen, die die Sensoren anliefern, erst mal in Ruhe abzuspeichern und später anzugucken. Die CTs und MRTs schreiben beim Fotografieren des Herzschlags handelsübliche Terabyte-Festplatten in wenigen Minuten komplett voll.

Thomas Ertl:

"Das heißt, man muss schon auswählen, was man eigentlich abspeichern will. Und dieses Auswählen richtet sich nach einer Fragestellung. Das heißt, ich kann nicht sagen, alle Bits werden einfach auf die Platte geschrieben – ich muss wissen, was ich später mit diesen Daten anfangen will."

Womit den Informatikern, die natürlich überhaupt nicht dafür ausgebildet sind, die Rolle der Archivare zukommt. Daten sinnvoll auszuwählen. In der Ausbildung von Archivaren und Dokumentaren ist das ein zentrales Thema, denn zum Beispiel kann ein Zeitungsarchiv nicht jede Zeitung aufheben. Da wäre der Keller im Nu voll.

Die historisch relevanten Daten, wie zum Beispiel aus sozialen Netzen, werden wegen ihrer Menge unwiederbringlich verloren gehen. Wir werden in zehn Jahren noch unsere alten Kontoauszüge beim Online-Banking abrufen können, nicht aber die zarte Anbahnung der Liebe zwischen Freundin A und Freundin B in Facebook.

Wozu auch?

Wozu nicht?

Informatiker sieben die Daten mit relativ alten Statistikalgorithmen und Stichprobentechniken aus. Das hängt damit zusammen, dass sie neuere Konzepte wie das semantische Web den aktuellen Rechnern und ihren Herzen, den 'Cores', nicht aufhalsen können.

Thomas Ertl:

"Jeder, der heute einen Rechner kauft, weiß, dass der einzelne Core da drin nicht sehr viel schneller läuft als vor vielleicht drei, vier Jahren. Wir liegen um die 3 Gigahertz."

Das, was zugenommen hat an Rechenleistung, ist die Parallelität. Es sind eben 2-Core-Systeme oder 4-Core-Systeme, also die Frage, wie viele Kerne arbeiten parallel an dem Problem? Aber dieses klassische Paradigma, dass ich jetzt zum Beispiel vier Prozessorkerne zur Verfügung habe und vier unterschiedliche Tätigkeiten – 'Tasks', wie wir in der Informatik sagen – auf diesen zum Laufen bringe, die dann ab und zu synchronisieren, dieses Konzept wird sicherlich nicht auf zukünftige Rechnerarchitekturen skalieren, wo wir tausende oder Millionen von Rechenkernen gleichzeitig bedienen müssen.

Beispiel: Windkanalsimulation in der Autoindustrie. Statt einen Prototypen zu bauen und in einen echten Windkanal zu stellen, erzeuge ich eine 3D-Modell des Autos im Computer und überziehe es mit Partikeln, die den Wind bei der Fahrt darstellen sollen.

Thomas Ertl:

"Klassisch wäre, dass so ein hoch paralleles System die Daten, die in allen Knoten berechnet wurden, an zentraler Stelle sammelt, in eine Datei schreibt und dass dann ein Visualisierungsprogramm diese Datei einliest und am Bildschirm darstellt."

"Also quasi erst einmal eine Gigabyte-Festplatte mit Daten vollschreiben?"

Sagen wir mal, eine Petabyte-Festplatte. Das funktioniert aus mehreren Gründen nicht. Zum einen sind wir in vielen Bereichen der Simulation schon so weit, dass die lokal in diesen parallelen Systemen erzeugen so groß sind, dass sie gar nicht mehr weggeschrieben werden können. Sie müssen also, sage ich einmal, vor Ort vorverarbeitet werden. Im Sinne der Visualisierung hieße das zum Beispiel: Merkmale extrahieren, lokal einen Wirbel zu verfolgen ...

Aber nicht aufs ganze Auto zu gucken ...

... nicht aufs ganze Auto zu gucken. Dann müssen aber die ganzen Komponenten, wie setzt sich der Wirbel, der an der Vorderscheibe entsteht, übers Dach fort? Das sind Komponenten, die auf unterschiedlichen Prozessoren gerechnet würden, und die müssten dann über das schnelle Netzwerk von einem solchen heterogenen Rechnersystem entsprechend kombiniert werden.

Und was passiert, wenn ich jetzt den Wirbel an der Stelle entdecke, der ist ganz unangenehm, und jetzt nehme ich den Außenspiegel und biege ihn an der Ecke um genau einen Millimeter ...

... das wäre ja genau die Idee von 'Virtual Prototyping', wo ich virtuelle Prototypen im Rechner entwickeln will. Die Zielvorstellung wäre schon, dass diese zukünftige Generation von Exascale-Rechnern so leistungsfähig sind, dass ich industriell relevante Probleme wie die Strömung um ein Fahrzeug herum, eben nicht auf einem Rechnersystem rechne, was eine Nacht dafür braucht, und am nächsten Vormittag kommt der Ingenieur und schaut sich das in der Visualisierung an, sondern dass ich interaktive Manipulationen der Randbedingungen ermögliche, also zum Beispiel, wie von Ihnen beschrieben, die Geometrie des Fahrzeugs ein bisschen zu ändern. Ich ziehe entweder die Motorhabe nach oben oder verbiege den Spiegel ein bisschen, setze die Strömungsberechnung wieder in Gang und sehe instantan in der Visualisierung, welchen Einfluss das auf das Strömungsverhalten hat.

Das heißt, wir leben heute in einer Ära, wo die Speicher zu klein sind, man also erfasste Daten wegwerfen muss und man auf gespeicherte Daten gar nicht mehr gucken kann, weil einem die Zeit fehlt, und in einer Ära, wo die Rechner eigentlich viel mehr rechnen könnten, wenn man sie zusammenschaltet. Aber die bewährten Programme der Statistik, der Simulation, der semantischen Netze nutzen die massive Parallelität der neuen Computer nicht aus.

Ein übergeordnetes Programm, was bestehende Software automatisch auf beliebig große 'Multi-Cores' parallelisiert, ist eine schöne Idee, aber es gibt laut Thomas Ertl keinerlei Ansätze dazu.

Während es uns so leicht fällt, Dinge gleichzeitig zu tun.

Nur Euch Frauen.

Steffen Koch:

"Zum Beispiel gebe ich eine Suchanfrage bei Google ein ..."

Steffen Koch, wissenschaftlicher Mitarbeiter am Lehrstuhl von Thomas Ertl in Stuttgart.

"Dann bekomme ich mitunter Millionen Treffer."

Der Doktorand wertet die riesigen Datensätze des Europäischen Patentsamts aus.

Steffen Koch:

"Ich würde meinen, dass den normalen Web-Nutzer die ersten Treffer interessieren. Es gibt kaum Leute, die sich noch Seite zwei und drei, geschweige zehn aufwärts anschauen."

Das Interesse, alle wichtigen Patente zu finden, ist natürlich ungleich höher. Denn wenn ich ein wichtiges Patent nicht betrachte und aufgrund dessen meine eigene Forschung in die Richtung vorantreibe und damit das Patent verletze, kann das natürlich enorme ökonomische Konsequenzen nach sich ziehen.

Steffen Koch erinnert an einen Prozess um einen kanadischen Handyhersteller mit einem Streitwert von einer halben Milliarde Dollar wegen so einer Patentverletzung.

Koch nutzt die öffentlich zugänglichen Patentdaten aber nicht nur, um solche Fälle auszuschließen, sondern um weiße Flecken zu finden. Das System arbeitet nämlich auch semantisch, also mit Sinnzusammenhängen, und schlägt dem Benutzer dann Gebiete vor, die sich näher kommen, wo Patente entstehen könnten.

Ein Handy, mit dem man surfen kann.

Gibt's ja schon.

Und nun wird das Thema ganz groß.

Wir haben das Vergnügen, dass wir bei der Deutschen Digitalen Bibliothek für die technische Realisierung des Angebotes zuständig sind, das alle deutschen Kultureinrichtungen und ihre digitalen Bestände vernetzen soll und wird. Der erste Prototyp wird Ende des Jahres zur Verfügung stehen. In der Endausbaustufe sollen dann 30.000 Kultureinrichtungen in Deutschland vernetzt sein und ihre Bestände über die Deutsche Digitale Bibliothek anbieten können.

Ein mehr als gigantisches Vorhaben, was Stefan Wrobel vom Fraunhoferinstitut IAIS in Sankt Augustin hier umsetzt.

Ist die Steigerung von gigantisch jetzt vielleicht pedantisch?

Stefan Wrobel:

"Man schätzt, dass erst zwei bis fünf Prozent des deutschen Kulturguts digital in den verschiedenen Einrichtungen erfasst sind."

Passen die auf eine Terabyte-Festplatte, die ich mir für 99 Euro kaufen kann?

Nein. Man rechnet hier mit Beständen, die in den Bereich vieler Petabytes hineingehen werden. Das heißt, das werden Sie schon ganz viele Festplatten brauchen, denn Sie müssen sich klar machen, es handelt sich um Kulturgut, nicht nur klassische Texte, die relativ kompakt gespeichert werden können, sondern natürlich auch viele Bild- und Videodokumente, Musik bis hin zu dreidimensionalen Gegenständen, die mit einer großen großen Zahl von Messpunkten erfasst werden. Da kommen also wirklich große Datenbestände zusammen.

Stefan Wrobel spricht von nationalen Kulturdatensammlungen – was wird das für ein Rechenspaß werden, wenn man die erst einmal inhaltlich miteinander verknüpfen will!

So wie heute im Kleinen Doktorarbeiten auf semantische Ähnlichkeiten hin verglichen werden, wird es nicht gehen. Aber grundsätzlich geht die Reise dahin. Thomas Ertl:

"Man hat sich doch sehr an natur- und ingenieurswissenschaftlichen Daten entlang gehangelt. Inzwischen gibt es solche – im amerikanischen Sprachraum heißen sie – 'Digital Humanities', also sozusagen die digitale Geisteswissenschaft. Und das ist in vielen Bereichen erst am Anfang."

Stefan Wrobel:

"Peta ist augenblicklich die Vorsilbe, die aktuell die Größenordnung kennzeichnet. Aber wenn wir uns in zwei Jahren wieder zum Interview treffen, dann reden wir möglicher Weise schon über Exa und einigen Jahren über Zeta."

Also nicht von gigantisch auf petantisch, sondern auf exantisch.

Was fast ein bisschen exaltiert klingt.

Und zetantisch irgendwie nach Tante.

Was gegen Tanten?

Nö, aber zetantisch sollte doch mächtig sein, während tantisch ...

Das Petabyte-Zeitalter. Suchen & Finden bei 10 hoch 15. Von Maximilian Schönherr. Redaktion: Gerd Pasch.


"Weiterführende Links:"

Sendungen des Deutschlandradios:

Tausende Prozessoren im Einsatz (Computer und Kommunikation vom 16.7.2011)

Datenkommunikation von morgen (Forschung aktuell vom 11.2.2009)

Scharfes Bild, viele Daten (Computer und Kommunikation vom 10.9.2011)


Links ins Netz:

Petabyte in der Wikipedia

Semantisches Netz in der Wikipedia

Thomas Ertl, Institut für Visualisierung und Interaktive Systeme (VIS)

Stefan Wrobel, Fraunhoferinstitut IAIS

Die Deutsche Digitale Bibliothek

Das könnte sie auch interessieren

Entdecken Sie den Deutschlandfunk