Dienstag, 23. April 2024

Archiv


SQL – nein danke

Wer in großen Mengen Daten aus dem Internet auswerten möchte, sieht in den bislang vorherrschenden relationalen Datenbanken ein Ärgernis. Diese können nicht so vielfältig durchsucht werden, wie es sich viele wünschen. Die Big-Data-Branche braucht also Datenbanken, die mehr beherrschen als die alte SQL-Technologie.

Von Achim Killer | 29.06.2013
    "Na man kann fast sagen, dass die NoSQL-Datenbanken im Kontext von Big Data entwickelt wurden in den letzten Jahren. Große Volumen an sehr klar und einfach strukturierten Daten verarbeiten zu können - das war die Zielsetzung bei der Entwicklung dieser Systeme. Und das kann man sehr gut nachvollziehen, wenn man schaut, wer diese Sachen entwickelt hat: originär Internet-Unternehmen wie Yahoo oder auch Google, die dann ihre Technologien der Internetgemeinde zu Verfügung stellen, die jetzt auf dieser Basis entsprechend weiterarbeiten",

    so Carlo Velten vom Analystenhaus Experton Group. Big Data, also sehr großen Datenmengen, in relationalen Datenbanken zu verarbeiten, geht nicht. Das wäre zu aufwendig. In solchen Systemen, wie etwa Unternehmen und Banken sie verwenden, dürfen keine Widersprüche existieren. Eine Methode, um dies sicherzustellen, besteht darin, jede Information möglichst nur zu einmal abzuspeichern. Also eine Warenlieferung an einen Kunden etwa wird nicht mit dessen Adresse abgespeichert, sondern mit einem Verweis auf dessen Adresse in der Kundendatenbank. Doppler und damit mögliche Fehlerquellen lässt ein relationales Datenbankmanagementsystem nicht zu. Man kann es sich vorstellen als aus einer Vielzahl von einzelnen Tabellen bestehend. Das Problem: Wenn man etwas sucht, dann müssen die einzelnen Bestandteile der gewünschten Information ebenfalls aus einer Vielzahl von Tabellen zusammengetragen werden. Das kostet Rechenleistung und Zeit. NoSQL-Datenbanken nun speichern Daten nicht in Tabellenform, sondern in Form von einfach strukturierten Dokumenten, Programmobjekten oder Graphen, dem halt, was man im Internet gemeinhin so vorfindet:

    "Wenn man sich jetzt diese graphbasierten Datenbanken anschaut: die zeichnen auf technischer Ebene das nach, was wir in den social Networks haben. Und dadurch, dass man diese Netzwerkarchitektur nachahmt auf der Technologieseite, kann man dann optimiert entsprechende Analysen fahren - zum Beispiel danach, wie eng zwei Punkte in einem Netzwerk verbunden sind."

    Unternehmen, die große relationale Datenbanken im Einsatz haben, sind die Lieblingskunden der Hersteller von Hochleistungsservern. Die Daten müssen widerspruchsfrei gehalten werden. Der Fachausdruck dafür heißt: konsistent – übersetzt: im Zusammenhang stehend. Und dementsprechend sind dafür teure SMP-Systeme besonders geeignet, Symmetrische Muliprozessor-Server, deren CPUs sich den Arbeitsspeicher teilen, also sehr eng zusammenarbeiten. Solche Rechner stehen im Mittelpunkt des Rechenzentrums jeder Bank. Im Internet hingegen sind sie unterrepräsentiert. Dort herrschen Billig-Computer aus der Massenproduktion vor. Und No-SQL-Datenbanken dienen dazu, auch mit solchen Rechnern große Datenmengen halten und durchsuchen zu können.

    "Ein Paradigma bei einer NoSQL-Datenbank ist eine Vielzahl von unterschiedlichen Servern, die zusammengeschaltet werden, die keinen gemeinsamen Storage benutzen. Das ist so ein typisches Paradigma. Damit man mit relativ kostengünstigen Maschinen, kostengünstigem Storage Systeme aufbauen kann, die skalieren. Das ist so eine Grundidee, die sich dahinter verbirgt",

    sagt Günther Stürner von Oracle. Eine NoSQL-Datenbank muss damit umgehen können, dass von diesen Billig-Rechnern öfter welche ausfallen. Und Datendoubletten sind im Internet nicht nur unvermeidlich, sondern im Gegenteil sogar notwendig, eben wegen der störanfälligen Hardware.

    Jahrzehntelang war der Datenbank-Markt fast ausschließlich einer für relationale Systeme. Die werden weiterhin vorherrschend sein, erwartet Carlo Velten. Aber die Gewichte werden sich hin zu NoSQL verschieben.

    "Also dieses Thema wird in den nächsten drei bis fünf Jahren deutlich an Relevanz gewinnen, einfach dadurch, dass der Anteil an sogenannten un- oder weniger gut strukturierten Daten beispielsweise aus Sensoren, beispielsweise von Mobiltelefonen, die verschiedene Dateninputs liefern, steigt im Anteil zu dem, was wir gerne strukturierte Daten nennen, jetzt aus Unternehmenstransaktionen. Insofern werden diese Datenbanken sicherlich auf mittlere Sicht einen Marktanteil von knapp einem Fünftel, vielleicht irgendwann auch ein Viertel ausmachen."