Archiv


Unerwünschte Bilderflut

Spam nimmt wieder zu. Und das verflixte dabei: Textbasierte Spamfilter sind mitlerweile machtlos. Denn immer häufiger wird der Email-Müll mit seinen obskuren Botschaften als Bilddatei verschickt. Nur aufwändige Analysetools können diesen Bilderspam identifizieren. An der TU-Berlin werden diese Tools und neue Strategien entwickelt.

Von Wolfgang Noelke |
    Fast jede neunte E-Mail sei Werbemüll, sagt Jens Derksen, Pressesprecher der Strato AG, Deutschlands zweitgrößter Internetanbieter. Aktuell nehmen auf dessen Servern Spam-E-Mails einen Platz von sieben Terra Byte ein. Allein dafür müssen Speicher im Wert von 750.000 bis eine Million EUR bereitgestellt werden. Doch die Strato-Leute machen zusammen mit den Wissenschaftlern der Berliner Humboldt-Universität aus der Not eine Tugend.

    Derksen: " In die vielen Hunderte Millionen von Spam-E-Mails, die hier bei uns auflaufen, sind eigentlich eine großartige Datenbasis, anhand der die Wissenschaftler der Humboldt-Universität ihrer Algorithmen und die Wirksamkeit ihrer Algorithmen ausprobieren können. Alle unsere Filtermethoden werden permanent eben an dieser Datenbasis trainiert. "

    Das Ergebnis dieses Trainings, heißt "Serverside Security" und erkennt Spam-E-Mails an ihren individuellen so genannten Fingerabdrücken, die von Spam-Versendern auch bei höchster Anstrengung nicht verwischt werden können, denn, so Jens Derksen, um die von den Internet Providern eingesetzte Spam-Erkennungssoftware zu überlisten, versenden die Spammer seit ein paar Monaten E-Mails mit integrierten Grafiken:

    " Das aktuelle Problem ist der so genannte Bilder Spam. Bisher war Spam Textbasiert. Nun wird er über Bilder verbreitet, das heißt: Werbegrafiken! Die meisten Filtermethoden kommen mit dieser Art des Spam nicht klar sie erkennen ihn nicht als solchen und wir haben jetzt bei Strato in Kooperation mit der Humboldt-Universität eine Methode entwickelt, die nennt sich Finger Printing. Bei Finger Printing geht es darum, festzustellen auch innerhalb eines sehr kurzen Zeitraums oder auf einmal eine große Masse ein E-Mails gleichzeitig versenden wird, die ein fast identisches Bild enthält. "

    Wäre der Inhalt einer Spam-E-Mail identisch mit allen anderen und dies trifft auch auf die integrierten Spam-Grafiken zu, dann wäre es für die Provider relativ einfach, den Werbemüll zu erkennen. Deswegen variieren Spammer mit automatisierten Prozessen Texte und Bilder jeder einzelnen E-Mail. Nach diesen Varianten suchen die am Institut für Informatik der Berliner Humboldt-Universität entwickelten Spamfilter, so Professor Tobias Scheffer:

    Scheffer: " Eine Bilder-Spamwelle könnte beispielsweise die gleichen Textbestandteile beinhalten, die allerdings jedes Mal in unterschiedliche geometrische Formen, in unterschiedliche Farben mit unterschiedlichen Störungsmustern ausgeprägt sind. Unser Filterverfahren versucht nun die ganze Welle als Varianten derselben Nachricht zu erkennen. Dazu versuchen wir die gemeinsamen Bestandteile aller Elemente einer Spamwelle zu erkennen, den so genannten Fingerprint. Wir verwenden dazu Algorithmen, die nach möglichst vielen gleichartigen Merkmalen möglichst vieler Elemente einer E-Mail-Welle suchen. "

    Das Erkennungsprogramm funktioniert nach einem ähnlichen System, mit dem man eine musikalische Komposition wieder erkennt, auch wenn sie in unterschiedlichsten Formen zu hören ist, beispielsweise als Schlagerschnulze, als Pop, Jazz-, Blues-, Techno-Variante oder gepfiffen.

    Dazu kommen noch andere Erkennungsmethoden: E-Mails von Ärzten, beispielsweise mit dem Stichwort Viagra wanderten deswegen nicht in den Spam-Ordner, weil Spam-Filter wüssten, ob es zwischen Sender und Empfänger bereits Mail-Kontakte gibt. Automatisierte Prozesse analysierten dazu noch die Beziehung verschiedener Schlüsselwörter des Textinhaltes, verbinden diese auch mit früheren Textinhalten, ohne die Privatsphäre einzelner Nutzer zu verletzen. Deswegen blieben Mails, der mit identischem Bildinhalt an die gesamte Verwandtschaft versendeten Weihnachts- und Neujahrsgrüße ebenfalls unbehelligt, während die meisten gefälschten Weihnachtsgrüße im Spamordner landen, so Professor Scheffer, der die wissenschaftlichen Erkenntnisse der Spieltheorie im Anti-Spamfilter integriert:
    Scheffer: " Wir sind heute an dem Punkt, indem wir aus dem lernen, was die Spamversender in der Vergangenheit getan haben. Wir möchten in der Zukunft Algorithmen haben, die uns jetzt vorwegnehmen, was die Spamversender gegen die existierenden Filter unternehmen können. In der Zukunft möchten wir dahin kommen, Algorithmen zu verwenden, die, ähnlich, wie bei einem Schachspiel den nächsten Schritt der Spamversender vorwegnehmen und Filter generieren, die gegen die Versuche der Versender, die Filter zu überlisten resistent sind. "