Mensch versus Maschine: wie selbstlernende Systeme Cyberangriffe erkennen

Selbstlernende Systeme werden derzeit in vielen Bereichen erprobt. Eines der spannendsten Themen: die Aufdeckung von Cyberangriffen. Die Forschung ist weit fortgeschritten, der Praxistest erfolgt. Nun wird an den Feinheiten getüftelt. Im Interview: Harald Reisinger, Geschäftsführer von RadarServices, dem in der Erforschung des Themas führenden Unternehmen in Europa.

Machine Learning wendet Algorithmen an, um Muster oder Beziehungen in bestehenden Daten zu erkennen. Zugrunde liegen verschiedene statistische Methoden, unter anderem die klassische Inferenzstatistik, Bayesche Modelle oder Clustering. Auf dieser Basis werden von den als ’selbstlernend‘ oder auch als ‚verhaltensbasiert‘ bezeichneten Systemen automatisiert Schlüsse gezogen, Wahrscheinlichkeiten für verschiedene Szenarien berechnet und Vorhersagen getroffen.

Solche verhaltensbasierten Systeme werden zum Aufdecken von Cyberangriffen in der IT-Infrastruktur von Unternehmen und öffentlichen Institutionen eingesetzt. Dazu Harald Reisinger: „Herkömmliche IT-Sicherheitswerkzeuge sind üblicherweise regel- bzw. signaturbasiert. Das heißt, dass sie zum Beispiel Schadsoftware nur dann erkennen, wenn ihnen vorab exakte Informationen über deren Eigenschaften zur Verfügung standen. Bei geringsten Abweichungen von diesen Vorgaben werden die Werkzeuge überlistet und sind wirkungslos. Angreifer konzentrieren sich genau darauf: sie finden und nutzen neuartige Schwachstellen in der Infrastruktur eines Unternehmens aus oder setzen bisher unbekannte Schadsoftware ein. Heute braucht es hochausgebildete Spezialisten, um solche Angriffe zu erkennen. Erst Machine Learning kann die menschliche Analysefähigkeit mit ihren logischen Schlussfolgerungen ersetzen.“

Ein Beispiel aus der IT-Sicherheitspraxis

Aus einem Firmennetzwerk werden Daten gestohlen, im Fachjargon wird dieser Vorgang „Data Exfiltration“ genannt. Ein signaturbasiertes System erkennt möglicherweise ein bestimmtes URL-Muster für Uploads zu einer potentiell gefährlichen Webseite oder es identifiziert eine bereits bekannte Schadsoftware. Geübte Angreifer können dies aber leicht umgehen. Verhaltensbasierte Systeme erkennen hingegen, dass gerade ein Dateiupload stattfindet. Zusätzlich sind sie in der Lage zu melden, wenn dies von einem Rechner aus geschieht, der selten Dateiuploads ausführt oder wenn die Zieladresse unüblich ist. Einem Angreifer wird es sehr schwer fallen, das zentrale Ziel seines Angriffs, den Dateiupload, zu verschleiern.

Der Status Quo der Forschung und Anwendung

Machine Learning wurde in der Forschung zwar erstmals 1999 erwähnt, war aber in der Praxis aufgrund der immens langen Rechenzeit und den dafür notwendigen, hochleistungsfähigen Prozessoren über Jahre hinweg kaum angekommen. Heute sind die technischen Voraussetzungen vorhanden und das Thema ist eines der vielversprechendsten Ansatzpunkte, um Arbeitsschritte, die derzeit IT-Sicherheitsexperten „manuell“ ausführen, zu automatisieren.

Der Erfolg in der Anwendung hängt dabei sehr stark von der Qualität der Datenbasis ab. Das ist nicht speziell ein Problem für den Bereich IT-Sicherheit, sondern ein generelles statistisches Problem. Reisinger: „Während Ereignisse mit sehr hoher Signifikanz automatisiert leicht zu erkennen sind, besteht die Kunst darin, automatisiert Ereignisse mit niedriger Signifikanz in „für die IT-Sicherheit wichtiges“ und „unwichtiges“ zu unterscheiden. Dafür hat sich in der Praxis noch kein Modell durchgesetzt. Hier liegt daher auch der Forschungsfokus für die Weiterentwicklung unserer verhaltensbasierten Systeme. Reichert man deren Informationen mit Erkenntnissen aus anderen Datenquellen wie signaturbasierten Systemen an, erhält man qualitativ sehr hochwertige Daten über Auffälligkeiten in einem Unternehmensnetzwerk. Mit ihnen wird die automatisierte Beurteilung der Relevanz eines Ereignisses im Unternehmensnetzwerk als tatsächlicher Sicherheitsvorfall möglich.“

Um Machine Learning weiterzuentwickeln, werden bei RadarServices auch Technologien aus anderen Branchen und Geschäftsfeldern wie der Ökonometrie oder der Bioinformatik auf Analogien untersucht. Auf dieser Basis erfolgt schrittweise ein immer weitergehender Praxiseinsatz für Maschinen, die menschliche Fähigkeiten erlernen und intelligent einsetzen können.