Machine Learning hat sich im Laufe des letzten Jahrzehnts zunehmend im Alltag etabliert. Einer der Hauptgründe dafür ist, dass es Wissenschaftlern immer wieder gelingt, Probleme zu lösen, die mit herkömmlichen Ansätzen nicht handhabbar waren. Beispiele sind die Übersetzung von natürlicher Sprache (etwa Deutsch zu Französisch) oder die automatisierte Erkennung von Bildern oder Methoden in der Steuerung von autonomen Agenten (Stichwort: Reinforcement Learning). Motiviert von diesen Erfolgen spielt Machine Learning auch in der Cybersicherheit eine immer größere Rolle. Am Beispiel von sog. Deep Fakes lässt sich das besonders gut erkennen.
Von der lustigen Spielerei zur realen Bedrohung
Der Name »Deep Fake« ist eine Wortneuschöpfung, die sich aus den englischen Begriffen »Fake« (=Fälschung) und »Deep« (=tief) zusammensetzt. Letzteres verweist auf die zugrundeliegenden tiefen neuralen Netze, welche entfernt der Struktur des menschlichen Gehirns ähneln. Bestehend aus mehreren Millionen künstlichen Neuronen, gelingt es dem System hochkomplexe Aufgaben zu lösen, insbesondere wenn es um die Manipulation von Bild-und Videomaterial geht. Wie? – Indem derartige Netze mit Video- und Audiomaterial einer Zielperson trainiert werden, wodurch diese lernen Gesichtsausdrücke oder Sprachmelodien zu imitieren. Das Fraunhofer AISEC hat eine Demonstrator Software entwickelt, mit der sich das eindrucksvoll aufzeigen lässt. Beispielsweise lassen sich mit der Software der Bundeskanzlerin Angela Merkel, beliebige Sätze in den Mund legen.
Chancen des Maschinellen Lernens richtig nutzen
Mithilfe von Machine Learning kann man aber auch große Datenströme analysieren und Muster erkennen, die auf Angriffe oder Missbrauchsverhalten hinweisen. Diese Mustererkennung entlastet Administratoren und Cyber-Sicherheitsexperten in ihrer Arbeit. Eine große Herausforderung sind jedoch die sogenannten ‚False-Positives‘, also Fehlalarme in Situationen, in denen eigentlich kein Angriff bzw. Missbrauchsverhalten auftritt. Nutzer haben gegenüber diesen Falschmeldungen eine sehr geringe Toleranz, da die Software sie bei diesen Alarmen zum Eingreifen aufruft – und auf diese Weise Mehrarbeit verursacht. Die Konsequenz daraus: Nach wiederholt auftretenden False-Positives ist die Geduld am Ende und der Nutzer akzeptiert das Warnsystem nicht mehr. Bei mehr als Millionen täglicher Aktivitäten, wie es im Serversystem eines mittelständischen Unternehmens häufig der Fall ist, sollten die Systeme eine False-Positive-Rate von weit weniger als ein Prozent aufweisen.
False-Positives: ein ständiges Problem von Sicherheitstechnologien
Die False-Positives in KI-Systemen zu eliminieren, scheint auf den ersten Blick einfacher als es in der Praxis ist. Denn es gibt unzählige Grenzfälle, die sich zwar mit menschlichem Wissen und Instinkt gut als Fehlalarm zuordnen lassen, Machine-Learning-Algorithmen hingegen schnell überfordern. Ein Beispiel ist das Kreditkartenverhalten eines Kunden, im Zeitverlauf betrachtet: Hat der Besitzer der Karte durchschnittlich einen monatlichen Umsatz von rund 500 Euro in Deutschland getätigt und wird dann ein vierstelliger Betrag im Ausland abgebucht, kann diese Bewegung einen automatisierten Alarm auslösen. Ein menschlicher Mitarbeiter kann bei der manuellen Prüfung allerdings schnell erkennen, wenn der Kunde nur verreist ist und im Ausland beispielsweise ein Auto gemietet oder eine Hotelrechnung bezahlt hat.
Derartiges menschliches Verständnis in KI-Systeme zu integrieren, ist eine der großen aktuellen Herausforderungen der Machine-Learning Forschung. Eine Lösung hierfür können fortgeschrittene Lernverfahren sein, die die Transaktionen nicht isoliert betrachten, sondern korrelieren. Unter Umständen hat der Kunde nämlich zwei Monate zuvor eine Flugbuchung über die Karte bezahlt, was den Rückschluss einer Reise zulässt.
Herausforderungen Lerndaten – Häufig unstrukturiert oder fehlerhaft
Übertragen auf den Netzwerkverkehr in einem Unternehmen mit mehreren hundert oder gar tausend Anwendern und noch mehr Endpunkten gilt es zunächst ein tiefes Verständnis der Ausgangslage zu gewinnen: Dazu gehört einerseits die Architektur des gesamten Systems und das Verhalten der Anwender zu verstehen, andererseits ein umfassendes Wissen um Angriffsvektoren und Lernalgorithmen der Anomalieerkennung zu erhalten. Damit jedoch der Algorithmus lernen kann, benötigt er Daten. Deshalb ist eine saubere Datenbasis unerlässlich – die jedoch in kaum einer Organisation existiert. Unstrukturierte, fehlerhafte, in den unterschiedlichsten Formaten und als Duplikate vorliegende Daten sind eher die Regel.
Hier kommt die Expertise von Data Scientists ins Spiel: Sie sind es, die mit den Daten und all ihren Fehlern und Schwächen umgehen müssen. Das Unternehmensnetzwerk in einem mittelständischen Unternehmen besteht aus vielen unterschiedlichen Systemen, die miteinander interagieren: Web- und E-Mail-Server, Datenbanken sowie Anwendungen aller Art. Ihre Kommunikation ist zwar standardisiert – jedoch lediglich bilateral. Resultat ist ein babylonisches Sprachgewirr im Netzwerk, das scheinbar nur aus Sonderfällen besteht. Der Algorithmus muss lernen, diese Kakophonie in Normverhalten und Abweichung zu unterscheiden.
Bedrohungsszenario Data Poisoning
Bekanntlich ist das Feld der IT-Security ein Hase-und-Igel-Spiel und auch Sicherheitsverfahren, die Machine Lerning nutzen, sind da keine Ausnahme. Deren gezielte Manipulation ist ein eigenes Bedrohungsszenario, auch bekannt als Data Poisoning. Darunter versteht man das ‚Vergiften‘ von Datensätzen, anhand derer die Maschine lernt. Dabei versuchen Angreifer das System während des Lernprozesses zu manipulieren, beispielsweise mit gezielt als ‚harmlos‘ deklarierten Viren und Würmern. Werden diese als Trainingsdaten verwendet, wäre das KI-System vergiftet, und bösartiges Verhalten wird als Gutartiges klassifiziert.
Das kann auch umgekehrt der Fall sein: Indem gutartiges Verhalten als bösartiges ausgegeben wird, gerät das System völlig außer Kontrolle, wird vom strapazierten User abgeschaltet und somit von den Angreifern letztlich ausgehebelt. Die Reinheit der Trainingsdaten ist daher extrem wichtig für alle datenbasierten Machine-Learning Verfahren. Diesbezüglich forscht auch das Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC – dieses wissenschaftliche Papier des Autors gibt weitere Details zu diesem Forschungsgebiet.
State-of-the-art Wissen erlangen und von neuerster Forschung profitieren
Damit sich IT-Sicherheitsverantwortliche in Unternehmen mit den Chancen von Machine Learning für den Schutz ihres Netzwerks vertraut machen können, bietet die Fraunhofer Academy das Seminar Maschinelles Lernen für mehr Sicherheit an. Teilnehmende erfahren dort mehr über die Grundlagen und Einsatzbereiche von maschinellem Lernen auf diesem Gebiet, die neuesten Entwicklungen und sind in der Lage einzuschätzen, was die Technologien tatsächlich zu leisten im Stande sind. Sie verstehen die Konzepte und Arbeitsweisen der Algorithmen sowie den Umgang mit Daten und Fehlern. Maschinelles Lernen ist aus zeitgemäßen IT-Securitylösungen bereits heute nicht mehr wegzudenken. Ein profundes Wissen und Verständnis der Funktionsweise ist deshalb zwingende Voraussetzung, um über das geeignete KI-gestützte Schutzkonzept für die Infrastruktur des eigenen Unternehmens zu entscheiden.
Hier geht’s zur Kursanmeldung: „Maschinelles Lernen für mehr Sicherheit“
Das Lernlabor Cybersicherheit ist ein Weiterbildungsprogramm, in dem Experten und Expertinnen von Fraunhofer und ausgewählten Fachhochschulen aktuellste Erkenntnisse auf dem Gebiet der Cybersicherheit vermitteln. Fach-und Führungskräfte aus Industrie und öffentlicher Verwaltung können so ihre Kompetenzen zu IT-Sicherheit aktualisieren und spezialisieren. An zahlreichen Standorten in Deutschland erhalten Sie eine kompakte Qualifizierung in hochwertigen Laboren. Die Präsenzphasen der Seminare dauern nur ein bis drei Tage und sind mit Online-Angeboten ergänzt, so dass die Kurse berufsbegleitend belegt werden können.