Richtig eingestimmt: Die zentrale Rolle der Datenvorbereitung
Data-Science-Projekte gelingen am besten, wenn sie von Anfang an richtig aufgegleist werden. Kein Algorithmus wird ein gutes Ergebnis liefern, wird er nicht mit den passenden und entsprechend aufbereiteten Daten angefüttert. Daher gilt es bei jedem dieser Projekte, gleich zu Beginn die Daten gut aufzubereiten. Das ist zwar aufwändig – rentiert sich aber mit Blick auf das Ergebnis und erspart Zusatzschleifen. Wo der Mehrwert in der Datenvorbereitung liegt und wie diese am besten gelingt, erzählen Dr. Andreas Jedlitschka, Department Head Data Science bei Fraunhofer IESE und Dr. Adam Trendowicz, Expert Data Science, bei Fraunhofer IESE im Interview.
Herr Jedlitschka, Herr Trendowicz, was ist denn eigentlich Datenvorbereitung?
Andreas Jedlitschka: Grundsätzlich geht es darum, die Rohdaten, die man beispielsweise mithilfe von Sensorik, aus einer Datenbank oder einem Big Data Storage gewinnt, in eine Form zu bekommen, sodass ein bestimmter Algorithmus damit arbeiten kann. Denn nicht alle Daten sind für jeden Algorithmus geeignet. Letztlich geht es darum, Daten bereit für Analysen zu machen.
Was passiert, wenn die Daten nicht richtig vorbereitet sind?
Adam Trendowicz: Im schlimmsten Fall kann man die Daten gar nicht analysieren – oder aber, der Algorithmus funktioniert zwar mit dem Datensatz, aber die Ergebnisse sind sinnlos. Das kann geschehen, wenn die gewählten Daten nicht repräsentativ sind – beispielsweise, wenn man eine KI für ein Auto, das in Afrika fahren soll, mit Daten aus Skandinavien trainiert.
Andreas Jedlitschka: Der Hintergrund ist, dass Algorithmen komplett unterschiedliche Anforderungen an die Daten stellen. Es gibt beispielsweise Algorithmen, die können nur mit kategorischen, also z. B. mit Namen oder symbolischen Werten oder nur mit numerischen Daten umgehen.
Umso wichtiger ist es offensichtlich, Ressourcen für die Datenvorbereitung aufzuwenden. Was genau ist denn an der Stelle die Herausforderung, die vielleicht manche von diesem Schritt abhält?
Adam Trendowicz: Zum einen ist es großenteils eine aufwändige manuelle Aufgabe und zum anderen gilt es, viele Iterationen zu fahren. Im Zweifel, wenn die schlechten Analyseergebnisse auf die Daten zurückführbar sind, muss man seine Daten weiter oder komplett neu aufbereiten und den ganzen Analyseprozess nochmal wiederholen. So fließen unserer Erfahrung nach bis zu 80 % vom Gesamtaufwand eines Data-Science-Projektes in die Datenvorbereitung.
Können Sie beschreiben, wie Datenvorbereitung in der Praxis funktioniert?
Adam Trendowicz: Datenvorbereitung ist Teil zwei des Cross-Industry Standard Process for Data Mining (CRISP-DM), der sechs wichtigen Schritte für jedes Datenanalyseprojekt definiert. Nachdem ein Business Understanding (Geschäftsverständnis) erreicht ist, müssen die erforderlichen Daten identifiziert und semantisch verstanden werden (Data Understanding / Datenverständnis): Angenommen, man weiß, welche Daten und welche Methoden man braucht, lassen sich bestimmte Qualitätsanforderungen an Daten stellen. Zudem gibt es Anforderungen an die Struktur und Formatierung der Daten. Qualitätsanforderungen beziehen sich zum Beispiel auf Korrektheit, Vollständigkeit oder Konsistenz der Daten. Im nächsten Schritt gilt es dann, diese Daten in Bezug auf Struktur, Formatierung und Qualität zu prüfen. Sollte hier etwas nicht richtig sein, wäre der nächste Schritt die Frage, ob und wie sich diese Daten aufbereiten lassen.
Kann KI helfen, den Aufwand der Datenvorbereitung zu reduzieren?
Adam Trendowicz: Im Prinzip ginge es hier darum, den Prozess der Datenvorbereitung komplett zu automatisieren. Das ist der Heilige Gral der Datenvorbereitung. Weil aber an dieser Stelle verschiedene Qualitätsaspekte von Daten eine Rolle spielen, die wiederum vom Kontext und dem Analysealgorithmus sowie von vielen anderen Aspekten abhängig sind, ergibt sich eine Komplexität, die bisher nicht automatisierbar ist – obwohl es in der Richtung bereits Versuche gibt. Bisher hängt der Erfolg der Datenaufbereitung stark von den Fähigkeiten der involvierten Datenexperten ab.
In Ihrem Seminar zum Thema Datenvorbereitung bei der Fraunhofer Academy geht es darum, wie man Daten für Datenanalyseprojekte vorbereiten kann. An welcher Stelle holen Sie die Teilnehmer*innen ab?
Andreas Jedlitschka: Weiterbildung spielt an dieser Stelle eine entscheidende Rolle – um die Fülle an frei verfügbaren Werkzeugen auch richtig zu verwenden, gilt es, die Nutzer*innen für den essenziellen Teil der Datenanalyse, die Datenvorbereitung zu sensibilisieren und diese systematisch anzugehen. Wir unterstützen mit methodischen Hilfestellungen, Lösungsansätzen und Wissenstransfers. Im Rahmen der Fraunhofer-Allianz Big Data und Künstliche Intelligenz werden übrigens noch viele weitere interessante und teilweise zertifizierte Schulungen zum Thema Data Science, wie Datenanalyse oder Datenmanagement, oder aber auch zu „Safe AI – Sichere Lösungen, die KI enthalten“ angeboten.
Zur Schulungssuche der Fraunhofer-Allianz Big Data und Künstliche Intelligenz
Unsere Experten im Interview
Dr. Andreas Jedlitschka,
Department Head Data Science bei Fraunhofer IESE
Dr. Adam Trendowicz,
Expert Data Science bei Fraunhofer IESE
Jutta Haubenreich ist seit 2009 in wechselnden Rollen bei Fraunhofer Academy tätig. Sie war u.a. für das übergreifende Marketing der Fraunhofer Academy und für die Betreuung und Vermarktung von Fraunhofer-Weiterbildungsprogrammen im Bereich Energie und Nachhaltigkeit zuständig. Aktuell betreut sie insbesondere die Fraunhofer Wasserstoff Education Community. Von 2011 bis 2017 war sie Projektleiterin und Koordinatorin des BMBF-Verbundprojektes »mint.online: Berufsbegleitende Studienangebote in MINT-Fächern«.
Von 2015 bis 2022 promovierte sie berufsbegleitend am Institut für Kommunikationswissenschaft und Medienforschung der LMU München zum Thema »Der Einfluss des Fernsehens auf Bildungsmotivation und -entscheidung«.