Als Data Scientist betrachte ich die Fragestellungen aus einem methodenorientierten Blickwinkel. Ich bringe meine Kenntnisse über die zur Verfügung stehenden Algorithmen bzw. Verfahren und mein statistisches Wissen in die Projektdefinition ein.
Eine erste Aufgabe ist es, gemeinsam mit dem Kunden aus einer betriebswirtschaftlichen Perspektive den möglichen Geschäftserfolg abzuschätzen (ROI). Auch muss hier geklärt werden, welche Use-Cases für eine erste Umsetzung möglich bzw. vom Kunden gewünscht sind.
Für alle Data Science Projekte ist die Ist-Aufnahme der bereits vorhandenen Datenbestände ein erster wichtiger Schritt. Hier ist zu klären, welche Daten vorliegen und mit welcher Qualität. Aus dieser Information können die weiteren Daten festgelegt werden, die für das Projekt wahrscheinlich erforderlich sind. Dies ist ein iterativer Prozess der im Projektverlauf mehrmals durchlaufen werden muss.
Mit dieser ersten Analyse ist eine erste Kosten- und Zeitplanung möglich.
Für die Projektdurchführung hat sich der Regelkreis nach der CRISP-DM (Cross-Industry Standard Process) sehr gut bewährt.
Sind die Randbedingen geklärt kann mit dem Projekt gestartet werden. Hier beginnt die eigentliche Arbeit des Data Scientist. Folgende Hauptpunkte sind nun abzuarbeiten:
-
Verständnis der Daten schaffen
-
Vor- und Aufbereitung der Daten
-
Modellieren mit Hilfe der unterschiedlichen Verfahren
-
Bewertung und Überprüfung der Ergebnisse
-
Bereitstellung und Anwendung der Ergebnisse im produktiven Betrieb
Diese 5 Punkte werden mit den Standard Softwaretools und Methoden des Data Scientist abgearbeitet. Erfahrungen liegen mit den folgenden Softwaretools vor.
Meine Aufgaben in den verschiedenen durchgeführten Projekten waren neben der Projektleitung das Einbringen meiner Kernkompetenzen in die Projekte.